Преминете към основното съдържание

Bean Labs Research Log

LLM моделите не са полезни за прогнозиране на времеви редове: Какво означава NeurIPS 2024 за финансовия ИИ

Доклад от NeurIPS 2024 Spotlight извършва аблация на три базирани на LLM метода за прогнозиране на времеви редове — OneFitsAll, Time-LLM и CALF — и установява, че премахването на езиковия модел подобрява точността в повечето случаи, с до 1383 пъти по-бързо обучение. За финансови ИИ приложения като прогнозиране на баланса в Beancount, леките, специално създадени за целта модели системно превъзхождат преработените LLM.

Latest articles

AuditCopilot: LLM за откриване на измами при двустранно счетоводство

AuditCopilot прилага LLM с отворен код (Mistral-8B, Gemma, Llama-3.1) за откриване на измами в корпоративни счетоводни записи, намалявайки фалшиво положителните резултати от 942 на 12 — но аблационният анализ разкрива, че LLM функционира основно като слой за синтез върху резултатите от Isolation Forest, а не като независим детектор на аномалии.

TAT-LLM: Фино настроена LLaMA 2 за дискретно разсъждение върху финансови таблици и текст

TAT-LLM фино настройва LLaMA 2 7B чрез LoRA върху бенчмаркове за финансови въпроси и отговори от таблици и текстове, постигайки 64,60% EM на FinQA — надминавайки GPT-4 (63,91%) — чрез декомпозиране на разсъжденията в детерминистични стъпки Извличане-Разсъждение-Изпълнение, които елиминират аритметичните грешки.

Фино донастройване срещу RAG: Защо извличането печели при вграждането на нови знания в LLM

Емпирично сравнение на RAG срещу неконтролирано фино донастройване при LLM със 7 млрд. параметри показва, че RAG постига 0,875+ точност върху факти след крайния срок на обучение, докато финото донастройване спира на 0,504 — с преки последици за проектирането на Beancount агенти и всяка система, изискваща чести актуализации на знанията.

IRCoT: Преплитане на извличане с верига от мисли за многоетапно търсене на отговори

IRCoT преплита BM25 извличане с всяка стъпка от цикъла на разсъждения чрез верига от мисли, постигайки +11.3 recall при извличане и +7.1 F1 при HotpotQA спрямо едностепенен RAG — и показва, че 3B модел може да победи GPT-3 175B, когато стратегията за извличане е правилна.

FLARE: Активно извличане с добавена генерация

FLARE (EMNLP 2023) подобрява стандартния RAG чрез задействане на извличане по средата на генерацията с използване на прагове за увереност на вероятността на токените, достигайки 51,0 EM на 2WikiMultihopQA спрямо 39,4 за еднократно извличане — но провалите в калибрирането при чат модели, настроени чрез инструкции, ограничават надеждността му за производствени финансови агенти.

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Lewis et al.'s NeurIPS 2020 paper introduced the hybrid RAG architecture—a BART-large generator paired with a FAISS-indexed retriever over 21 million Wikipedia passages—achieving 44.5 EM on Natural Questions and establishing the parametric/non-parametric split that now underlies most production AI systems. This review covers RAG-Sequence vs. RAG-Token trade-offs, the retrieval collapse failure mode, and what stale indexes mean for financial AI built on append-only Beancount ledgers.

MultiHiertt: Тестване на числено разсъждение върху многостепенни йерархични финансови таблици

MultiHiertt (ACL 2022) представя 10 440 двойки въпроси и отговори от реални финансови отчети със средно 3,89 йерархични таблици всеки; съвременните модели постигат 38% F1 срещу 87% за хората, с 15 точки наказание за въпроси между различни таблици — количествено измерване на разликата в извличането, която финансовият AI трябва да преодолее.

ConvFinQA: Многократни финансови въпроси и отговори и 21-точковата разлика между моделите и човешките експерти

ConvFinQA (EMNLP 2022) разширява FinQA в многократни диалози върху отчетите за приходите на S&P 500, установявайки, че най-добрият фино настроен модел постига 68,9% точност на изпълнение срещу 89,4% за човешки експерти — и спада до 52,4% при хибридни разговори с множество аспекти, където моделите трябва да пренасят числовия контекст през различни финансови теми.

TAT-QA: Хибриден бенчмарк за въпроси и отговори върху таблици и текст за логически разсъждения върху финансови годишни отчети

TAT-QA е бенчмарк с 16 552 въпроса върху хибридни контексти от таблици и текст във финансови отчети, който показа, че приземяването на доказателствата (grounding) — а не аритметиката — е основното тясно място в AI за финансите; до 2024 г. фино настроени 7B LLM модели достигнаха 83% F1, запълвайки по-голямата част от разликата спрямо 91% таван при хората.