Перейти к контенту

Bean Labs Research Log

LLM не подходят для прогнозирования временных рядов: что NeurIPS 2024 значит для ИИ в финансах

В статье NeurIPS 2024 Spotlight исследуются три метода прогнозирования на базе LLM — OneFitsAll, Time-LLM и CALF. Исследование показало, что удаление языковой модели улучшает точность в большинстве случаев и ускоряет обучение до 1383 раз. Для финансовых приложений, таких как прогнозирование баланса Beancount, легкие специализированные модели стабильно превосходят адаптированные LLM.

Latest articles

AuditCopilot: LLM для обнаружения мошенничества в бухгалтерском учете с двойной записью

AuditCopilot применяет LLM с открытым исходным кодом (Mistral-8B, Gemma, Llama-3.1) для обнаружения мошенничества в корпоративных журнальных проводках, сокращая количество ложноположительных результатов с 942 до 12. Однако абляционное исследование показывает, что LLM функционирует в первую очередь как уровень синтеза поверх оценок Isolation Forest, а не как независимый детектор аномалий.

TAT-LLM: Тонко настроенная модель LLaMA 2 для дискретных рассуждений над финансовыми таблицами и текстом

TAT-LLM выполняет тонкую настройку LLaMA 2 7B с помощью LoRA на бенчмарках QA для финансовых таблиц и текстов, достигая 64,60% EM на FinQA и превосходя GPT-4 (63,91%). Это достигается путем декомпозиции рассуждений на детерминированные этапы «Извлечение-Рассуждение-Выполнение», что устраняет арифметические ошибки.

Fine-tuning против RAG: почему поиск побеждает при внедрении новых знаний в LLM

Эмпирическое сравнение RAG и неконтролируемого дообучения на моделях LLM с 7 млрд параметров показывает, что RAG достигает точности 0,875+ на фактах после даты отсечки обучения, в то время как дообучение останавливается на уровне 0,504. Это имеет прямое значение для проектирования агентов Beancount и любых систем, требующих частого обновления знаний.

IRCoT: чередование поиска с цепочкой рассуждений для многоэтапных ответов на вопросы

IRCoT чередует поиск BM25 с каждым этапом цикла рассуждений «цепочка мыслей», достигая +11,3 к полноте поиска и +7,1 к F1 на HotpotQA по сравнению с одноэтапным RAG — и показывает, что модель 3B может превзойти GPT-3 175B при правильной стратегии поиска.

FLARE: Активная генерация с расширенным поиском

FLARE (EMNLP 2023) улучшает стандартный RAG, инициируя поиск в середине процесса генерации на основе порогов вероятности токенов. Он достигает 51,0 EM на 2WikiMultihopQA против 39,4 при однократном поиске, однако ошибки калибровки в моделях, настроенных на следование инструкциям, ограничивают его надежность для финансовых агентов.

Генерация с расширенным поиском для задач NLP с интенсивным использованием знаний

Статья Льюиса и др. на NeurIPS 2020 представила гибридную архитектуру RAG — генератор BART-large в паре с ретривером на базе индекса FAISS по 21 миллиону отрывков из Википедии. Она достигла 44,5 EM на Natural Questions и заложила основу разделения на параметрическую и непараметрическую память, которая сегодня лежит в основе большинства производственных систем ИИ. В этом обзоре рассматриваются компромиссы между RAG-Sequence и RAG-Token, режим отказа в виде коллапса поиска и то, что значат устаревшие индексы для финансового ИИ, построенного на журналах Beancount, работающих только на добавление.

MultiHiertt: бенчмаркинг численных рассуждений в иерархических финансовых таблицах

MultiHiertt (ACL 2022) представляет 10 440 пар вопросов и ответов из реальных финансовых отчетов, содержащих в среднем 3,89 иерархических таблиц; современные модели показывают результат 38% F1 против 87% у людей, со штрафом в 15 пунктов для вопросов по нескольким таблицам — это количественно оценивает разрыв в поиске данных, который должен преодолеть ИИ в финансах.

ConvFinQA: многоходовые финансовые вопросы и ответы и 21-балльный разрыв между моделями и экспертами-людьми

ConvFinQA (EMNLP 2022) расширяет FinQA до многоходовых диалогов по отчетам о доходах S&P 500, обнаружив, что лучшая дообученная модель достигает точности выполнения 68,9% против 89,4% у экспертов-людей — и падает до 52,4% в гибридных многоаспектных диалогах, где модели должны переносить числовой контекст между различными финансовыми темами.

TAT-QA: Гибридный бенчмарк для ответов на вопросы и логических выводов на основе таблиц и текста в финансовых отчетах

TAT-QA — это бенчмарк из 16 552 вопросов по гибридным контекстам финансовых отчетов (таблица + текст), который показал, что обоснование доказательств (grounding), а не арифметика, является основным узким местом в финансовом ИИ; к 2024 году дообученные LLM на 7 млрд параметров достигли 83% F1, сократив большую часть разрыва по сравнению с человеческим порогом в 91%.