Перейти до основного вмісту

Bean Labs Research Log

LLM не корисні для прогнозування часових рядів: що означає NeurIPS 2024 для ШІ у фінансах

У доповіді NeurIPS 2024 Spotlight досліджуються три методи прогнозування часових рядів на основі LLM — OneFitsAll, Time-LLM та CALF. Було виявлено, що видалення мовної моделі покращує точність у більшості випадків і прискорює навчання до 1383 разів. Для фінансових застосунків ШІ, як-от прогнозування балансу Beancount, легкі спеціалізовані моделі стабільно перевершують адаптовані LLM.

Latest articles

AuditCopilot: LLM для виявлення шахрайства в подвійній бухгалтерії

AuditCopilot застосовує LLM з відкритим вихідним кодом (Mistral-8B, Gemma, Llama-3.1) для виявлення шахрайства в корпоративних журнальних проведеннях, скорочуючи кількість хибнопозитивних результатів з 942 до 12 — але абляційне дослідження показує, що LLM функціонує переважно як шар синтезу поверх оцінок Isolation Forest, а не як незалежний детектор аномалій.

TAT-LLM: Тонко налаштована LLaMA 2 для дискретного логічного висновку над фінансовими таблицями та текстом

TAT-LLM тонко налаштовує LLaMA 2 7B за допомогою LoRA на бенчмарках фінансових таблиць та текстів, досягаючи 64,60% EM на FinQA — перевершуючи GPT-4 з 63,91% — завдяки розкладанню логічного висновку на детерміновані кроки «Вилучення-Міркування-Виконання», що усувають арифметичні помилки.

Тонке налаштування проти RAG: Чому пошук перемагає при впровадженні нових знань у LLM

Емпіричне порівняння RAG та неконтрольованого тонкого налаштування LLM з 7 млрд параметрів показує, що RAG досягає точності 0,875+ на фактах після дати відсікання знань, тоді як тонке налаштування зупиняється на 0,504. Це має прямі наслідки для розробки агентів Beancount та будь-яких систем, що потребують частого оновлення знань.

IRCoT: чергування пошуку та ланцюжка міркувань для багатоетапних запитань

IRCoT чергує пошук BM25 з кожним кроком циклу міркувань «ланцюжка думок», забезпечуючи +11,3 повноти пошуку та +7,1 F1 на HotpotQA порівняно з однокроковим RAG — і показує, що модель на 3B параметрів може перевершити GPT-3 175B за умови правильної стратегії пошуку.

FLARE: Активна генерація з доповненням пошуком

FLARE (EMNLP 2023) вдосконалює стандартний RAG, запускаючи пошук під час генерації на основі порогів імовірності токенів. Він досягає 51.0 EM на 2WikiMultihopQA порівняно з 39.4 для одноразового пошуку, проте помилки калібрування в інструктивно налаштованих чат-моделях обмежують його надійність для промислових фінансових агентів.

Генерація з доповненим пошуком для завдань NLP з інтенсивним використанням знань

Стаття Льюїса та співавт. на NeurIPS 2020 представила гібридну архітектуру RAG — генератор BART-large у парі з ретрівером на базі індексу FAISS понад 21 мільйоном уривків з Вікіпедії — досягнувши 44,5 EM у Natural Questions і встановивши параметричний/непараметричний поділ, який зараз лежить в основі більшості виробничих систем ШІ. Цей огляд охоплює компроміси між RAG-Sequence та RAG-Token, режим збою «колапс пошуку» та те, що означають застарілі індекси для фінансового ШІ, побудованого на реєстрах Beancount, що працюють лише на додавання.

MultiHiertt: Тестування чисельного міркування на основі багатоієрархічних фінансових таблиць

MultiHiertt (ACL 2022) представляє 10 440 пар запитань та відповідей із реальних фінансових звітів, які містять у середньому 3,89 ієрархічних таблиць кожна; найсучасніші моделі отримують 38% за показником F1 проти 87% у людей, зі штрафом у 15 балів для запитань, що стосуються кількох таблиць — що кількісно визначає розрив у пошуку даних, який має подолати ШІ у сфері фінансів.

ConvFinQA: багатокрокові фінансові запитання та відповіді та 21-пунктовий розрив між моделями та експертами-людьми

ConvFinQA (EMNLP 2022) розширює FinQA до багатокрокових розмов на основі звітів про прибутки S&P 500, виявивши, що найкраща донавчена модель досягає точності виконання 68,9% проти 89,4% у людей-експертів — і цей показник падає до 52,4% у гібридних багатоаспектних розмовах, де моделі повинні переносити числовий контекст між різними фінансовими темами.

TAT-QA: Гібридний бенчмарк відповідей на запитання для аналізу фінансової звітності

TAT-QA — це бенчмарк із 16 552 запитань за контекстами фінансових звітів (таблиці + текст), який довів, що обґрунтування доказами, а не арифметика, є основним вузьким місцем у ШІ для фінансів; до 2024 року донастроєні 7B LLM досягли 83% F1, майже наздогнавши людський показник у 91%.