FinRAGBench-V (EMNLP 2025) — це перший масштабний бенчмарк для мультимодального RAG із візуальним цитуванням у фінансах, що охоплює понад 112 тис. сторінок документів і 1394 анотованих людиною пар запитання-відповідь. Найкращі моделі досягають лише 20–61% повноти цитування на рівні блоків, а мультимодальний пошук перевершує текстовий майже на 50 відсоткових пунктів.
Fin-RATE тестує 17 LLM на 7 500 парах питань та відповідей, відібраних експертами з 2 472 звітів SEC, виявляючи падіння точності на 18,60% при лонгітюдному відстеженні та зниження на 54 пункти для спеціалізованої на фінансах моделі Fin-R1 у міжсуб'єктних завданнях — при цьому конвеєр пошуку (retrieval), а не базова модель, є критичним вузьким місцем.
FinDER тестує RAG на 5 703 реальних запитах аналітиків хедж-фондів до звітів 10-K компаній S&P 500; E5-Mistral досягає лише 25,95% повноти контексту, а запити з великою кількістю скорочень коштують 8,2 пункта точності — доказ того, що нормалізація запитів, а не кращі ембедінги, є першим виправленням для фінансових AI-конвеєрів.
DocFinQA замінює відібрані уривки FinQA довжиною 700 слів на повні звіти SEC обсягом 123 000 слів, показуючи 175-кратне збільшення контексту, що майже вдвічі знижує точність GPT-4 на довгих документах. Конвеєри пошуку не можуть знайти потрібний фрагмент у 45% випадків при HR@3 — і моделі з довгим контекстом не є заміною.
FinAuditing tests 13 LLMs zero-shot on 1,102 real SEC XBRL filing instances; top scores are 13.86% on financial math verification and 12.42% on concept retrieval—results that directly bound what AI accounting tools can be trusted to automate without external tooling.
TAT-LLM тонко налаштовує LLaMA 2 7B за допомогою LoRA на бенчмарках фінансових таблиць та текстів, досягаючи 64,60% EM на FinQA — перевершуючи GPT-4 з 63,91% — завдяки розкладанню логічного висновку на детерміновані кроки «Вилучення-Міркування-Виконання», що усувають арифметичні помилки.
MultiHiertt (ACL 2022) представляє 10 440 пар запитань та відповідей із реальних фінансових звітів, які містять у середньому 3,89 ієрархічних таблиць кожна; найсучасніші моделі отримують 38% за показником F1 проти 87% у людей, зі штрафом у 15 балів для запитань, що стосуються кількох таблиць — що кількісно визначає розрив у пошуку даних, який має подолати ШІ у сфері фінансів.
ConvFinQA (EMNLP 2022) розширює FinQA до багатокрокових розмов на основі звітів про прибутки S&P 500, виявивши, що найкраща донавчена модель досягає точності виконання 68,9% проти 89,4% у людей-експертів — і цей показник падає до 52,4% у гібридних багатоаспектних розмовах, де моделі повинні переносити числовий контекст між різними фінансовими темами.
TAT-QA — це бенчмарк із 16 552 запитань за контекстами фінансових звітів (таблиці + текст), який довів, що обґрунтування доказами, а не арифметика, є основним вузьким місцем у ШІ для фінансів; до 2024 року донастроєні 7B LLM досягли 83% F1, майже наздогнавши людський показник у 91%.
FinQA (EMNLP 2021) зібрав 8 281 пару питань та відповідей зі звітів про прибутки компаній S&P 500, що потребують багатоетапних арифметичних програм. Нейронні моделі набрали 61% на момент випуску проти 91% у експертів-людей; точність падає до 22% у програмах з трьома або більше етапами. Режими збоїв — доменні константи, крос-модальне обґрунтування, довжина ланцюжка — безпосередньо відображають ви клики, з якими сьогодні стикаються агенти Beancount.