Перейти до основного вмісту

Fin-RATE: Як LLM зазнають невдачі у міжперіодному та міжсуб'єктному фінансовому аналізі

· 7 хв. читання
Mike Thrift
Mike Thrift
Marketing Manager

Траєкторія розвитку фінансових бенчмарків для LLM продовжує розширюватися, і Fin-RATE є найяскравішим прикладом того, що відбувається, коли ми нарешті просимо моделі робити те, що роблять справжні аналітики: відстежувати компанію не просто в межах одного звіту, а протягом кількох періодів та у порівнянні з конкурентами по галузі.

Про дослідження

2026-06-29-fin-rate-real-world-financial-analytics-tracking-evaluation-benchmark

Fin-RATE, опублікований у лютому 2026 року Їдуном Цзяном, Чжунжуном Ченем та колегами з Єльського університету та партнерських інституцій, представляє бенчмарк, побудований на основі 2 472 звітів SEC від 43 компаній із 36 галузей за період 2020–2025 років. Бенчмарк організовує 7 500 експертно відібраних пар QA (питання-відповідь) у три типи завдань, що відображають робочі процеси професійних аналітиків: DR-QA (деталізація та обґрунтування в межах одного звіту), EC-QA (міжсуб'єктне порівняння двох компаній за спільною темою) та LT-QA (лонгітюдне відстеження однієї фірми в різні звітні періоди). Кожен тип завдання містить 2 500 питань. Оцінка охоплює 17 LLM — пропрієтарні моделі, включаючи GPT-4.1 та GPT-5, відкриті моделі загального призначення, такі як DeepSeek-V3 та Llama-3.3-70B, а також спеціалізовані фінансові моделі, як-от Fin-R1, Fino1-14B, FinanceConnect-13B та TouchstoneGPT-7B. Оцінювання проводиться за допомогою уніфікованої системи LLM-as-Judge з трьома незалежними суддями (GPT-5, DeepSeek-V3.2, Qwen3-235B), які оцінюють кожну відповідь на правильність та за п’ятьма аналітичними вимірами.

Ключові ідеї

  • Продуктивність різко падає зі зростанням складності завдань: точність знижується на 18,60% при переході від DR-QA (один документ) до лонгітюдного LT-QA та на 14,35% від DR-QA до міжсуб'єктного EC-QA (в середньому по всіх 17 моделях).
  • GPT-5 з веб-пошуком є лідером, проте її пікова точність становить лише 43–44% у всіх трьох типах завдань — це гнітючий результат для бенчмарку, що має відображати реальну роботу аналітиків.
  • Fin-R1, спеціалізована модель для фінансових міркувань, досягає 57,48% у DR-QA, але падає до 3,32% у EC-QA — зниження на 54 пункти, що значно перевищує деградацію будь-якої загальної моделі.
  • У налаштуваннях RAG продуктивність усіх моделей падає значно нижче 27% порівняно з продуктивністю на ідеальному контексті (gold-context), яка сягає 57,48%; конвеєр пошуку, а не сама LLM, є основним вузьким місцем.
  • У статті представлена таксономія помилок із 13 типів у чотирьох категоріях: галюцинації та суперечності, специфічні для фінансів числові та семантичні помилки, помилки розуміння запиту/контексту та збої на рівні пошуку. Відсутність доказів (Missing Evidence) становить 75,44% помилок у завданні EC-QA при використанні RAG.
  • Спеціалізовані фінансові моделі демонструють систематично вищий рівень галюцинацій, ніж загальні моделі в складних завданнях, попри краще володіння фінансовою термінологією.

Що витримує критику, а що ні

Структура з трьома типами завдань дійсно добре продумана. Більшість фінансових бенчмарків (FinQA, TAT-QA, FinanceBench) розглядають QA як роботу з одним документом. Fin-RATE — один із перших, хто явно моделює міжсуб'єктне порівняння та лонгітюдне відстеження як першочергові завдання, і результати виявляють фундаментальну проблему: сучасні LLM цілком пристойно справляються з ізольованими питаннями щодо розкриття інформації, але зазнають невдачі в той момент, коли їм потрібно синтезувати дані з різних документів, суб'єктів або часових періодів.

Крах Fin-R1 є найбільш вражаючим висновком статті, і я вважаю, що йому приділяють недостатньо уваги. Фінансово оптимізована модель, яка чудово справляється з вилученням даних з одного документа, очевидно, загнала себе в кут під час навчання: вона вивчила шаблони для відповідей у межах одного документа, а не стратегії міркування для порівняння суб'єктів і періодів. Це конкретне попередження проти вузького доменного тонкого налаштування (fine-tuning) без явного контролю над багатодокументними міркуваннями. Модель, ймовірно, перенавчилася на поверхневому шаблоні "знайти число у звіті" і не має шляхів генералізації для завдання "порівняти це число з еквівалентним числом в іншому звіті іншої компанії".

З іншого боку, є методологічні питання. GPT-5 одночасно є і однією з оцінюваних моделей, і одним із трьох суддів. Автори використовують трьох суддів, щоб зменшити індивідуальну упередженість, що допомагає, але накладення ролей судді та найсильнішої оцінюваної моделі викликає дискомфорт. Стаття повідомляє про високу згоду між суддями, але не вказує окремо, яку частку відповідей GPT-5 оцінювала сама GPT-5, і чи відрізняються її оцінки систематично від оцінок двох інших суддів. Будь-яка упередженість у самооцінці могла б завищити результати для найкращої моделі дослідження.

Вибірка з 43 компаній також є досить обмеженою. Охоплення типів звітів заслуговує на похвалу (10-K, 10-Q, 8-K, 6-K, DEF 14A та кілька серій S і SC), але одні й ті самі 43 компанії фігурують у всіх завданнях. Моделі, які бачили звіти цих компаній під час попереднього навчання, мають некількісну перевагу, і стаття не містить аналізу на наявність витоку даних (contamination analysis).

Висновок щодо пошуку (retrieval) важливий, але неповний. Стаття ідентифікує, що продуктивність RAG падає приблизно на 30 пунктів порівняно з ідеальним контекстом через помилки пошуку. Але вона тестує лише одну конфігурацію пошуку — розглядаючи збій пошуку як діагноз, а не як параметр для системного варіювання. Наступна стаття, яка б дослідила різні архітектури пошуку на базі Fin-RATE, була б набагато кориснішою.

Чому це важливо для фінансового ШІ

Аудит головної книги Beancount потребує саме тих двох можливостей, які, за даними Fin-RATE, є проблемними: лонгітюдного відстеження (як цей рахунок змінювався протягом фінансових років?) та міжсуб'єктного порівняння (чи узгоджується баланс цієї дочірньої компанії з консолідованим звітом?). Падіння точності на 18,60% при часовому відстеженні — це конкретна цифра, яка має відкоригувати очікування від будь-якого агента Beancount, що аналізує дані за кілька звітних періодів. Якщо передові моделі демонструють точність лише 43% у лонгітюдному QA за звітами SEC навіть з ідеальним контекстом, то агент Beancount, що працює з багаторічною історією реєстрів, повинен бути спроєктований з акцентом на точний пошук, часову прив'язку та можливість залучення людини, а не на наскрізний висновок LLM.

Висновок про домінування якості пошуку є критичним для визначення пріоритетів при проєктуванні систем. Якщо продуктивність з ідеальним контекстом майже вдвічі перевищує результати RAG, то правильні інвестиції — це краща фрагментація даних (chunking), вибір пасажів та пошук, а не потужніша базова LLM. Це повторює висновки DocFinQA щодо об’ємних звітів SEC: вузьким місцем є конвеєр навколо моделі.

Попередження щодо Fin-R1 також безпосередньо стосується використання Beancount. Тонке налаштування на синтаксисі Beancount DSL та шаблонах транзакцій може створити модель, яка добре генерує прості записи, але «ламається» під час звірки кількох рахунків за кілька періодів — саме там, де аудит приносить найбільшу користь. Спеціалізація без навчання багатодокументним міркуванням є крихкою саме в тих аспектах, які вимірює Fin-RATE.

Що почитати далі

  • Fin-R1 (arXiv:2503.16252) — щоб зрозуміти, яка схема навчання призвела до такої слабкої роботи з кількома документами, і чи планувалися багатодокументні міркування взагалі.
  • FinTrace (arXiv:2604.10015) — оцінка траєкторії виклику інструментів LLM у 34 фінансових категоріях; доповнює статичний погляд Fin-RATE діагностикою процесу: де моделі викликають правильні інструменти, але не можуть зробити висновки з результатів.
  • OpenHands (arXiv:2407.16741) — відкрита платформа агентів, що лежить в основі оцінок TheAgentCompany; розуміння її архітектури прояснює, які базові можливості агентів були доступні, а які прогалини зумовлені складністю завдання, а не обмеженнями платформи.