Преминете към основното съдържание

Fin-RATE: Как големите езикови модели (LLM) се провалят при междупериодния и междуфирмения финансов анализ

· 8 минути четене
Mike Thrift
Mike Thrift
Marketing Manager

Траекторията на бенчмарковете за финансови LLM продължава да разширява обхвата си и Fin-RATE е най-ясният пример досега за това какво се случва, когато най-накрая поискаме от моделите да направят това, което правят истинските анализатори: да проследят компания не само в рамките на един отчет, но и през множество периоди и спрямо нейните конкуренти в индустрията.

Документът

2026-06-29-fin-rate-real-world-financial-analytics-tracking-evaluation-benchmark

Fin-RATE, публикуван през февруари 2026 г. от Идонг Дзян, Джунронг Чен и колеги от Йейл и сътрудничещи институции, представя бенчмарк, изграден от 2 472 отчета към SEC за 43 компании и 36 индустрии, обхващащи периода 2020–2025 г. Бенчмаркът организира 7 500 експертно подбрани двойки въпроси и отговори в три типа задачи, които отразяват работните процеси на професионалните анализатори: DR-QA (детайли и разсъждения в рамките на един отчет), EC-QA (сравнение между предприятия на две компании по обща тема) и LT-QA (лонгитудиално проследяване на една и съща фирма през отчетните периоди). Всеки тип задача съдържа 2 500 въпроса. Оценката обхваща 17 LLM — модели със затворен код, включително GPT-4.1 и GPT-5, общи модели с отворен код като DeepSeek-V3 и Llama-3.3-70B, и специализирани за финанси модели като Fin-R1, Fino1-14B, FinanceConnect-13B и TouchstoneGPT-7B. Оценяването използва единна рамка „LLM-като-съдия“ с трима независими съдии (GPT-5, DeepSeek-V3.2, Qwen3-235B), оценяващи всеки отговор по отношение на коректност и пет аналитични измерения.

Ключови идеи

  • Производителността се срива с нарастване на сложността на задачите: точността пада средно с 18,60% от DR-QA за един документ до лонгитудиалната LT-QA и с 14,35% от DR-QA до EC-QA за различни предприятия при всички 17 модела.
  • GPT-5 с търсене в мрежата е най-добрият модел, но неговата пикова точност е едва 43–44% за трите типа задачи — разочароващо за бенчмарк, предназначен да отразява работните процеси на реалните анализатори.
  • Fin-R1, специализираният във финансите модел за разсъждения, достига 57,48% при DR-QA, но се срива до 3,32% при EC-QA — спад от 54 пункта, който далеч надхвърля влошаването при всеки общ модел.
  • При RAG настройки, производителността на всички модели пада далеч под 27%, в сравнение с производителността при идеален контекст (gold-context) до 57,48%; конвейерът за извличане (retrieval pipeline), а не LLM, е основното ограничение.
  • Документът въвежда таксономия от 13 типа грешки в четири категории: халюцинации и противоречия, специфични за финансите числови и семантични грешки, грешки в разбирането на заявката/контекста и повреди на ниво извличане. Липсващите доказателства (Missing Evidence) представляват 75,44% от грешките в задачата EC-QA при RAG.
  • Специализираните във финансите модели показват системно по-високи нива на халюцинации от общите модели при сложни задачи, въпреки по-доброто познаване на финансовата терминология.

Кое издържа проверката — и кое не

Структурата с три пътеки е наистина добре проектирана. Повечето финансови бенчмаркове (FinQA, TAT-QA, FinanceBench) разглеждат въпросите и отговорите като задача за един документ. Fin-RATE е един от първите, които изрично моделират сравнението между предприятия и лонгитудиалното проследяване като първокласни задачи, а резултатите разкриват фундаментална празнина: настоящите LLM се справят приемливо с изолирани отчети, но се разпадат в момента, в който трябва да синтезират информация от различни документи, предприятия или периоди от време.

Сривът на Fin-R1 е най-забележителното откритие в документа и мисля, че е подценено. Финно настроен модел за финанси, който превъзхожда при извличането от единични документи, очевидно се е вкарал в капан: той е научил шаблони за отговаряне в рамките на един документ, а не стратегии за разсъждение за свързване на предприятия и периоди от време. Това е конкретно предупреждение срещу тясното специализиране на домейна без изричен надзор на разсъжденията върху множество документи. Моделът вероятно се пренастройва към плиткия модел на „намери числото в отчета“ и няма път за обобщаване към „сравни това число със съответното число в друг отчет от друга компания“.

Въпреки това има методологични опасения, които си струва да бъдат отбелязани. GPT-5 е едновременно един от оценяваните модели и един от тримата съдии, оценяващи отговорите. Авторите използват трима съдии, за да намалят индивидуалното пристрастие, което помага, но припокриването между съдия и модел с най-силния оценяван модел е смущаващо. Документът отчита високо съгласие между съдиите, но не количественo определя отделно каква част от отговорите на GPT-5 са били оценени от самия GPT-5, нито дали самооценките на GPT-5 се различават системно от тези на другите двама съдии. Всяко пристрастие при самооценката би надуло водещия резултат за най-добре представящия се модел в изследването.

Извадката от 43 компании също е малка. Обхватът на видовете отчети е похвално широк (10-K, 10-Q, 8-K, 6-K, DEF 14A и няколко серии S и SC), но едни и същи 43 компании се появяват във всички задачи. Моделите, които са виждали отчетите на тези компании по време на предварителното обучение, имат неквантифицирано предимство и документът не включва никакъв анализ на замърсяването на данните (contamination analysis).

Откритието за извличането на данни е важно, но непълно. Документът идентифицира, че RAG производителността се срива с приблизително 30 пункта в сравнение с идеалния контекст, защото извличането се проваля. Но той сравнява само една конфигурация за извличане — той третира провала на извличането като диагноза, а не като нещо, което да се променя систематично. Последващ документ, който изследва различни архитектури за извличане върху Fin-RATE, би бил много по-приложим на практика.

Защо това е важно за финансовия ИИ

Одитът на главната книга в Beancount се нуждае точно от двете възможности, които Fin-RATE разкрива като проблемни: лонгитудиално проследяване (как се е развила тази сметка през фискалните години?) и сравнение между обекти (дали балансът на това дъщерно дружество съвпада с консолидирания отчет?). Спадът в точността от 18,60% при времевото проследяване е конкретна цифра, която трябва да калибрира очакванията за всеки Beancount агент, разсъждаващ върху множество отчетни периоди. Ако водещите модели се провалят при 43% точност при лонгитудиални SEC въпроси с идеален контекст, един Beancount агент, навигиращ през многогодишни истории на главната книга, трябва да бъде проектиран с изрично извличане, времево обосноваване и човешка ескалация — а не с директен LLM извод от край до край.

Констатацията за доминиращата роля на извличането е най-важна за приоритетите при проектирането на системата. Ако производителността при идеален контекст е почти двойно по-висока от тази при RAG, правилната инвестиция е в по-добро разделяне на сегменти (chunking), избор на пасажи и извличане — а не в по-мощен базов LLM. Това отразява откритото от DocFinQA за SEC отчети с дълъг контекст: конвейерът около модела е тясното място.

Предупреждението за Fin-R1 се отнася директно и за случая на употреба с Beancount. Фината настройка върху DSL синтаксиса на Beancount и моделите на транзакциите може да произведе модел, който се справя добре с генерирането на прости записи, но се пречупва при съпоставянето на множество сметки и периоди, което прави одита полезен. Специализацията без обучение за разсъждение върху множество документи е крехка по начините, които Fin-RATE измерва.

Какво да прочетете след това

  • Fin-R1 (arXiv:2503.16252) — за да разберете каква настройка на обучение е произвела толкова крехка производителност между документи и дали разсъжденията върху множество документи изобщо са били в обхвата.
  • FinTrace (arXiv:2604.10015) — оценка на ниво траектория на извикването на инструменти от LLM в 34 категории финансови задачи; допълва статичния изглед на Fin-RATE с диагностика на ниво процес на местата, където моделите извикват правилните инструменти, но не успяват да разсъждават върху резултатите.
  • OpenHands (arXiv:2407.16741) — отворената платформа за агенти, залегнала в основата на оценките на TheAgentCompany; разбирането на нейната архитектура изяснява кои базови възможности на агента са били налични и кои пропуски се дължат на трудността на задачата, а не на ограниченията на платформата.