Fin-RATE: Как големите езикови модели (LLM) се провалят при междупериодния и междуфирмения финансов анализ
Траекторията на бенчмарковете за финансови LLM продължава да разширява обхвата си и Fin-RATE е най-ясният пример досега за това какво се случва, когато най-накрая поискаме от моделите да направят това, което правят истинските анализатори: да проследят компания не само в рамките на един отчет, но и през множество периоди и спрямо нейните конкуренти в индустрията.
Документът
Fin-RATE, публикуван през февруари 2026 г. от Идонг Дзян, Джунронг Чен и колеги от Йейл и сътрудничещи институции, представя бенчмарк, изграден от 2 472 отчета към SEC за 43 компании и 36 индустрии, обхващащи периода 2020–2025 г. Бенчмаркът организира 7 500 експертно подбрани двойки въпроси и отговори в три типа задачи, които отразяват работните процеси на професионалните анализатори: DR-QA (детайли и разсъждения в рамките на един отчет), EC-QA (сравнение между предприятия на две компании по обща тема) и LT-QA (лонгитудиално проследяване на една и съща фирма през отчетните периоди). Всеки тип задача съдържа 2 500 въпроса. Оценката обхваща 17 LLM — модели със затворен код, включително GPT-4.1 и GPT-5, общи модели с отворен код като DeepSeek-V3 и Llama-3.3-70B, и специализирани за финанси модели като Fin-R1, Fino1-14B, FinanceConnect-13B и TouchstoneGPT-7B. Оценяването използва единна рамка „LLM-като-съдия“ с трима независими съдии (GPT-5, DeepSeek-V3.2, Qwen3-235B), оценяващи всеки отговор по отношение на коректност и пет аналитични измерения.
Ключови идеи
- Производителността се срива с нарастване на сложността на задачите: точността пада средно с 18,60% от DR-QA за един документ до лонгитудиалната LT-QA и с 14,35% от DR-QA до EC-QA за различни предприятия при всички 17 модела.
- GPT-5 с търсене в мрежата е най-добрият модел, но неговата пикова точност е едва 43–44% за трите типа задачи — разочароващо за бенчмарк, предназначен да отразява работните процеси на реалните анализатори.
- Fin-R1, специализираният във финансите модел за разсъждения, достига 57,48% при DR-QA, но се срива до 3,32% при EC-QA — спад от 54 пункта, който далеч надхвърля влошаването при всеки общ модел.
- При RAG настройки, производителността на всички модели пада далеч под 27%, в сравнение с производителността при идеален контекст (gold-context) до 57,48%; конвейерът за извличане (retrieval pipeline), а не LLM, е основното ограничение.
- Документът въвежда таксономия от 13 типа грешки в четири категории: халюцинации и противоречия, специфични за финансите числови и семантични грешки, грешки в разбирането на заявката/контекста и повреди на ниво извличане. Липсващите доказателства (Missing Evidence) представляват 75,44% от грешките в задачата EC-QA при RAG.
- Специализираните във финансите модели показват системно по-високи нива на халюцинации от общите модели при сложни задачи, въпреки по-доброто познаване на финансовата терминология.
Кое издържа проверката — и кое не
Структурата с три пътеки е наистина добре проектирана. Повечето финансови бенчмаркове (FinQA, TAT-QA, FinanceBench) разглеждат въпросите и отговорите като задача за един документ. Fin-RATE е един от първите, които изрично моделират сравнението между предприятия и лонгитудиалното проследяване като първокласни задачи, а резултатите разкриват фундаментална празнина: настоящите LLM се справят приемливо с изолирани отчети, но се разпадат в м омента, в който трябва да синтезират информация от различни документи, предприятия или периоди от време.
Сривът на Fin-R1 е най-забележителното откритие в документа и мисля, че е подценено. Финно настроен модел за финанси, който превъзхожда при извличането от единични документи, очевидно се е вкарал в капан: той е научил шаблони за отговаряне в рамките на един документ, а не стратегии за разсъждение за свързване на предприятия и периоди от време. Това е конкретно предупреждение срещу тясното специализиране на домейна без изричен надзор на разсъжденията върху множество документи. Моделът вероятно се пренастройва към плиткия модел на „намери числото в отчета“ и няма път за обобщаване към „сравни това число със съответното число в друг отчет от друга компания“.
Въпреки това има методологични опасения, които си струва да бъдат отбелязани. GPT-5 е едновременно един от оценяваните модели и един от тримата съдии, оценяващи отговорите. Авторите използват трима съдии, за да намалят индивидуалното пристрастие, което помага, но припокриването между съдия и модел с най-силния оценяван модел е смущаващо. Документът отчита високо съгласие между съдиите, но не количественo определя отделно каква част от отговорите на GPT-5 са били оценени от самия GPT-5, нито дали самооценките на GPT-5 се различават системно от тези на другите двама съдии. Всяко пристрастие при самооценката би надуло водещия резултат за най-добре представящия се модел в изследването.
Извадката от 43 компании също е малка. Обхватът на видовете отчети е похвално широк (10-K, 10-Q, 8-K, 6-K, DEF 14A и няколко серии S и SC), но едни и същи 43 компании се появяват във всички задачи. Моделите, които са виждали отчетите на тези компании по време на предварителното обучение, имат неквантифицирано предимство и документът не включва никакъв анализ на замърсяването на данните (contamination analysis).
Откритието за извличането на данни е важно, но непълно. Документът идентифицира, че RAG производителността се срива с приблизително 30 пункта в сравнение с идеалния контекст, защото извличането се проваля. Но той сравнява само една конфигурация за извличане — той третира провала на извличането като диагноза, а не като нещо, което да се променя систематично. Последващ документ, който изследва различни архитектури за извличане върху Fin-RATE, би бил много по-приложим на практика.