Преминете към основното съдържание
Financial Reporting

Всичко за Financial Reporting

12 статии
Generating and auditing financial reports with language models

FinRAGBench-V: Мултимодален RAG с визуални цитати във финансовата област

FinRAGBench-V (EMNLP 2025) е първият мащабен бенчмарк за мултимодален RAG с визуални цитати във финансовата област, обхващащ над 112 000 страници от документи и 1394 ръчно анотирани двойки въпрос-отговор. Най-добрите модели постигат едва 20–61% припомняне на цитати на ниво блок, а мултимодалното извличане превъзхожда текстовото с близо 50 процентни пункта.

Fin-RATE: Как големите езикови модели (LLM) се провалят при междупериодния и междуфирмения финансов анализ

Fin-RATE оценява 17 големи езикови модела върху 7 500 експертно подбрани двойки въпроси и отговори от 2 472 отчета към SEC, разкривайки 18,60% срив в точността при лонгитудиално проследяване и 54 пункта спад за тясно специализирания във финансите Fin-R1 при задачи между различни предприятия — като основното тясно място се оказва конвейерът за извличане на информация (retrieval pipeline), а не базовият модел.

FinDER: Реални запитвания от анализатори разкриват 74% пропуск в пълнотата при финансовия RAG

FinDER оценява RAG върху 5 703 реални запитвания от анализатори на хедж фондове спрямо 10-K отчети на S&P 500; E5-Mistral постига само 25,95% пълнота на контекста, а наситените със съкращения запитвания струват 8,2 пункта прецизност — доказателство, че нормализирането на запитванията, а не по-добрите вграждания, е първото решение за финансовите AI конвейери.

DocFinQA: Финансови разсъждения в дълъг контекст върху пълни SEC отчети

DocFinQA заменя подбраните пасажи от 700 думи във FinQA с пълни SEC отчети от 123 000 думи, разкривайки 175-кратно увеличение на контекста, което почти наполовина намалява точността на GPT-4 при дълги документи. Пайплайните за извличане не успяват да изведат правилния сегмент в 45% от случаите при HR@3 — а моделите с дълъг контекст не са заместител.

FinAuditing: LLM постигат под 14% резултат при реални задачи за одит на SEC XBRL

FinAuditing тества 13 LLM без предварителна подготовка (zero-shot) върху 1102 реални примера от SEC XBRL отчети; най-високите резултати са 13,86% при верификация на финансова математика и 12,42% при извличане на концепции – резултати, които директно ограничават степента на доверие към AI счетоводни инструменти без външна помощ.

TAT-LLM: Фино настроена LLaMA 2 за дискретно разсъждение върху финансови таблици и текст

TAT-LLM фино настройва LLaMA 2 7B чрез LoRA върху бенчмаркове за финансови въпроси и отговори от таблици и текстове, постигайки 64,60% EM на FinQA — надминавайки GPT-4 (63,91%) — чрез декомпозиране на разсъжденията в детерминистични стъпки Извличане-Разсъждение-Изпълнение, които елиминират аритметичните грешки.

MultiHiertt: Тестване на числено разсъждение върху многостепенни йерархични финансови таблици

MultiHiertt (ACL 2022) представя 10 440 двойки въпроси и отговори от реални финансови отчети със средно 3,89 йерархични таблици всеки; съвременните модели постигат 38% F1 срещу 87% за хората, с 15 точки наказание за въпроси между различни таблици — количествено измерване на разликата в извличането, която финансовият AI трябва да преодолее.

ConvFinQA: Многократни финансови въпроси и отговори и 21-точковата разлика между моделите и човешките експерти

ConvFinQA (EMNLP 2022) разширява FinQA в многократни диалози върху отчетите за приходите на S&P 500, установявайки, че най-добрият фино настроен модел постига 68,9% точност на изпълнение срещу 89,4% за човешки експерти — и спада до 52,4% при хибридни разговори с множество аспекти, където моделите трябва да пренасят числовия контекст през различни финансови теми.

TAT-QA: Хибриден бенчмарк за въпроси и отговори върху таблици и текст за логически разсъждения върху финансови годишни отчети

TAT-QA е бенчмарк с 16 552 въпроса върху хибридни контексти от таблици и текст във финансови отчети, който показа, че приземяването на доказателствата (grounding) — а не аритметиката — е основното тясно място в AI за финансите; до 2024 г. фино настроени 7B LLM модели достигнаха 83% F1, запълвайки по-голямата част от разликата спрямо 91% таван при хората.

FinQA: Бенчмаркът за измерване на численото мислене на ИИ върху финансови отчети

FinQA (EMNLP 2021) изгради 8 281 двойки въпроси и отговори от отчети за приходите на S&P 500, изискващи многостъпкови аритметични програми. Невронните модели постигнаха 61% при пускането им срещу 91% за човешки експерти; точността спада до 22% при програми с три или повече стъпки. Режимите на неуспех — константи на домейна, заземяване между различни модалности, дължина на веригата — съответстват директно на предизвикателствата, пред които са изправени Beancount агентите днес.