Перейти к контенту
Financial Statements

Все о Financial Statements

3 статей
Balance sheet, income statement, and cash-flow generation research

MultiHiertt: бенчмаркинг численных рассуждений в иерархических финансовых таблицах

MultiHiertt (ACL 2022) представляет 10 440 пар вопросов и ответов из реальных финансовых отчетов, содержащих в среднем 3,89 иерархических таблиц; современные модели показывают результат 38% F1 против 87% у людей, со штрафом в 15 пунктов для вопросов по нескольким таблицам — это количественно оценивает разрыв в поиске данных, который должен преодолеть ИИ в финансах.

FinanceBench: почему RAG на векторных хранилищах не справляется с реальными финансовыми документами

FinanceBench оценивает 16 конфигураций ИИ на 10 231 вопросе из реальных отчетов SEC; RAG с общим векторным хранилищем дает правильные ответы лишь в 19% случаев, а GPT-4-Turbo даже с «оракулом» достигает точности только в 85%. Это доказывает, что численные рассуждения, а не поиск данных, являются основным ограничением для корпоративного финансового ИИ.

Бенчмарк FinMaster: почему LLM набирают 96% по финансовой грамотности, но лишь 3% при формировании отчетности

FinMaster (arXiv:2505.13533) оценивает o3-mini, Claude 3.7 Sonnet и DeepSeek-V3 в 183 финансовых задачах, показывая, что модели набирают 96% по финансовой грамотности, но проваливаются до 3% при формировании отчетности, а в многошаговых консалтинговых задачах точность падает на 21 пункт из-за накопления ошибок.