Преминете към основното съдържание

FinAuditing: LLM постигат под 14% резултат при реални задачи за одит на SEC XBRL

· 6 минути четене
Mike Thrift
Mike Thrift
Marketing Manager

FinAuditing сравнява LLM със структурираната сложност на реални SEC XBRL отчети — а не с изчистените двойки въпрос-отговор, които доминират в класациите за финансова обработка на естествен език (NLP). Чета го сега, защото дневният ред за одит на Bean Labs продължава да се връща към въпрос, на който съществуващите бенчмаркове не могат да отговорят: може ли един модел да държи цял структуриран отчет в паметта си и да верифицира вътрешната му съгласуваност?

Докладът

2026-06-03-finauditing-xbrl-taxonomy-benchmark-llm

Wang и др. представят FinAuditing, бенчмарк от 1102 инстанции, извлечени от 218 XBRL отчета в SEC EDGAR, обхващащи типове грешки, каталогизирани от Комитета по качество на данните на XBRL US (DQC). XBRL е машинночетимият формат, който SEC изисква за всички отчети на публични компании; всеки отчет съдържа документ с инстанция (отчетени числа), таксономична схема (валидни счетоводни концепции) и четири бази от връзки (linkbases) — за изчисление, представяне, дефиниция и етикет — които определят как концепциите се свързват помежду си. Бенчмаркът оперира с три подзадачи за одит: Финансово семантично съпоставяне (FinSM, извличане на правилната таксономична концепция за отчетен факт), Извличане на финансови връзки (FinRE, класифициране на връзката между два таксономични възела) и Финансово математическо разсъждение (FinMR, проверка дали отчетените цифри отговарят на дефинираните в таксономията правила за изчисление). Примерите съдържат средно 33 848 токена — на или над ефективния лимит на контекста на много модели с отворен код — и всички 13 модела се тестват без предварителна подготовка (zero-shot).

Ключови идеи

  • FinSM е по същество извличане на таксономия: при даден факт в отчета, намерете правилната US-GAAP концепция. DeepSeek-V3 води в областта с 12,42% Hit Rate@20 — по-малко от едно на осем верни предположения при избор от 20 кандидати. GPT-4o постига 9,09%.
  • FinRE (класифициране на връзки в бази от връзки) е най-лесната задача: GPT-4o достига 91,82% точност и 90,09 Macro F1. Но Qwen3-32B и Fino1-14B — и двата рекламирани като способни във финансите — постигат 0,00%, очевидно проваляйки се на типа връзка CombinationErr.
  • FinMR е брутален: Fino1-14B води с 13,86% точност; повечето модели са с едноцифрени резултати. Анализът на грешките приписва 70–83% от неуспехите на аритметични грешки в многостъпкови правила за изчисление, като грешките в структурното форматиране заемат 9–71% в зависимост от модела.
  • Изходните данни са 4545 DQC съобщения за грешки от реални отчети (2020–2024 г.) — а не синтетични примери. Бенчмаркът избира 9-те най-чести типа грешки, покриващи 60,33% от нарушенията на DQC в реалния свят.
  • Специализираните в домейна модели (Fino1-14B, FinR1) не побеждават систематично големите модели с общо предназначение; Fino1-14B води само при FinMR и дори там неговите 13,86% са едва над статистическия шум.

Какво се потвърждава — и какво не

Бенчмаркът е ценен именно защото избягва формата на двойки въпрос-отговор: успехът изисква разбиране на връзките в базите от връзки, а не просто съпоставяне на въпрос към откъс от текст. Базирането на примерите върху нарушения на DQC го прави възпроизводим и директно свързан с реалния одитен процес.

Въпреки това имам резерви. Резултатите от FinRE са озадачаващи: GPT-4o с 91,82%, докато моделите с финансова насоченост се сриват до 0,00%, е отклонение, което почти сигурно отразява чувствителност към подканите (prompts) и несъответствие във формата на изхода, а не реални способности за разсъждение. Докладът тества всички модели без предварителна подготовка, без да варира формата на подканите или да предоставя базови линии с примери (few-shot), което прави невъзможно да се припишат резултатите от 0,00% на интелекта, а не на грешки при парсването. Рамката „LLM като съдия“, използвана за FinMR, внася още един слой шум в оценката.

Твърдението в заглавието — „спад в точността от 60–90% при йерархични структури с множество документи“ — също се нуждае от по-ясна база за сравнение. Не е очевидно дали това се сравнява с представянето на хора, версии на същите задачи с един документ или плоски (нейерархични) варианти. Посоката е правилна, но без тази базова линия мащабът е труден за интерпретиране.

Защо това е важно за AI във финансите

Beancount файловете не са XBRL, но споделят ключови структурни свойства: йерархично пространство от имена на сметки, аналогично на таксономичната схема, ограничения на двойното записване, които трябва да се балансират, аналогично на базите от връзки за изчисление, и типизирани записи, които реферират към канонични категории, аналогично на съпоставянето на концепция към инстанция. Режимът на отказ на FinMR — модели, правещи аритметични грешки в многостъпкови правила за изчисление — е точно това, което е от значение за верификацията на салдото в Beancount. Ако GPT-4o не може надеждно да верифицира, че дърветата за събиране на US-GAAP се сумират правилно в XBRL отчет, почти сигурно не може да му се вярва за верификация на сложни йерархии от сметки в леджър, без да прехвърли аритметиката на външен инструмент (в стил PAL).

Цифрите на FinSM са директно предупреждение за всеки Beancount агент, който мапва въведени от потребителя имена на сметки или описания на транзакции към каноничен сметкоплан. Дори най-добрият модел извлича правилната концепция в по-малко от 13% от случаите при избор от 20. Извличането, базирано на класиране, далеч не е готово за реална употреба без специализиран модул за извличане (retriever) или фина настройка върху целевата таксономия.

Липсата на изключителни резултати при специализираните в домейна модели е показателна: суровият мащаб и структурираното подаване на подкани все още определят резултатите повече от финансовото предварително обучение за този клас задачи със структурирано разсъждение.

Какво да прочетете след това

  • От локално към глобално: Graph RAG подход към резюмиране, фокусирано върху заявки (arXiv:2404.16130) — йерархичната структура на XBRL linkbase е точно този вид граф върху документи, към който е насочен GraphRAG на Microsoft; струва си да се прочете като архитектурен отговор на провалите при извличане в FinAuditing.
  • FinTagging: Готов за LLM бенчмарк за извличане и структуриране на финансова информация (arXiv:2505.20650) — от припокриващи се автори, фокусира се върху мапването на финансови факти към таксономични концепции (задачата преди одита); допълва обхвата на FinAuditing.
  • Към доказуемо безопасно използване на инструменти за LLM агенти (arXiv:2601.08012) — ако моделите не могат да верифицират изчисления надеждно без подготовка, отговорът може да се крие в инструменти за формална верификация, добавени върху действията на агента, вместо в по-добри подкани.