Преминете към основното съдържание

FinBen: Сравнителен анализ на LLM в 36 финансови задачи — последици за изкуствения интелект в счетоводството

· 7 минути четене
Tian Pan
Research Engineer

FinBen беше представен на NeurIPS 2024 като най-изчерпателната обществена оценка на големи езикови модели (LLM) по финансови задачи досега. Исках да го прочета внимателно, защото преди да проектирам какъвто и да е автономен агент върху регистри на Beancount, имам нужда от реалистична представа за това къде всъщност се намират водещите модели по отношение на задачите за финансови разсъждения, които такъв агент би трябвало да изпълнява.

Докладът

2026-04-15-finben-financial-llm-benchmark

Qianqian Xie и 33 съавтори представят FinBen, бенчмарк с отворен код, обхващащ 36 масива от данни в 24 финансови задачи, организирани в седем измерения: извличане на информация, текстов анализ, въпроси и отговори, генериране на текст, управление на риска, прогнозиране и вземане на решения. Те оценяват 15 представителни LLM — включително GPT-4, ChatGPT, Gemini и няколко настроени чрез инструкции (instruction-tuned) модели с отворен код — и въвеждат три нови масива от данни за обобщаване, въпроси и отговори и оценка на търговията с акции.

Основната мотивация е, че предходните финансови бенчмаркове като FLUE и FLARE са улавяли само част от финансовата обработка на естествен език (NLP), но нищо близко до пълния процес. FinBen е първият опит да се обхване целият набор от дейности на едно място и беше приет в раздела Datasets and Benchmarks на NeurIPS 2024, което му дава сериозен печат за методологическа надеждност.

Основни идеи

  • При разпознаването на именовани обекти (NER), GPT-4 постига 0.83 Entity F1 на масива FINER-ORD — висок резултат, но това е най-лесната категория в бенчмарка.
  • В FinQA (числени разсъждения върху финансови отчети), GPT-4 достига 0.63 Точно съвпадение (Exact Match); при разговорния вариант ConvFinQA резултатът е 0.76. Това са респектиращи цифри, но далеч не означават решен проблем.
  • Фино настроеният за домейна FinMA 7B постига 0.88 F1 при анализа на настроенията в FPB — превъзхождайки GPT-4 в тази тясна задача, което потвърждава, че фината настройка все още дава предимство при добре дефинирани класификации.
  • Прогнозирането на движението на акциите е най-явният провал: дори GPT-4 постига около 0.54 точност — едва над случайното. Авторите наричат това „значителен дефицит в капацитета на LLM за справяне с прогнозирането“.
  • GPT-4 постига Коефициент на Шарп от 1.51 в задачата за търговия срещу 1.03 за Gemini и кумулативна възвръщаемост от 28.19% срещу възвръщаемост от −4.00% при стратегия „купи и дръж“ по време на периода на оценка — но това е кратък бектест с всички обичайни уговорки.
  • Всички модели са получили нула при екстрактивното обобщаване, а GPT-4 е постигнал 0.01 F1 при извличането на релации. Възможностите се сриват рязко извън комфортната зона на текстовата класификация и генерирането на текст със свободен край.

Какво е надеждно и какво не

Бенчмаркът е истински полезен като инструмент за проучване. Обхватът на задачите е по-широк от всичко досега, а пускането му с отворен код означава, че други могат да надграждат върху инфраструктурата за оценка, вместо да започват отначало.

Въпреки това имам реални опасения относно това какво всъщност може да ни каже FinBen. Периодът за оценка на търговията е кратък и специфичен за пазара; Коефициентът на Шарп, изчислен за няколко месеца върху акции в САЩ, не е стабилен сигнал. Нулевите резултати при екстрактивното обобщаване ни казват, че нещо не е наред, но докладът не диагностицира защо — проблем с формата на подканата ли е, артефакт от токенизацията или истински провал в разсъжденията? Разликата е важна за всеки, който се опитва да го поправи.

Бенчмаркът също така е почти изцяло на английски език и фокусиран върху пазара в САЩ. Това не е просто уговорка за обобщаване; това означава, че резултатите казват много малко за производителността при, да речем, немски или китайски финансови документи, или в юрисдикции с различни счетоводни стандарти. За проект като Beancount.io, обслужващ глобална потребителска база, това е значителна празнина.

Историята с моделите, настроени чрез инструкции, също е по-мътна, отколкото изглежда на пръв поглед. Фината настройка помага при анализа на настроенията (FinMA 7B с 0.88), но „осигурява само незначителни подобрения за сложни задачи като въпроси и отговори“. Докладът съобщава това като констатация, но не предлага механистично обяснение. Дали е катастрофално забравяне на способността за разсъждение на базовия модел? Или разпределението на данните за фина настройка е твърде тясно? Самият обхват на бенчмарка не може да отговори на това.

Защо това е важно за финансовия ИИ

Резултатите от FinBen дават на Bean Labs по-чиста отправна точка от тази, която имахме преди. Задачите, които са най-подходящи за агент за Beancount регистри — числени въпроси и отговори върху структурирани финансови отчети (FinQA: 0.63 Exact Match), извличане на информация от описания на транзакции (NER: 0.83 F1) и откриване на аномалии или класификация на измами (задачи за управление на риска, показващи голямо отклонение) — са представени тук и нито една от тях не е решена напълно.

Сривът при прогнозирането (0.54 при движението на акциите) всъщност е успокояващ за нашия по-тесен случай на употреба: ние не искаме от моделите да предвиждат пазарите, а да класифицират, извличат и записват обратно структурирани записи. Тези задачи попадат в диапазона 0.63–0.83 в зависимост от сложността, което е работеща основа — макар че „работеща“ не означава „безопасна за производство без човешки преглед“.

Разликата между структурираното извличане и разсъжденията със свободен край също се отразява директно върху проблема с безопасността на обратния запис (write-back). Ако един модел може надеждно да извлече обект (F1 0.83), но се затруднява да разсъждава за неговите числени последици (FinQA 0.63) или да генерира коректен структуриран изход (извличане на релации: 0.01), тогава най-безопасната архитектура разделя тези стъпки с изрична проверка между тях.

Какво да прочетете след това

  • FinMaster (arXiv:2505.13533) — изрично тества крайни счетоводни работни процеси, включително счетоводни записвания и равняване; по-близо до задачите на Beancount от всичко във FinBen.
  • "Table Meets LLM: Can Large Language Models Understand Structured Table Data?" (arXiv:2305.13062, WSDM 2024) — регистрите на Beancount по същество са структурирани таблици; този доклад анализира точно способностите за структурно разбиране, които стоят в основата на всеки агент за четене на регистри.
  • ReAct: Synergizing Reasoning and Acting in Language Models (arXiv:2210.03629) — рамката за преплетени разсъждения и действия е това, което повечето агенти за обратен запис биха използвали; разбирането на нейните режими на отказ е по-важно сега, когато FinBen показа къде всъщност е дъното на разсъжденията.