Перейти до основного вмісту

FinBen: Бенчмаркінг LLM у 36 фінансових завданнях — наслідки для ШІ в бухгалтерському обліку

· 6 хв. читання
Tian Pan
Research Engineer

FinBen з'явився на NeurIPS 2024 як найповніша на сьогодні публічна оцінка LLM у фінансових завданнях. Я давно хотів уважно його вивчити, оскільки перед розробкою будь-якого автономного агента для леджерів Beancount мені потрібна реалістична картина того, на якому етапі перебувають передові моделі щодо завдань фінансового міркування, які такий агент повинен буде виконувати.

Про статтю

2026-04-15-finben-financial-llm-benchmark

Цяньцянь Се та 33 співавтори представляють FinBen — бенчмарк із відкритим вихідним кодом, що охоплює 36 наборів даних у 24 фінансових завданнях, організованих за сімома напрямками: вилучення інформації, текстовий аналіз, відповіді на запитання, генерація тексту, управління ризиками, прогнозування та прийняття рішень. Вони оцінюють 15 репрезентативних LLM — включаючи GPT-4, ChatGPT, Gemini та кілька моделей із відкритим кодом, налаштованих за інструкціями — і впроваджують три нові набори даних для оцінки реферування, QA та торгівлі акціями.

Основна мотивація полягає в тому, що попередні фінансові бенчмарки, такі як FLUE та FLARE, охоплювали лише окремі аспекти фінансового NLP, але далеко не весь цикл. FinBen — це перша спроба об'єднати весь стек в одному місці, і він був прийнятий у трек Datasets and Benchmarks на NeurIPS 2024, що свідчить про належну методологічну перевірку.

Ключові ідеї

  • У розпізнаванні іменованих сутностей GPT-4 отримує 0,83 Entity F1 на наборі даних FINER-ORD — це сильний результат, але це найпростіша категорія в бенчмарку.
  • У FinQA (чисельне міркування над фінансовими звітами) GPT-4 досягає 0,63 Exact Match; у розмовному варіанті ConvFinQA він отримує 0,76. Це гідні результати, але завдання ще далеко не вирішене.
  • Спеціалізована модель FinMA 7B досягає 0,88 F1 у визначенні сентименту FPB, перевершуючи GPT-4 у цьому вузькому завданні, що підтверджує: тонке налаштування (fine-tuning) все ще дає переваги у чітко визначеній класифікації.
  • Прогнозування руху акцій є найбільш очевидним провалом: навіть GPT-4 показує точність приблизно 0,54 — ледь вище випадкового вибору. Автори називають це «помітним дефіцитом здатності LLM справлятися з прогнозуванням».
  • GPT-4 досягає коефіцієнта Шарпа 1,51 у торговому завданні проти 1,03 у Gemini та кумулятивної прибутковості 28,19% проти -4,00% при стратегії «купуй та тримай» протягом періоду оцінки — проте це короткий бектест з усіма звичними застереженнями.
  • Усі моделі показали нульовий результат у завданні екстрактивного реферування, а GPT-4 отримав 0,01 F1 у вилученні відносин. Можливості різко падають за межами зони комфорту класифікації тексту та вільної генерації.

Що підтверджується, а що ні

Бенчмарк справді корисний як інструмент огляду. Діапазон завдань ширший, ніж у всьому, що було раніше, а відкритий код означає, що інші можуть використовувати цю інфраструктуру оцінки, а не починати спочатку.

Тим не менш, у мене є серйозні сумніви щодо того, про що насправді може сказати FinBen. Період оцінки торгівлі короткий і специфічний для ринку; коефіцієнт Шарпа, розрахований за кілька місяців на акціях США, не є стабільним сигналом. Нульові бали за екстрактивне реферування говорять нам про те, що щось не працює, але стаття не діагностує чому — чи це проблема формату промпту, артефакт токенізації чи справжній збій міркування? Ця відмінність важлива для кожного, хто намагається це виправити.

Бенчмарк також майже повністю орієнтований на англійську мову та ринок США. Це не просто застереження щодо узагальнення; це означає, що результати мало говорять про продуктивність, скажімо, з німецькими чи китайськими фінансовими документами або в юрисдикціях з іншими стандартами бухгалтерського обліку. Для такого проєкту, як Beancount.io, що обслуговує глобальну базу користувачів, це значна прогалина.

Історія з моделями, налаштованими за інструкціями, також виглядає менш однозначною, ніж здається спочатку. Тонке налаштування допомагає у визначенні сентименту (FinMA 7B на рівні 0,88), але «дає лише незначні покращення для складних завдань, таких як QA». Стаття повідомляє про це як про факт, але не пропонує механістичного пояснення. Чи це катастрофічне забування здібностей базової моделі до міркування? Чи занадто вузький розподіл даних для тонкого налаштування? Сама по собі площа бенчмарку не може дати відповідь на це питання.

Чому це важливо для ШІ у фінансах

Результати FinBen дають Bean Labs чіткіший базовий рівень, ніж ми мали раніше. Завдання, найбільш релевантні для агента леджера Beancount — чисельні відповіді на запитання за структурованими фінансовими звітами (FinQA: 0,63 Exact Match), вилучення інформації з описів транзакцій (NER: 0,83 F1) та виявлення аномалій або класифікація шахрайства (завдання з управління ризиками, що показують велику дисперсію) — всі вони представлені тут, і жодне з них не вирішене повністю.

Провал прогнозування (0,54 для руху акцій) насправді заспокоює для нашого вужчого випадку: ми не просимо моделі передбачати ринки, ми просимо їх класифікувати, вилучати та записувати структуровані записи. Ці завдання перебувають у діапазоні 0,63–0,83 залежно від складності, що є прийнятною основою — хоча «прийнятна» не означає «безпечна для продакшену без перевірки людиною».

Розрив між структурованим вилученням і вільним міркуванням також безпосередньо відображає проблему безпеки зворотного запису. Якщо модель може надійно вилучити сутність (F1 0,83), але важко міркує про її чисельні наслідки (FinQA 0,63) або генерує правильний структурований вивід (вилучення відносин: 0,01), то найбезпечніша архітектура повинна тримати ці кроки окремо, з явною валідацією між ними.

Що почитати далі

  • FinMaster (arXiv:2505.13533) — явно оцінює наскрізні робочі процеси бухгалтерського обліку, включаючи журнальні записи та узгодження; це ближче до завдань Beancount, ніж будь-що у FinBen.
  • «Table Meets LLM: Can Large Language Models Understand Structured Table Data?» (arXiv:2305.13062, WSDM 2024) — леджери Beancount по суті є структурованими таблицями; ця стаття оцінює саме здатності до розуміння структури, які лежать в основі будь-якого агента для читання леджера.
  • ReAct: Synergizing Reasoning and Acting in Language Models (arXiv:2210.03629) — фреймворк почергового міркування та дії — це те, що використовувала б більшість агентів зворотного запису; розуміння його режимів відмови стає важливішим тепер, коли FinBen показав, де насправді знаходиться нижня межа міркування.