TAT-QA: Гібридний бенчмарк відповідей на запитання для аналізу фінансової звітності
Читаю TAT-QA сьогодні, тому що він знаходиться на перетині речей, які мають пряме значення для того, що ми створюємо: запитання, на які можна відповісти лише шляхом одночасного міркування над таблицею та навколишнім текстом. У Beancount кожен запис у реєстрі існує в контексті — рядок таблиці, який не має сенсу без мемо, наративу контрагента або облікової політики, яка пояснює, чому цей рядок там з'явився. TAT-QA, опублікований на ACL 2021 Чжу та ін. з лабораторії NExT++ в NUS, — це бенчмарк, який змусив спільноту NLP (обробки природної мови) зіткнутися з цією проблемою впритул.
Дослідження
Фенбін Чжу, Веньцян Лей, Ючен Хуан, Чао Ван, Шуо Чжан, Цзяньчен Лв, Фулі Фен та Тат-Сен Чуа представляють TAT-QA (Tabular And Textual QA), набір даних із 16 552 запитань за 2 757 гібридними контекстами, взятими з реальних річних фінансових звітів. Кожен контекст поєднує напівструктуровану таблицю з принаймні двома супровідними абзацами — саме така структура зустрічається у звітах 10-K, де таблиця доходів сусідить з обговоренням керівництвом чинників, що вплинули на ці цифри. Майже всі запитання потребують арифметики: додавання, віднімання, множення, ділення, підрахунку, порівняння, сортування та композицій з кількох операцій.
Основний внесок двоякий: сам бенчмарк і TAGOP — нова модель, яка розглядає завдання як тегування доказів з подальшим символьним міркуванням. TAGOP використовує тегувальник послідовностей над об’єднаними клітинками таблиці та фрагментами тексту для ідентифікації доказів, які потрібно зібрати, а потім застосовує фіксований набір агрегаційних операторів (сума, різниця, добуток, відношення, кількість тощо) для обчислення остаточної відповіді. Ніякої нейронної арифметики — саме обчислення завжди делегується символьному виконавцю.
Ключові ідеї
- Ідентифікація доказів — це найскладніша частина, а не арифметика. Аналіз помилок TAGOP приписує приблизно 55% невдач неправильному тегуванню і 29% — відсутності доказів. Як тільки ви отримуєте правильні клітинки та фрагменти, символьний виконавець рідко припускається помилки в обчисленнях. Це прямий сигнал: для фінансових агентів етап вилучення та обґрунтування (grounding) є визначальним.
- Моделі, що працюють лише з текстом, миттєво зазнають невдачі. BERT-RC досягає лише 18,7% F1 на тестовому наборі. NumNet+ V2, найкращий інструмент для читання чисел до TAT-QA, досягає 46,9% F1. Базова модель TaPas, що працює лише з таблицями, отримує 22,8% F1. Модель, яка чи тає таблиці без тексту — або текст без таблиць — дискваліфікується в цій доменній області.
- TAGOP набирає 58,0% F1 (50,1% точних збігів), експерти-люди — 90,8% F1 (84,1% EM). Розрив у 32,8 бала F1 на момент публікації викликав занепокоєння. Це означало, що навіть найкраща система 2021 року відповідає менш ніж на дві третини запитань, з якими справляється навчений аналітик.
- До кінця 2024 року таблиця лідерів виглядає інакше. Найкраща система, TAT-LLM (70B), досягає 88,4% F1 — лише на 2,4 бала нижче за людський показник. TAT-LLM (7B) досягає 82,88% F1, а GPT-4 у режимі zero-shot — 79,71% F1. Розрив різко скоротився, переважно завдяки донастроюванню (fine-tuning) великих мовних моделей.
- Спеціалізоване донастроювання все ще перемагає чистий GPT-4. TAT-LLM 7B (74,56% EM) перевершує GPT-4 zero-shot (71,92% EM) на TAT-QA, навіть маючи в рази менше параметрів. Поетапний конвеєр Екстрактор→Міркувальник→Виконавець, який використовує TAT-LLM, відображає інтуїцію TAGOP, але замінює символьний тегувальник на LLM з промптами.
Що залишається актуальним, а що ні
Бенчмарк базується на реальних даних, реальних питаннях та реальних фінансових звітах. Ця достовірність — його найбільший актив. Розрив у 32 бали між людиною та моделлю на момент публікації був справжнім, і набір даних настільки складний, що навіть через п'ять років провідні системи не подолали його повністю.
Що мене непокоїть, так це припущення про одну таблицю. Кожен контекст TAT-QA містить рівно одну таблицю. Реальні річні звіти містять десятки таблиць, часто з ієрархічними зв'язками між сегментами, дочірніми компаніями та часовими періодами. Модель, яка ідеально відповідає на запитання TAT-QA, все ще не готова до консолідації даних з кількох таблиць, що домінує в реальній бухгалтерській роботі. У статті MMQA (ICLR 2025) висловлено саме цю думку — бенчмарки з однією таблицею, такі як TAT-QA, применшують складність роботи з багатьма таблицями, з якою стикаються практики.
Розподіл типів відповідей також не такий складний, як здається на практиці. Близьк о 42% відповідей TAT-QA — це окремі фрагменти тексту, пряме вилучення, що не потребує обчислень. Складні композиції з кількох операцій становлять меншість. Модель, яка правильно виконує всі вилучення, але помиляється в усій арифметиці, все одно отримає результат у межах 30–40%. Бенчмарк не враховує вагу складності, що згладжує сигнал від дійсно складних випадків міркування.
Нарешті, людський базовий рівень (90,8% F1) було обчислено за допомогою анотаторів, які мали доступ до документа, але могли не бути експертами рівня CPA (сертифікований бухгалтер). Для міркувань у масштабах реєстрів Beancount, де агент повинен розуміти облікову політику, а не лише арифметику, 90,8% може бути завищеною оцінкою «правильної» межі.
Чому це важливо для фінансового ШІ
TAT-QA — це найближчий публічний бенчмарк до того, з чим щодня стикається агент Beancount: структуровані дані записів (таблиця) поруч із неструктурованим описом (мемо, опис, примітка про політику). Результат TAGOP підтверджує те, чого я очікував під час розробки інструментів для реєстрів: обґрунтування (grounding) складніше за обчислення. Проблема полягає в тому, щоб правильно позначити потрібні клітинки; підсумувати їх — тривіальне завдання.
Траєкторія таблиці лідерів є багатообіцяючою для продукту: модель з 7 мільярдами параметрів, донастроєна на цій області, перевершує GPT-4 zero-shot. Це свідчить про те, що специфічна для Beancount донастроєна модель могла б впоратися з навантаженням з вилучення та арифметики без необхідності викликів API флагманських моделей для кожного запиту до реєстру. Затримка, вартість і конфіденційність даних покращуються, якщо ми можемо запустити компактного спеціаліста локально.
Обмеження однією таблицею — це пряма прогалина, яку мають заповнити в Bean Labs. Реєстри Beancount — це фактично документи з багатьма таблицями (проводки по рахунках, бюджетні рядки, примітки до звірки), і бенчмарка, який би охоплював цю багатоланкову структуру в пов’язаних таблицях, ще не існує в повній мірі. MultiHiertt (ACL 2022) — найближчий аналог; це наступна стаття в моєму списку.
Що почитати далі
- MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and Textual Data (arXiv:2206.01347, ACL 2022) — безпосередньо розв'язує проблему обмеження TAT-QA однією таблицею; питання потребують міркувань над кількома ієрархічними таблицями в одному фінансовому документі, що ближче до того, як виглядають консолідовані звіти реєстрів.
- ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering (arXiv:2210.03849, EMNLP 2022) — розширює FinQA до багатокрокового діалогу; моделі повинні відстежувати поточний числовий контекст протягом декількох ходів запитань, що відповідає тому, як агент Beancount обробляє уточнювальні запити під час сесії роботи з реєстром.
- TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data (arXiv:2401.13223, ICAIF 2024) — пряме продовження від тієї ж групи NExT++; показує, як LLaMA-2, донастроєна з конвеєром Екстрактор→Міркувальник→Виконавець, перемагає GPT-4 zero-shot на TAT-QA та FinQA.
