TAT-QA: Хибриден бенчмарк за въпроси и отговори върху таблици и текст за логически разсъждения върху финансови годишни отчети
Чета TAT-QA днес, защото се намира в пресечна точка, която е от пряко значение за това, което изграждаме: въпроси, на които може да се отговори само чрез едновременно разсъждение върху таблица и заобикалящия я текст. В Beancount всеки запис в главната книга съществува в контекст — ред от таблица, който няма смисъл без мемото, описанието на контрагента или политиката на сметката, която обяснява защо този елемент е там. TAT-QA, публикуван на ACL 2021 от Zhu et al. от лабораторията NExT++ в NUS, е бенчмаркът, който принуди NLP общността да се изправи директно пред този проблем.
Документът
Фънбин Джу, Уенкян Лей, Ючен Хуанг, Чао Уанг, Шуо Джан, Дзиенчън Лу, Фули Фън и Тат-Сенг Чуа представят TAT-QA (Tabular And Textual QA) — набор от данни с 16 552 въпроса върху 2 757 хибридни контекста, извлечени от реални финансови годишни отчети. Всеки контекст съчетава полуструктурирана таблица с поне два придружаващи параграфа — точно структурата, която намирате в 10-K отчетите, където таблица с приходи стои до обсъждането на ръководството за това какво е довело до тези числа. Почти всички въпроси изискват аритметика: събиране, изваждане, умножение, деление, броене, сравнение, сортиране и композиции от множество операции.
Основният принос е двоен: самият бенчмарк и TAGOP — нов модел, който третира задачата като маркиране на доказателства, последвано от символно разсъждение. TAGOP използва секвенциален тагер върху конкатенираните таблични клетки и текстови откъси, за да идентифицира кои доказателства да събере, след което прилага фиксиран набор от агрегиращи оператори (сума, разлика, произведение, съотношение, брой и т.н.), за да изчисли крайния отговор. Без невронна аритметика — самото изчисление винаги се делегира на символен изпълнител.
Ключови идеи
- Идентифицирането на доказателствата е трудната част, а не аритметиката. Анализът на грешките на TAGOP приписва грубо 55% от неуспехите на неправилно маркиране и 29% на липсващи доказателства. След като разполагате с правилните клетки и откъси, символният изпълнител рядко прави грешка в изчисленията. Това е директен сигнал: за финансовите агенти стъпката на извличане и приземяване (grounding) доминира.
- Моделите само за текст се провалят веднага. BERT-RC постига само 18,7% F1 на тестовия сет. NumNet+ V2, най-добрият четец на числа преди TAT-QA, достига 46,9% F1. Базовият модел TaPas (само за таблици) отбелязва 22,8% F1. Модел, който чете таблици без текст — или текст без таблици — е дисквалифициран от този домейн.
- TAGOP отбелязва 58,0% F1 (50,1% точно съвпадение), докато експертите хора постигат 90,8% F1 (84,1% EM). Разликата от 32,8 пункта в F1 по време на пу бликуването беше тревожна. Това означаваше, че дори най-добрата система от 2021 г. отговаря на по-малко от две трети от въпросите, с които един обучен анализатор може да се справи.
- Към края на 2024 г. класацията показва друга история. Водещата система, TAT-LLM (70B), достига 88,4% F1 — само с 2,4 пункта под постижението на хората. TAT-LLM (7B) достига 82,88% F1, а GPT-4 при zero-shot достига 79,71% F1. Разликата се стопи драстично, главно чрез фино настройване на мащаба на LLM.
- Специализираното фино настройване все още побеждава чистия GPT-4. TAT-LLM 7B (74,56% EM) превъзхожда GPT-4 zero-shot (71,92% EM) в TAT-QA, дори при малка част от броя на параметрите. Стъпковият пайплайн Екстрактор→Резоньор→Изпълнител, който TAT-LLM използва, отразява интуицията на TAGOP, но заменя символния тагер с подканен (prompted) LLM.
Какво се потвърждава и какво не
Бенчмаркът съдържа реални данни, реални въпроси и реални финансови отчети. Тази достоверност е най-големият му актив. Разликата от 32 пункта между човек и модел при публикуването беше истинска и наборът от данни е достатъчно труден, така че дори пет години по-късно топ системите не са я затворили напълно.
Това, което ме притеснява, е предположението за единична таблица. Всеки контекст в TAT-QA съдържа точно една таблица. Реалните годишни отчети съдържат десетки, често с йерархични връзки между сегменти, дъщерни дружества и периоди от време. Модел, който може да отговори идеално на въпросите на TAT-QA, все още е неподготвен за консолидацията между таблици, която доминира в реалната счетоводна работа. Документът MMQA (ICLR 2025) посочва точно това — че бенчмарковете с една таблица като TAT-QA подценяват сложността на множеството таблици, пред която са изправени практиците.
Разпределението на типовете отговори също не е толкова трудно, колкото изглежда на практика. Около 42% от отговорите в TAT-QA са единични откъси — директни извличания, които не изискват изчисление. Предизвикателните композиции от множество операции са малцинство. Модел, който правилно извлича всичко, но греши в цялата аритметика, пак би отбелязал резултат в диапазона 30–40%. Бенчмаркът не тегли резултатите според трудността, което изравнява сигнала от наистина трудните случаи на разсъждение.
И накрая, базовата линия за хора (90,8% F1) е изчислена чрез анотатори, които са имали достъп до документа, но може да не са били експерти на ниво CPA (дипломиран експерт-счетоводител). За разсъждения върху главни книги в мащаба на Beancount — където агентът трябва да разбира счетоводната политика, а не само аритметиката — 90,8% може да е надценена стойност за "правилния" таван.
Защо това е важно за финансовия AI
TAT-QA е най-близкият публичен бенчмарк до това, с което агентът на Beancount се сблъсква ежедневно: структурирани данни за записи (таблица), разположени до неструктуриран разказ (мемо, описание, бележка за политиката). Резултатът на TAGOP потвърждава това, което очаквах от изграждането на инструменти за счетоводни книги — приземяването (grounding) е по-трудно от изчисляването. Проблемът е в правилното маркиране на клетките; сумирането им е тривиално.
Траекторията на класацията е обнадеждаваща за продукта: модел със 7B параметри, фино настроен за този домейн, превъзхожда GPT-4 zero-shot, което предполага, че фино настроен модел, специфичен за Beancount, би могъл да се справи с натоварването по извличане + аритметика, без да са необходими повиквания към API на водещи модели за всяка заявка към главната книга. Латентността, цената и поверителността на данните се подобряват, ако можем да стартираме компактен специалист локално.
Ограничението с една таблица е директната празнина, която Bean Labs трябва да запълни. Счетоводните книги на Beancount са на практика документи с множество таблици — осчетоводявания по сметки, бюджетни линии, бележки за равняване — и бенчмаркът, който улавя тази многостъпкова структура в свързани таблици, все още не съществува напълно. Документът MultiHiertt (ACL 2022) е най-близкото нещо; той е следващият в списъка ми.
Какво да прочетете след това
- MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and Textual Data (arXiv:2206.01347, ACL 2022) — директно адресира ограничението за единична таблица на TAT-QA; въпросите изискват разсъждения върху множество йерархични таблици в рамките на един и същ финансов документ, което е по-близо до това как изглеждат консолидираните отчети в главната книга.
- ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering (arXiv:2210.03849, EMNLP 2022) — разширява FinQA до многоходови диалози; моделите трябва да проследяват текущия числен контекст през ходовете на въпросите, което съответства на това как агентът на Beancount обработва последващи запитвания за сесия в главната книга.
- TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data (arXiv:2401.13223, ICAIF 2024) — директното продължение от същата група NExT++; показва как LLaMA-2, фино настроен с пайплайн Екстрактор→Резоньор→Изпълнител, побеждава GPT-4 zero-shot в TAT-QA и FinQA.
