Преминете към основното съдържание

TAT-LLM: Фино настроена LLaMA 2 за дискретно разсъждение върху финансови таблици и текст

· 7 минути четене
Mike Thrift
Mike Thrift
Marketing Manager

След седмица, прекарана в изследване на извличането и инжектирането на знания, исках да погледна другата страна на въпроса: какво всъщност ни дава целевото фино настройване, когато задачата е добре дефинирана? TAT-LLM (arXiv:2401.13223, ICAIF 2024) предлага един от по-чистите отговори: фино настройване на LLaMA 2 със структуриран конвейер (pipeline) върху бенчмаркове за финансови въпроси и отговори от таблици и текстове, което води до победа над GPT-4. Уловката, както обикновено, е в детайлите.

Докладът

2026-05-21-tat-llm-specialized-language-model-discrete-reasoning-tabular-textual

Фенгбин Жу, Зиянг Лиу, Фули Фенг, Чао Уанг, Моксин Ли и Тат-Сенг Чуа от NExT++ в NUS представят TAT-LLM, модел LLaMA 2, фино настроен за дискретно разсъждение върху хибридни таблични и текстови данни. Основният проблем е отговарянето на числени въпроси върху финансови отчети — типът въпроси, които изискват от вас да локализирате конкретен ред в таблица, да извлечете две цифри и да извършите многостъпкова аритметична операция, за да стигнете до отговор. Това е точно това, което правят хората, когато четат отчети по форма 10-K.

Вместо да подканят голям модел от край до край (end-to-end), авторите декомпозират задачата на три изрични стъпки: Екстрактор (Extractor), който идентифицира съответните числени доказателства от документа; Модул за разсъждение (Reasoner), който съставя аритметичен израз; и Изпълнител (Executor), който изпълнява израза детерминистично. Данните за обучение се генерират автоматично от съществуващи експертно анотирани набори от данни — FinQA, TAT-QA и TAT-DQA — чрез анотиране на всеки пример с междинните стъпки за извличане и разсъждение. Финото настройване използва LoRA при три мащаба на LLaMA 2: 7B, 13B и 70B.

Ключови идеи

  • Декомпозицията на конвейера бие подхода от край до край: Външният изпълнител (детерминистична аритметика) добавя +16,66 EM точки в FinQA само за 7B модела. Аритметиката не е по-трудна за модела — тя просто е катастрофално ненадеждна, когато се извършва на естествен език.
  • 7B побеждава GPT-4 и в трите бенчмарка: TAT-LLM 7B постига 64,60% EM на FinQA (срещу 63,91% за GPT-4), 74,56% EM на TAT-QA (срещу 71,92%) и 69,45% EM на TAT-DQA (срещу 64,46%). Разликата в TAT-DQA е най-убедителна с близо 5 пункта.
  • Извличането е основният източник на грешки: Анализът на грешките показва, че 48% от грешките се дължат на неправилно извличане на доказателства — моделът идентифицира грешния ред, грешната колона или прочита грешно число поради непозната финансова терминология. Само 19% са неправилни оператори.
  • Мащабът помага умерено: Вариантът 70B с общо обучение (TAT-LLM-All) повишава резултатите на FinQA до 76,81% EM и на TAT-QA до 81,42% F1, което са значими подобрения. Но моделът 7B вече изпреварва GPT-4, което предполага, че структурата на конвейера е по-важна от броя на параметрите.
  • Експертите хора остават далеч напред: При TAT-QA представянето на хората е 90,8% F1; най-добрият резултат на TAT-LLM е 81,42% F1. Разликата е реална и докладът я признава.

Какво е устойчиво и какво — не

Основният технически принос е солиден: прехвърлянето на аритметиката към детерминистичен изпълнител очевидно е правилното решение и аблацията го доказва категорично. Това е добре познат урок от PAL и подобни разработки, но виждането му количествено тук (+16,66 пункта) в специфичен за финансите бенчмарк е ценно потвърждение.

Това, към което съм по-скептичен, е водещото твърдение за „превъзхождане на GPT-4“. Разликата във FinQA е 0,69 EM точки — на практика в рамките на шума, а числата за GPT-4 отразяват оценка без примери (zero-shot) или с леки подкани, а не GPT-4 с верига от мисли (chain-of-thought), примери (few-shot) или неговия собствен интерпретатор на код. Един подканен GPT-4 с използване на инструменти на Python почти сигурно би надвишил тези числа. Сравнението не е погрешно, но не е точно историята за „победата на специализацията“, която резюмето внушава.

Съществува и значително притеснение относно изтичане на данни за оценка (evaluation leak). Моделът е фино настроен върху тренировъчните части на FinQA, TAT-QA и TAT-DQA и е оценен върху техните тестови части. Това е тесен контекст в рамките на разпределението. Докладът не включва външна финансова задача за въпроси и отговори, която моделът никога не е виждал по време на обучението, така че генерализацията към нови видове документи или нови аритметични модели не е доказана.

Ограничението на контекста от 4096 токена е практическа пречка за финансовите отчети в реалния свят. Типичен отчет 10-K е над 100 страници; дори едно тримесечно съобщение за приходите често надвишава 4096 токена. Описаният модел не може да обработва входовете, за които е проектиран, без разделяне на части (chunking), а докладът не разглежда как се влошава извличането, когато доказателствата са разпръснати в множество части.

Защо това е важно за финансовия ИИ

Декомпозицията Екстрактор-Разсъдител-Изпълнител е директно приложима към агентите на Beancount. Когато потребител попита „какъв е общият ми разход за храна през първото тримесечие на 2025 г. спрямо първото тримесечие на 2024 г.?“, естествената структура е: локализиране на съответните транзакции (Извличане), изграждане на агрегиращ израз (Разсъждение), изпълнението му срещу счетоводната книга (Изпълнение). Анализът на грешките на TAT-LLM прави конкретна прогноза: стъпката на извличане ще бъде мястото, където агентът на Beancount ще се проваля най-често — грешни категории сметки, пропуснати транзакции, погрешно прочетени суми — а не аритметиката.

Подходът за фино настройване с LoRA също е подходящ за всеки, който изгражда специфичен за Beancount модел. Стратегията за генериране на данни за обучение — вземане на експертно анотирани двойки въпрос-отговор и анотирането им с междинни стъпки — е точно начинът, по който бихте изградили набор от данни за разсъждение върху счетоводни книги. Разполагате с реалните записи в книгата; можете автоматично да генерирате кортежи (въпрос, извличане, израз, отговор).

Лимитът на контекста е най-голямата пречка. Един производствен агент на Beancount трябва да разсъждава върху записи от години. Моделът от доклада не е такъв; той е силна базова линия за въпроси и отговори върху кратки документи, която трябва да бъде разширена с разделяне на части, извличане (retrieval) или по-дълъг прозорец на контекста, за да стане практична.

Какво да прочетете след това

  • FinQA (arXiv:2109.00122, EMNLP 2021) — оригиналният бенчмарк, върху който е оценен TAT-LLM; четенето му изяснява какво точно означава „дискретно разсъждение върху финансови данни“ и как е изглеждало предишното ниво на техниката (SOTA) преди LLM.
  • TAGOP (част от доклада за TAT-QA, arXiv:2105.07624, ACL 2021) — моделът на оператора, съобразен с таблици, който дефинира задачата TAT-QA; разбирането как изглежда изборът на оператор, базиран на правила, дава отправна точка за това какво заменя стъпката на Разсъдителя, базиран на LLM.
  • AuditCopilot (arXiv:2512.02726) — тества LLaMA и Gemma за откриване на аномалии в записи в дневника върху реални данни от счетоводни книги; естественият последващ въпрос след TAT-LLM е дали същият подход за фино настройване се пренася към откриването на аномалии, а не само към въпроси и отговори.