Перейти до основного вмісту

TAT-LLM: Тонко налаштована LLaMA 2 для дискретного логічного висновку над фінансовими таблицями та текстом

· 6 хв. читання
Mike Thrift
Mike Thrift
Marketing Manager

Після тижня, присвяченого пошуку (retrieval) та ін'єкції знань, я хотів поглянути на інший бік питання: що насправді дає цільове тонке налаштування, коли завдання чітко визначене? TAT-LLM (arXiv:2401.13223, ICAIF 2024) — це одна з найбільш чітких відповідей: тонко налаштуйте LLaMA 2 зі структурованим конвеєром на бенчмарках фінансових таблиць та текстів і переможіть GPT-4. Підвох, як завжди, у деталях.

Стаття

2026-05-21-tat-llm-specialized-language-model-discrete-reasoning-tabular-textual

Фенбін Чжу, Цзиянь Лю, Фулі Фен, Чао Ван, Мосінь Лі та Тат-Сен Чуа з NExT++ при Національному університеті Сінгапуру (NUS) представляють TAT-LLM — модель LLaMA 2, тонко налаштовану для дискретного логічного висновку над гібридними табличними та текстовими даними. Основна проблема полягає у відповідях на числові питання за фінансовими звітами — такі питання, що вимагають знайти певний рядок у таблиці, витягти дві цифри та виконати багатоступеневу арифметичну операцію для отримання відповіді. Це саме те, що роблять люди, читаючи звіти за формою 10-K.

Замість того, щоб використовувати велику модель end-to-end через промпти, автори розкладають завдання на три явні кроки: Extractor (Витягувач), який ідентифікує релевантні числові докази з документа, Reasoner (Міркувальник), який записує арифметичний вираз, та Executor (Виконавець), який детерміновано виконує цей вираз. Навчальні дані автоматично генеруються з існуючих експертно анотованих наборів даних — FinQA, TAT-QA та TAT-DQA — шляхом додавання до кожного прикладу проміжних кроків вилучення та міркування. Тонке налаштування використовує LoRA для трьох масштабів LLaMA 2: 7B, 13B та 70B.

Ключові ідеї

  • Декомпозиція конвеєра краща за end-to-end: Зовнішній Виконавець (детермінована арифметика) додає +16,66 бала EM на FinQA лише для моделі 7B. Арифметика не є складнішою для моделі — вона просто катастрофічно ненадійна, коли виконується природною мовою.
  • 7B перевершує GPT-4 на всіх трьох бенчмарках: TAT-LLM 7B отримує 64,60% EM на FinQA (проти 63,91% у GPT-4), 74,56% EM на TAT-QA (проти 71,92%) та 69,45% EM на TAT-DQA (проти 64,46%). Розрив у TAT-DQA є найбільш переконливим — майже 5 балів.
  • Вилучення є критичною точкою відмови: Аналіз помилок показує, що 48% помилок пов'язані з неправильним вилученням доказів — модель ідентифікує не той рядок, не ту колонку або неправильно зчитує число через незнайому фінансову термінологію. Лише 19% припадає на неправильні оператори.
  • Масштаб допомагає помірно: Варіант 70B, навчений на всіх даних (TAT-LLM-All), підвищує результат FinQA до 76,81% EM, а TAT-QA до 81,42% F1, що є значущим досягненням. Але модель 7B вже обходить GPT-4, що свідчить про те, що структура конвеєра важливіша за кількість параметрів.
  • Люди-експерти все ще попереду: На TAT-QA результативність людини становить 90,8% F1; найкращий результат TAT-LLM — 81,42% F1. Розрив реальний, і автори статті це визнають.

Що підтверджується, а що ні

Основний технічний внесок є обґрунтованим: передача арифметики детермінованому виконавцю — це очевидно правильне рішення, і абляційні дослідження це рішуче доводять. Це добре відомий урок з PAL та подібних робіт, але бачити його кількісне підтвердження тут (+16,66 бала) на специфічному фінансовому бенчмарку дуже цінно.

Більше скепсису викликає гучна заява про «перевершення GPT-4». Перевага на FinQA становить 0,69 бала EM — фактично в межах похибки, а показники GPT-4 відображають оцінку zero-shot або з мінімальними промптами, а не GPT-4 з ланцюжком міркувань (chain-of-thought), few-shot прикладами або власним інтерпретатором коду. GPT-4 з використанням інструментів Python майже напевно перевищить ці показники. Порівняння не є помилковим, але це не зовсім та історія про «перемогу спеціалізації», яку обіцяє анотація.

Також існує серйозне занепокоєння щодо витоку даних оцінки. Модель тонко налаштовувалася на навчальних вибірках FinQA, TAT-QA та TAT-DQA і оцінювалася на їхніх тестових вибірках. Це вузьке внутрішньорозподільне середовище. Стаття не включає стороннє фінансове завдання QA, яке модель ніколи не бачила під час навчання, тому здатність до узагальнення на нові типи документів або нові арифметичні шаблони не доведена.

Обмеження контексту в 4096 токенів є практичною перешкодою для реальних фінансових звітів. Типовий звіт 10-K налічує понад 100 сторінок; навіть один квартальний звіт про прибутки часто перевищує 4096 токенів. Описана модель не може обробляти вхідні дані, для яких вона була розроблена, без поділу на частини (chunking), і стаття не розглядає, як погіршується вилучення, коли докази охоплюють кілька частин.

Чому це важливо для ШІ у фінансах

Декомпозиція «Витягувач-Міркувальник-Виконавець» безпосередньо застосовна до агентів Beancount. Коли користувач запитує: «Якими були мої загальні витрати на їжу в першому кварталі 2025 року порівняно з першим кварталом 2024 року?», природна структура така: знайти відповідні транзакції (Extract), побудувати вираз агрегації (Reason), виконати його над реєстром (Execute). Аналіз помилок TAT-LLM дає конкретний прогноз: крок вилучення буде тим місцем, де агент Beancount помилятиметься найчастіше — неправильні категорії рахунків, пропущені транзакції, неправильно зчитані суми — а не арифметика.

Підхід до тонкого налаштування LoRA також актуальний для тих, хто створює специфічну для Beancount модель. Стратегія генерації навчальних даних — взяти експертно анотовані пари QA та додати до них проміжні кроки — це саме те, як слід створювати набір даних для міркувань над реєстрами. У вас є істинні записи в реєстрі; ви можете автоматично генерувати кортежі (питання, вилучення, вираз, відповідь).

Ліміт контексту — найбільша перешкода. Професійний агент Beancount повинен міркувати над записами за багато років. Модель із статті не є такою; це сильна базова лінія для QA за короткими документами, яку потрібно доповнити чанкінгом, пошуком або довшим вікном контексту, щоб вона стала практичною.

Що почитати далі

  • FinQA (arXiv:2109.00122, EMNLP 2021) — оригінальний бенчмарк, на якому оцінюється TAT-LLM; його вивчення прояснює, що саме означає «дискретний логічний висновок над фінансовими даними» і як виглядав попередній рівень SOTA до появи LLM.
  • TAGOP (частина статті TAT-QA, arXiv:2105.07624, ACL 2021) — модель операторів, що враховує таблиці, яка визначила завдання TAT-QA; розуміння того, як виглядає вибір операторів на основі правил, дає точку відліку для того, що замінює крок Reasoner на базі LLM.
  • AuditCopilot (arXiv:2512.02726) — порівнює LLaMA та Gemma у виявленні аномалій у журнальних записах на реальних даних реєстрів; природне наступне питання після TAT-LLM полягає в тому, чи переноситься той самий підхід до тонкого налаштування на виявлення аномалій замість QA.