Перейти к контенту

TAT-LLM: Тонко настроенная модель LLaMA 2 для дискретных рассуждений над финансовыми таблицами и текстом

· 6 мин чтения
Mike Thrift
Mike Thrift
Marketing Manager

Проведя неделю за изучением поиска и инъекции знаний, я захотел взглянуть на другую сторону вопроса: что на самом деле дает целевое дообучение (fine-tuning), когда задача четко определена? TAT-LLM (arXiv:2401.13223, ICAIF 2024) дает один из самых ясных ответов: дообучите LLaMA 2 с помощью структурированного конвейера на бенчмарках QA по финансовым таблицам и текстам — и превзойдите GPT-4. Подвох, как обычно, кроется в деталях.

Статья

2026-05-21-tat-llm-specialized-language-model-discrete-reasoning-tabular-textual

Фэнбинь Чжу, Цзыян Лю, Фули Фэн, Чао Ван, Мосинь Ли и Тат-Сенг Чуа из NExT++ в NUS представляют TAT-LLM — модель LLaMA 2, дообученную для дискретных рассуждений над гибридными табличными и текстовыми данными. Основная проблема заключается в ответах на числовые вопросы по финансовым отчетам — такие вопросы требуют поиска конкретной строки в таблице, извлечения двух цифр и выполнения многоэтапной арифметической операции для получения ответа. Именно это делают люди при чтении отчетов формы 10-K.

Вместо того чтобы использовать промпты для большой модели целиком (end-to-end), авторы разбивают задачу на три явных этапа: Экстрактор (Extractor), который идентифицирует соответствующие числовые доказательства в документе, Резонер (Reasoner), который записывает арифметическое выражение, и Исполнитель (Executor), который детерминировано выполняет это выражение. Обучающие данные генерируются автоматически на основе существующих наборов данных, размеченных экспертами — FinQA, TAT-QA и TAT-DQA — путем добавления к каждому экземпляру промежуточных этапов извлечения и рассуждения. Дообучение проводится с использованием LoRA для трех масштабов LLaMA 2: 7B, 13B и 70B.

Ключевые идеи

  • Декомпозиция конвейера лучше сквозного (end-to-end) подхода: Внешний Исполнитель (детерминированная арифметика) добавляет +16,66 балла EM на FinQA только для модели 7B. Арифметика не является более сложной для модели — она просто катастрофически ненадежна при выполнении на естественном языке.
  • 7B превосходит GPT-4 во всех трех бенчмарках: TAT-LLM 7B набирает 64,60% EM на FinQA (против 63,91% у GPT-4), 74,56% EM на TAT-QA (против 71,92%) и 69,45% EM на TAT-DQA (против 64,46%). Разрыв в TAT-DQA наиболее убедителен и составляет почти 5 пунктов.
  • Извлечение — основной фактор отказа: Анализ ошибок показывает, что 48% промахов связаны с неправильным извлечением доказательств — модель находит не ту строку, не тот столбец или неверно считывает число из-за незнакомой финансовой терминологии. Только 19% ошибок связаны с неверными операторами.
  • Масштабирование помогает умеренно: Совместно обученный вариант 70B (TAT-LLM-All) поднимает результаты FinQA до 76,81% EM, а TAT-QA — до 81,42% F1, что является значимым ростом. Но модель 7B уже обходит GPT-4, что говорит о том, что структура конвейера важнее количества параметров.
  • Человеческие эксперты по-прежнему далеко впереди: В TAT-QA показатели людей составляют 90,8% F1; лучший результат TAT-LLM — 81,42% F1. Разрыв реален, и авторы признают это.

Что подтверждается, а что нет

Основной технический вклад обоснован: делегирование арифметики детерминированному исполнителю — очевидно правильное решение, и абляционное исследование решительно это доказывает. Это хорошо известный урок по PAL и аналогичным работам, но видеть его количественное подтверждение здесь (+16,66 балла) на специализированном финансовом бенчмарке — ценно.

Больше скепсиса вызывает заголовок о «превосходстве над GPT-4». Разрыв в FinQA составляет 0,69 балла EM — по сути, в пределах погрешности, а показатели GPT-4 отражают оценку zero-shot или с минимальными промптами, без использования цепочки рассуждений (chain-of-thought), примеров (few-shot) или собственного интерпретатора кода. GPT-4 с использованием инструментов Python почти наверняка превзошел бы эти цифры. Сравнение не ошибочно, но оно не совсем соответствует истории «победы специализации», которую подразумевает аннотация.

Также существует серьезная обеспокоенность по поводу утечки данных при оценке. Модель дообучена на тренировочных выборках из FinQA, TAT-QA и TAT-DQA и оценена на их тестовых выборках. Это узкая настройка в рамках распределения данных. В статье не представлено сторонней финансовой задачи QA, которую модель никогда не видела во время обучения, поэтому обобщающая способность на новые типы документов или новые арифметические паттерны не доказана.

Ограничение контекста в 4 096 токенов — это критическая помеха для реальных финансовых отчетов. Типичный отчет 10-K занимает более 100 страниц; даже один релиз о квартальной прибыли часто превышает 4 096 токенов. Описанная модель не может обрабатывать входные данные, для которых она была разработана, без разбиения на части (chunking), и в статье не рассматривается, как ухудшается качество извлечения, когда доказательства распределены по нескольким фрагментам.

Почему это важно для ИИ в финансах

Декомпозиция Экстрактор-Резонер-Исполнитель напрямую применима к агентам Beancount. Когда пользователь спрашивает: «каковы были мои общие расходы на еду в первом квартале 2025 года по сравнению с первым кварталом 2024 года?», естественная структура такова: найти соответствующие транзакции (Извлечение), построить выражение агрегации (Рассуждение), выполнить его в журнале (Выполнение). Анализ ошибок TAT-LLM дает конкретный прогноз: этап извлечения будет тем местом, где агент Beancount будет ошибаться чаще всего — неверные категории счетов, пропущенные транзакции, неверно прочитанные суммы — а не арифметика.

Подход с дообучением LoRA также актуален для любого, кто создает модель специально для Beancount. Стратегия генерации обучающих данных — взять пары QA, размеченные экспертами, и снабдить их промежуточными этапами — это именно то, как следует создавать набор данных для рассуждений по бухгалтерскому журналу. У вас есть истинные записи в журнале; вы можете автоматически генерировать кортежи (вопрос, извлечение, выражение, ответ).

Лимит контекста — главное препятствие. Производственному агенту Beancount необходимо рассуждать над записями за годы. Модель из статьи — это не готовое решение, а сильная база для QA по коротким документам, которую необходимо расширить с помощью фрагментации, поиска или более длинного окна контекста, чтобы она стала практичной.

Что почитать дальше

  • FinQA (arXiv:2109.00122, EMNLP 2021) — оригинальный бенчмарк, на котором оценивается TAT-LLM; его прочтение проясняет, что именно означают «дискретные рассуждения над финансовыми данными» и как выглядел предыдущий SOTA до появления LLM.
  • TAGOP (часть статьи TAT-QA, arXiv:2105.07624, ACL 2021) — модель операторов с учетом таблиц, которая определила задачу TAT-QA; понимание того, как выглядит выбор операторов на основе правил, дает точку отсчета для того, что заменяет этап Резонера на базе LLM.
  • AuditCopilot (arXiv:2512.02726) — оценивает LLaMA и Gemma в обнаружении аномалий при тестировании журнальных проводок на реальных бухгалтерских данных; естественный следующий вопрос после TAT-LLM заключается в том, переносится ли тот же подход к дообучению на обнаружение аномалий, а не только на QA.