Чотири бенчмарки 2024–2025 років показують, що GPT-4 набирає 42% у відповідях на питання за реальними таблицями проти 86% у людей, причому складні агрегації падають до 19,6% — а власний синтаксис Beancount знаходиться в найменш продуктивній частині ієрархії серіалізації для вводу в LLM.
Стаття Anthropic про Конституційний ШІ (Bai et al., 2022) навчає великі мовні моделі (LLM) дотримуватися правил за допомогою зворотного зв'язку, створеного ШІ, а не міток людської шкоди. Цей дослідницький журнал розглядає, як конвеєр RLAIF «критика-перегляд-перевага» відображається на безпеці зворотного запису для автономних агентів реєстру Beancount — і як виглядають закон Ґудгарта, помилки калібрування та ризики подвійного призначення, коли «конституцією» є план рахунків, а не набір етичних правил.
Детальний аналіз статті Вея та ін. 2022 року про Chain-of-Thought та її значення для ШІ у фінансах — чому CoT підвищує точність, але може знизити повноту виявлення рідкісних подій, чому поріг масштабу важливий для виробничих агентів та на що варто звернути увагу фінансовим командам, які працюють з LLM.
PHANTOM (NeurIPS 2025) — це перший бенчмарк для вимірювання виявлення галюцинацій LLM у реальних звітах SEC за довжини контексту до 30 000 токенів. Qwen3-30B-A3B-Thinking лідирує з F1=0.882; моделі з 7B параметрів показують результати, близькі до випадкового вгадування — це має прямі наслідки для автономних бухгалтерських агентів.
FinMaster (arXiv:2505.13533) тестує o3-mini, Claude 3.7 Sonnet та DeepSeek-V3 у 183 фінансових завданнях — виявляючи, що моделі отримують 96% за фінансову грамотність, але падають до 3% у формуванні звітності, причому багатоетапні консалтингові завдання втрачають 21 пункт точності через поширення помилок.
ReAct (Yao та ін., ICLR 2023) поєднує міркування «ланцюжка думок» із діями інструментів в єдиній траєкторії, перевершуючи чистий CoT у перевірці фактів та імітаційному навчанні в ембодімент-завданнях на 34 відсоткові пункти. Цей аналіз розглядає режими відмов статті — відволікання через по шук та накопичення помилок — і те, що вони означають для автономних агентів, які вносять записи до реєстрів Beancount.
Детальний аналіз Toolformer (Meta AI, NeurIPS 2023): як самокероване навчання з фільтрацією за перплексією навчає модель із 6,7 млрд параметрів викликати зовнішні API, де вона перевершує GPT-3 175B в арифметичних тестах, і чому її однокрокова архітектура не підтримує ланцюжки викликів інструментів, необхідні для операцій зі структурованими реєстрами.
FinBen оцінює 15 LLM на 36 фінансових наборах даних на NeurIPS 2024, виявивши, що GPT-4 досягає 0,63 Exact Match у чисельних QA та 0,54 у прогнозуванні руху акцій — що майже на рівні випадковості. Ось що ці цифри означають для побудови надійного бухгалтерського агента для леджера Beancount.