Перейти до основного вмісту

Bean Labs Research Log

PAL: Моделі програмованої мови для надійної фінансової арифметики

PAL (моделі програмованої мови) досягає приросту точності на +38 в.п. порівняно з ланцюжком думок у завданнях з великою кількістю арифметичних операцій шляхом делегування обчислень інтерпретатору Python — архітектура, що безпосередньо застосовується для надійних запитів до книги Beancount та фінансового ШІ.

Latest articles

Чи можуть LLM аналізувати табличні дані? Що чотири бенчмарки кажуть про ШІ у фінансах

Чотири бенчмарки 2024–2025 років показують, що GPT-4 набирає 42% у відповідях на питання за реальними таблицями проти 86% у людей, причому складні агрегації падають до 19,6% — а власний синтаксис Beancount знаходиться в найменш продуктивній частині ієрархії серіалізації для вводу в LLM.

Конституційний ШІ для бухгалтерських агентів: RLAIF, правила політики та ризики Ґудгарта

Стаття Anthropic про Конституційний ШІ (Bai et al., 2022) навчає великі мовні моделі (LLM) дотримуватися правил за допомогою зворотного зв'язку, створеного ШІ, а не міток людської шкоди. Цей дослідницький журнал розглядає, як конвеєр RLAIF «критика-перегляд-перевага» відображається на безпеці зворотного запису для автономних агентів реєстру Beancount — і як виглядають закон Ґудгарта, помилки калібрування та ризики подвійного призначення, коли «конституцією» є план рахунків, а не набір етичних правил.

Chain-of-Thought Prompting: компроміси між точністю та повнотою для ШІ у сфері фінансів

Детальний аналіз статті Вея та ін. 2022 року про Chain-of-Thought та її значення для ШІ у фінансах — чому CoT підвищує точність, але може знизити повноту виявлення рідкісних подій, чому поріг масштабу важливий для виробничих агентів та на що варто звернути увагу фінансовим командам, які працюють з LLM.

PHANTOM (NeurIPS 2025): Вимірювання виявлення галюцинацій LLM у фінансових документах

PHANTOM (NeurIPS 2025) — це перший бенчмарк для вимірювання виявлення галюцинацій LLM у реальних звітах SEC за довжини контексту до 30 000 токенів. Qwen3-30B-A3B-Thinking лідирує з F1=0.882; моделі з 7B параметрів показують результати, близькі до випадкового вгадування — це має прямі наслідки для автономних бухгалтерських агентів.

Бенчмарк FinMaster: чому LLM отримують 96% за фінансову грамотність, але лише 3% за формування звітності

FinMaster (arXiv:2505.13533) тестує o3-mini, Claude 3.7 Sonnet та DeepSeek-V3 у 183 фінансових завданнях — виявляючи, що моделі отримують 96% за фінансову грамотність, але падають до 3% у формуванні звітності, причому багатоетапні консалтингові завдання втрачають 21 пункт точності через поширення помилок.

ReAct: Синергія міркування та дії в мовних моделях

ReAct (Yao та ін., ICLR 2023) поєднує міркування «ланцюжка думок» із діями інструментів в єдиній траєкторії, перевершуючи чистий CoT у перевірці фактів та імітаційному навчанні в ембодімент-завданнях на 34 відсоткові пункти. Цей аналіз розглядає режими відмов статті — відволікання через пошук та накопичення помилок — і те, що вони означають для автономних агентів, які вносять записи до реєстрів Beancount.

Toolformer: Самокероване використання інструментів та його обмеження для фінансового ШІ

Детальний аналіз Toolformer (Meta AI, NeurIPS 2023): як самокероване навчання з фільтрацією за перплексією навчає модель із 6,7 млрд параметрів викликати зовнішні API, де вона перевершує GPT-3 175B в арифметичних тестах, і чому її однокрокова архітектура не підтримує ланцюжки викликів інструментів, необхідні для операцій зі структурованими реєстрами.

FinBen: Бенчмаркінг LLM у 36 фінансових завданнях — наслідки для ШІ в бухгалтерському обліку

FinBen оцінює 15 LLM на 36 фінансових наборах даних на NeurIPS 2024, виявивши, що GPT-4 досягає 0,63 Exact Match у чисельних QA та 0,54 у прогнозуванні руху акцій — що майже на рівні випадковості. Ось що ці цифри означають для побудови надійного бухгалтерського агента для леджера Beancount.