Преминете към основното съдържание

Bean Labs Research Log

PAL: Програмно подпомагани езикови модели за надеждна финансова аритметика

PAL (Програмно подпомагани езикови модели) постига +38 пр.п. ръст в точността спрямо „верига от мисли“ при задачи с интензивна аритметика чрез делегиране на изчисленията към интерпретатор на Python — архитектура с директно приложение за надеждни справки в Beancount регистри и финансов ИИ.

Latest articles

Могат ли LLM да разсъждават върху таблични данни? Какво ни казват четири бенчмарка за финансовия ИИ

Четири бенчмарка от 2024–2025 г. показват, че GPT-4 постига 42% при отговори на въпроси върху реални таблици срещу 86% при хората, като сложните агрегации се сриват до 19,6% — а нативният синтаксис на Beancount се намира в най-слабо представящия се край на йерархията на сериализация за вход към LLM.

Конституционен ИИ за счетоводни агенти: RLAIF, политически правила и рискове от типа „Гуудхарт“

Документът на Anthropic за Конституционен ИИ (Bai et al., 2022) обучава големи езикови модели (LLM) да следват правила чрез обратна връзка, генерирана от ИИ, вместо чрез човешки етикети за вредно съдържание. Този изследователски дневник разглежда как конвейерът на RLAIF за „критика-преразглеждане-препочитание“ се съпоставя с безопасността при обратно записване за автономни агенти в Beancount — и как изглеждат ефектът на Гуудхарт, грешките в калибрирането и рисковете от двойна употреба, когато „конституцията“ е сметкоплан вместо набор от етични правила.

Верига от мисли (Chain-of-Thought): Компромиси между точност и пълнота за ИИ във финансите

Подробен прочит на документа за Верига от мисли (Chain-of-Thought) на Wei и др. от 2022 г. и какво означава той за ИИ във финансите — защо CoT повишава точността, но може да намали пълнотата при откриване на редки събития, защо прагът на мащаба е важен за производствените агенти и за какво трябва да внимава финансов екип, изграждащ решения върху LLM.

PHANTOM (NeurIPS 2025): Измерване на откриването на халюцинации при LLM във финансови документи

PHANTOM (NeurIPS 2025) е първият бенчмарк за измерване на откриването на халюцинации при LLM върху реални документи на SEC с дължина на контекста до 30 000 токена. Qwen3-30B-A3B-Thinking води с F1=0.882; 7B моделите постигат резултати близки до случайно налучкване — с директни последици за автономните счетоводни агенти.

FinMaster Benchmark: Защо големите езикови модели (LLM) постигат 96% при финансова грамотност, но само 3% при генериране на отчети

FinMaster (arXiv:2505.13533) тества o3-mini, Claude 3.7 Sonnet и DeepSeek-V3 в 183 финансови задачи — разкривайки, че моделите постигат 96% при финансовата грамотност, но се сриват до 3% при генерирането на отчети, като многостепенните консултантски задачи губят 21 пункта точност поради разпространение на грешки.

ReAct: Синергия между разсъждение и действие при езиковите модели

ReAct (Yao et al., ICLR 2023) преплита разсъждения от тип „верига от мисли“ с действия чрез инструменти в една обща траектория, превъзхождайки чистия CoT при проверката на факти и обучението чрез имитация при задачи в среда с 34 процентни пункта. Този анализ обхваща видовете грешки в документа — разсейване, породено от търсенето, и натрупващи се грешки — и какво означават те за автономните агенти, които пишат обратно в Beancount леджъри.

Toolformer: Самообучено използване на инструменти и неговите ограничения за финансовия ИИ

Подробен анализ на Toolformer (Meta AI, NeurIPS 2023): как самообучението с филтриране по перплексия учи модел с 6,7 милиарда параметри да извиква външни API, къде той превъзхожда GPT-3 със 175 милиарда параметри в аритметични бенчмаркове и защо неговата едностъпкова архитектура не може да поддържа верижните извиквания на инструменти, необходими за операции със структурирани счетоводни книги.

FinBen: Сравнителен анализ на LLM в 36 финансови задачи — последици за изкуствения интелект в счетоводството

FinBen оценява 15 LLM в 36 финансови масива от данни на NeurIPS 2024, установявайки, че GPT-4 достига 0.63 Точно съвпадение (Exact Match) при числени въпроси и отговори и 0.54 при прогнозиране на движението на акции — близо до случайността. Ето какво означават тези цифри за изграждането на надежден счетоводен агент върху регистър на Beancount.