Bean Labs Research Log

AILLMBeancountData SciencePlain-Text AccountingAutomationFinance

Могат ли LLM да разсъждават върху таблични данни? Какво ни казват четири бенчмарка за финансовия ИИ

Четири бенчмарка от 2024–2025 г. показват, че GPT-4 постига 42% при отговори на въпроси върху реални таблици срещу 86% при хората, като сложните агрегации се сриват до 19,6% — а нативният синтаксис на Beancount се намира в най-слабо представящия се край на йерархията на сериализация за вход към LLM.

AIMachine LearningLLMAutomationComplianceAccountingBeancount

Конституционен ИИ за счетоводни агенти: RLAIF, политически правила и рискове от типа „Гуудхарт“

Документът на Anthropic за Конституционен ИИ (Bai et al., 2022) обучава големи езикови модели (LLM) да следват правила чрез обратна връзка, генерирана от ИИ, вместо чрез човешки етикети за вредно съдържание. Този изследователски дневник разглежда как конвейерът на RLAIF за „критика-преразглеждане-препочитание“ се съпоставя с безопасността при обратно записване за автономни агенти в Beancount — и как изглеждат ефектът на Гуудхарт, грешките в калибрирането и рисковете от двойна употреба, когато „конституцията“ е сметкоплан вместо набор от етични правила.

AILLMMachine LearningData ScienceFinanceAutomationFraud Detection

Верига от мисли (Chain-of-Thought): Компромиси между точност и пълнота за ИИ във финансите

Подробен прочит на документа за Верига от мисли (Chain-of-Thought) на Wei и др. от 2022 г. и какво означава той за ИИ във финансите — защо CoT повишава точността, но може да намали пълнотата при откриване на редки събития, защо прагът на мащаба е важен за производствените агенти и за какво трябва да внимава финансов екип, изграждащ решения върху LLM.

LLMAIMachine LearningFinanceFinancial ReportingTrustBeancountData Science

PHANTOM (NeurIPS 2025): Измерване на откриването на халюцинации при LLM във финансови документи

PHANTOM (NeurIPS 2025) е първият бенчмарк за измерване на откриването на халюцинации при LLM върху реални документи на SEC с дължина на контекста до 30 000 токена. Qwen3-30B-A3B-Thinking води с F1=0.882; 7B моделите постигат резултати близки до случайно налучкване — с директни последици за автономните счетоводни агенти.

LLMAccountingAIFinancial StatementsFinancial LiteracyMachine LearningAutomation

FinMaster Benchmark: Защо големите езикови модели (LLM) постигат 96% при финансова грамотност, но само 3% при генериране на отчети

FinMaster (arXiv:2505.13533) тества o3-mini, Claude 3.7 Sonnet и DeepSeek-V3 в 183 финансови задачи — разкривайки, че моделите постигат 96% при финансовата грамотност, но се сриват до 3% при генерирането на отчети, като многостепенните консултантски задачи губят 21 пункта точност поради разпространение на грешки.

AILLMMachine LearningAutomationBeancountReconciliationPlain-Text Accounting

ReAct: Синергия между разсъждение и действие при езиковите модели

ReAct (Yao et al., ICLR 2023) преплита разсъждения от тип „верига от мисли“ с действия чрез инструменти в една обща траектория, превъзхождайки чистия CoT при проверката на факти и обучението чрез имитация при задачи в среда с 34 процентни пункта. Този анализ обхваща видовете грешки в документа — разсейване, породено от търсенето, и натрупващи се грешки — и какво означават те за автономните агенти, които пишат обратно в Beancount леджъри.

AILLMMachine LearningAutomationBeancountDevelopersData SciencePlain-Text Accounting

Toolformer: Самообучено използване на инструменти и неговите ограничения за финансовия ИИ

Подробен анализ на Toolformer (Meta AI, NeurIPS 2023): как самообучението с филтриране по перплексия учи модел с 6,7 милиарда параметри да извиква външни API, къде той превъзхожда GPT-3 със 175 милиарда параметри в аритметични бенчмаркове и защо неговата едностъпкова архитектура не може да поддържа верижните извиквания на инструменти, необходими за операции със структурирани счетоводни книги.

AILLMMachine LearningFinanceForecastingData ScienceBeancount

FinBen: Сравнителен анализ на LLM в 36 финансови задачи — последици за изкуствения интелект в счетоводството

FinBen оценява 15 LLM в 36 финансови масива от данни на NeurIPS 2024, установявайки, че GPT-4 достига 0.63 Точно съвпадение (Exact Match) при числени въпроси и отговори и 0.54 при прогнозиране на движението на акции — близо до случайността. Ето какво означават тези цифри за изграждането на надежден счетоводен агент върху регистър на Beancount.

PAL: Програмно подпомагани езикови модели за надеждна финансова аритметика

Latest articles

Могат ли LLM да разсъждават върху таблични данни? Какво ни казват четири бенчмарка за финансовия ИИ

Конституционен ИИ за счетоводни агенти: RLAIF, политически правила и рискове от типа „Гуудхарт“

Верига от мисли (Chain-of-Thought): Компромиси между точност и пълнота за ИИ във финансите

PHANTOM (NeurIPS 2025): Измерване на откриването на халюцинации при LLM във финансови документи

FinMaster Benchmark: Защо големите езикови модели (LLM) постигат 96% при финансова грамотност, но само 3% при генериране на отчети

ReAct: Синергия между разсъждение и действие при езиковите модели

Toolformer: Самообучено използване на инструменти и неговите ограничения за финансовия ИИ

FinBen: Сравнителен анализ на LLM в 36 финансови задачи — последици за изкуствения интелект в счетоводството

Започнете с Beancount.io

Първи стъпки

Функции

Общност

Правни въпроси