Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Вижте всички автори

GuardAgent: Детерминистично прилагане на безопасността за LLM агенти чрез изпълнение на код
·mike

GuardAgent: Детерминистично прилагане на безопасността за LLM агенти чрез изпълнение на код

GuardAgent (ICML 2025) поставя отделен LLM агент между целевия агент и неговата среда, като верифицира всяко предложено действие чрез генериране и изпълнение на Python код — постигайки 98,7% точност при прилагане на политиките, като същевременно запазва 100% изпълнение на задачите, в сравнение с 81% точност и 29–71% неуспех на задачите при вградени в инструкциите (prompt) правила за безопасност.

ai
llm
automation
security
+3
Дебат между мултиагентни LLM: Реални ползи в точността, неконтролирани изчисления и колективна заблуда
·mike

Дебат между мултиагентни LLM: Реални ползи в точността, неконтролирани изчисления и колективна заблуда

Подробен анализ на статията за дебат между мултиагентни системи на Du et al. от ICML 2024 — отчитаща 14,8 пункта ръст в точността при аритметика — заедно с опровержения от 2025 г., показващи, че единични агенти със същия бюджет достигат сходна производителност, и анализ защо колективната заблуда (65% от неуспехите при дебати) крие специфични рискове за автоматизирани записи в счетоводни книги.

ai
llm
machine-learning
automation
+2
LLM моделите не са полезни за прогнозиране на времеви редове: Какво означава NeurIPS 2024 за финансовия ИИ
·mike

LLM моделите не са полезни за прогнозиране на времеви редове: Какво означава NeurIPS 2024 за финансовия ИИ

Доклад от NeurIPS 2024 Spotlight извършва аблация на три базирани на LLM метода за прогнозиране на времеви редове — OneFitsAll, Time-LLM и CALF — и установява, че премахването на езиковия модел подобрява точността в повечето случаи, с до 1383 пъти по-бързо обучение. За финансови ИИ приложения като прогнозиране на баланса в Beancount, леките, специално създадени за целта модели системно превъзхождат преработените LLM.

ai
machine-learning
forecasting
data-science
+3
AuditCopilot: LLM за откриване на измами при двустранно счетоводство
·mike

AuditCopilot: LLM за откриване на измами при двустранно счетоводство

AuditCopilot прилага LLM с отворен код (Mistral-8B, Gemma, Llama-3.1) за откриване на измами в корпоративни счетоводни записи, намалявайки фалшиво положителните резултати от 942 на 12 — но аблационният анализ разкрива, че LLM функционира основно като слой за синтез върху резултатите от Isolation Forest, а не като независим детектор на аномалии.

fraud-detection
llm
double-entry
journal-entries
+4
TAT-LLM: Фино настроена LLaMA 2 за дискретно разсъждение върху финансови таблици и текст
·mike

TAT-LLM: Фино настроена LLaMA 2 за дискретно разсъждение върху финансови таблици и текст

TAT-LLM фино настройва LLaMA 2 7B чрез LoRA върху бенчмаркове за финансови въпроси и отговори от таблици и текстове, постигайки 64,60% EM на FinQA — надминавайки GPT-4 (63,91%) — чрез декомпозиране на разсъжденията в детерминистични стъпки Извличане-Разсъждение-Изпълнение, които елиминират аритметичните грешки.

llm
ai
machine-learning
finance
+3
Фино донастройване срещу RAG: Защо извличането печели при вграждането на нови знания в LLM
·mike

Фино донастройване срещу RAG: Защо извличането печели при вграждането на нови знания в LLM

Емпирично сравнение на RAG срещу неконтролирано фино донастройване при LLM със 7 млрд. параметри показва, че RAG постига 0,875+ точност върху факти след крайния срок на обучение, докато финото донастройване спира на 0,504 — с преки последици за проектирането на Beancount агенти и всяка система, изискваща чести актуализации на знанията.

ai
llm
machine-learning
data-science
+3
IRCoT: Преплитане на извличане с верига от мисли за многоетапно търсене на отговори
·mike

IRCoT: Преплитане на извличане с верига от мисли за многоетапно търсене на отговори

IRCoT преплита BM25 извличане с всяка стъпка от цикъла на разсъждения чрез верига от мисли, постигайки +11.3 recall при извличане и +7.1 F1 при HotpotQA спрямо едностепенен RAG — и показва, че 3B модел може да победи GPT-3 175B, когато стратегията за извличане е правилна.

ai
llm
machine-learning
automation
+3
FLARE: Активно извличане с добавена генерация
·mike

FLARE: Активно извличане с добавена генерация

FLARE (EMNLP 2023) подобрява стандартния RAG чрез задействане на извличане по средата на генерацията с използване на прагове за увереност на вероятността на токените, достигайки 51,0 EM на 2WikiMultihopQA спрямо 39,4 за еднократно извличане — но провалите в калибрирането при чат модели, настроени чрез инструкции, ограничават надеждността му за производствени финансови агенти.

ai
machine-learning
llm
retrieval-augmented-generation
+3
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
·mike

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Lewis et al.'s NeurIPS 2020 paper introduced the hybrid RAG architecture—a BART-large generator paired with a FAISS-indexed retriever over 21 million Wikipedia passages—achieving 44.5 EM on Natural Questions and establishing the parametric/non-parametric split that now underlies most production AI systems. This review covers RAG-Sequence vs. RAG-Token trade-offs, the retrieval collapse failure mode, and what stale indexes mean for financial AI built on append-only Beancount ledgers.

ai
machine-learning
llm
data-science
+2
MultiHiertt: Тестване на числено разсъждение върху многостепенни йерархични финансови таблици
·mike

MultiHiertt: Тестване на числено разсъждение върху многостепенни йерархични финансови таблици

MultiHiertt (ACL 2022) представя 10 440 двойки въпроси и отговори от реални финансови отчети със средно 3,89 йерархични таблици всеки; съвременните модели постигат 38% F1 срещу 87% за хората, с 15 точки наказание за въпроси между различни таблици — количествено измерване на разликата в извличането, която финансовият AI трябва да преодолее.

ai
machine-learning
llm
financial-reporting
+3
ConvFinQA: Многократни финансови въпроси и отговори и 21-точковата разлика между моделите и човешките експерти
·mike

ConvFinQA: Многократни финансови въпроси и отговори и 21-точковата разлика между моделите и човешките експерти

ConvFinQA (EMNLP 2022) разширява FinQA в многократни диалози върху отчетите за приходите на S&P 500, установявайки, че най-добрият фино настроен модел постига 68,9% точност на изпълнение срещу 89,4% за човешки експерти — и спада до 52,4% при хибридни разговори с множество аспекти, където моделите трябва да пренасят числовия контекст през различни финансови теми.

ai
llm
machine-learning
finance
+3
TAT-QA: Хибриден бенчмарк за въпроси и отговори върху таблици и текст за логически разсъждения върху финансови годишни отчети
·mike

TAT-QA: Хибриден бенчмарк за въпроси и отговори върху таблици и текст за логически разсъждения върху финансови годишни отчети

TAT-QA е бенчмарк с 16 552 въпроса върху хибридни контексти от таблици и текст във финансови отчети, който показа, че приземяването на доказателствата (grounding) — а не аритметиката — е основното тясно място в AI за финансите; до 2024 г. фино настроени 7B LLM модели достигнаха 83% F1, запълвайки по-голямата част от разликата спрямо 91% таван при хората.

ai
machine-learning
llm
finance
+2
Показани 49–60 от 87 публикации