Bean Labs Research Log

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

Отлагане с отчитане на неопределеността за LLM агенти: Кога да се ескалира от малки към големи модели

ReDAct изпълнява малък модел по подразбиране и ескалира към скъп модел само когато перплексията на ниво токен сигнализира за неопределеност, постигайки 64% спестяване на разходи спрямо използването само на GPT-5.2, като същевременно съответства на неговата точност или я надвишава — модел, директно приложим за агенти за категоризиране на трансакции в Beancount.

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: Отворена платформа за AI софтуерни агенти и какво означава тя за автоматизацията на финансите

OpenHands е платформа за агенти с лиценз MIT и изолация в Docker, където CodeAct постига 26% на SWE-Bench Lite — изтрезняващ бенчмарк, който установява какво могат надеждно да правят AI агентите днес и защо първите продуктивни финансови внедрявания трябва да бъдат тясно ограничени, а не автономни.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Как големите езикови модели (LLM) се провалят при междупериодния и междуфирмения финансов анализ

Fin-RATE оценява 17 големи езикови модела върху 7 500 експертно подбрани двойки въпроси и отговори от 2 472 отчета към SEC, разкривайки 18,60% срив в точността при лонгитудиално проследяване и 54 пункта спад за тясно специализирания във финансите Fin-R1 при задачи между различни предприятия — като основното тясно място се оказва конвейерът за извличане на информация (retrieval pipeline), а не базовият модел.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: Реални запитвания от анализатори разкриват 74% пропуск в пълнотата при финансовия RAG

FinDER оценява RAG върху 5 703 реални запитвания от анализатори на хедж фондове спрямо 10-K отчети на S&P 500; E5-Mistral постига само 25,95% пълнота на контекста, а наситените със съкращения запитвания струват 8,2 пункта прецизност — доказателство, че нормализирането на запитванията, а не по-добрите вграждания, е първото решение за финансовите AI конвейери.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Изгубени по средата: Позиционно отклонение в големите езикови модели (LLM) и неговото въздействие върху финансовия ИИ

Статията в TACL 2024 от Liu и съавтори показва, че LLM се справят с до 20 пункта по-лошо с информация, заровена в средата на дълги контексти — U-образна деградация, засягаща всеки тестван модел, включително Claude-1.3-100K — с конкретни последици за начина, по който RAG конвейерите трябва да подреждат извлечените пасажи във финансови и счетоводни приложения.

LLMAIMachine LearningData ScienceFraud DetectionAnalyticsAnomaly Detection

AD-LLM бенчмарк: GPT-4o постига 0.93+ AUROC при zero-shot откриване на аномалии в текст

AD-LLM сравнява GPT-4o и Llama 3.1 8B в три роли за откриване на аномалии – zero-shot детектор, генератор на данни и съветник за избор на модел – върху пет NLP набора от данни; GPT-4o достига AUROC 0.93–0.99 при zero-shot, но изборът на модел, базиран на LLM, остава ненадежден, с преки последици за ИИ във финансовия одит.

LLMAIMachine LearningFraud DetectionData ScienceAnomaly DetectionBeancount

CausalTAD: Каузално подреждане на колони за откриване на аномалии в таблични данни чрез LLM

CausalTAD подобрява откриването на аномалии в таблични данни чрез LLM, като пренарежда колоните на таблицата според каузалните зависимости преди сериализация, повишавайки средния AUC-ROC от 0.803 на 0.834 спрямо AnoLLM при бенчмаркове със смесен тип данни — с преки последици за откриването на аномалии в структурирани данни от счетоводни книги.

AILLMMachine LearningFraud DetectionData ScienceBeancountFinance

AnoLLM: Фина настройка на LLM за откриване на таблични аномалии във финансови данни

AnoLLM (ICLR 2025) преформулира откриването на таблични аномалии като оценка на плътността чрез LLM — фина настройка върху нормални редове и оценяване чрез отрицателна логаритмична вероятност (NLL). Той превъзхожда класическите методи при набори от данни за измами от смесен тип, но не предлага предимство при чисто числови данни, с реални последици за откриването на аномалии в записите на главната книга на Beancount.

LLMBeancountPlain-Text AccountingAIMachine LearningFinancial LiteracyDouble-EntryTransaction Validation

LLM постигат 2,3% при генериране на Beancount DSL: Бенчмаркът LLMFinLiteracy

Бенчмаркът LLMFinLiteracy установява, че пет модела с отворени тегла от около 7B генерират напълно коректни Beancount транзакции само в 2,3% от случаите, като неуспехите са съсредоточени в счетоводната логика — не в синтаксиса — което посочва обратната връзка от компилатора в цикъла като критично липсваща съставка за надеждни агенти за обратен запис.

Открити в средата: Калибрирането на позиционното отклонение на вниманието подобрява RAG с дълъг контекст

Latest articles

Отлагане с отчитане на неопределеността за LLM агенти: Кога да се ескалира от малки към големи модели

OpenHands: Отворена платформа за AI софтуерни агенти и какво означава тя за автоматизацията на финансите

Fin-RATE: Как големите езикови модели (LLM) се провалят при междупериодния и междуфирмения финансов анализ

FinDER: Реални запитвания от анализатори разкриват 74% пропуск в пълнотата при финансовия RAG

Изгубени по средата: Позиционно отклонение в големите езикови модели (LLM) и неговото въздействие върху финансовия ИИ

AD-LLM бенчмарк: GPT-4o постига 0.93+ AUROC при zero-shot откриване на аномалии в текст

CausalTAD: Каузално подреждане на колони за откриване на аномалии в таблични данни чрез LLM

AnoLLM: Фина настройка на LLM за откриване на таблични аномалии във финансови данни

LLM постигат 2,3% при генериране на Beancount DSL: Бенчмаркът LLMFinLiteracy

Започнете с Beancount.io

Първи стъпки

Функции

Общност

Правни въпроси