Bean Labs Research Log

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

Odkladanie s vedomím neistoty pre agentov LLM: Kedy prejsť z malých na veľké modely

ReDAct predvolene spúšťa malý model a eskaluje na drahý model len vtedy, keď perplexita na úrovni tokenov signalizuje neistotu, čím dosahuje 64 % úsporu nákladov oproti použitiu iba GPT-5.2 pri zachovaní alebo prekonaní jeho presnosti — model priamo aplikovateľný pre agentov kategorizácie transakcií v Beancounte.

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: Otvorená platforma pre AI softvérových agentov a čo to znamená pre automatizáciu financií

OpenHands je platforma pre agentov s licenciou MIT a sandboxom v Dockeri, kde CodeAct dosahuje 26 % na SWE-Bench Lite – triezvy benchmark, ktorý stanovuje, čo dnes AI agenti dokážu spoľahlivo urobiť a prečo by prvé produktívne nasadenia vo financiách mali byť úzko špecifikované namiesto autonómnych.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Ako LLM zlyhávajú pri finančnej analýze medzi obdobiami a entitami

Fin-RATE testuje 17 modelov LLM na 7 500 odborne zostavených dvojiciach otázok a odpovedí z 2 472 výkazov SEC, čo odhaľuje prepad presnosti o 18,60 % pri longitudinálnom sledovaní a pokles o 54 bodov u finančne špecializovaného modelu Fin-R1 pri úlohách naprieč entitami – pričom hlavným úzkym hrdlom je proces vyhľadávania (retrieval), nie samotný model.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: Skutočné dopyty analytikov odhaľujú 74 % medzeru v návratnosti pri finančnom RAG

FinDER benchmarkuje RAG na 5 703 reálnych dopytoch analytikov hedžových fondov voči výkazom 10-K spoločností S&P 500; E5-Mistral dosahuje len 25,95 % návratnosť kontextu a dopyty plné skratiek stoja 8,2 bodu presnosti — dôkaz, že normalizácia dopytov, nie lepšie embeddingy, je prvým riešením pre finančné AI pipeline.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Stratení v strede: Pozičná zaujatosť v LLM a jej vplyv na finančnú AI

Článok TACL 2024 od Liu a kol. ukazuje, že LLM dosahujú až o 20 bodov horšie výsledky pri informáciách ukrytých v strede dlhých kontextov — degradácia v tvare písmena U ovplyvňujúca každý testovaný model vrátane Claude-1.3-100K — s konkrétnymi dôsledkami na to, ako by mali RAG kanály radiť vyhľadané pasáže v aplikáciách pre financie a účtovníctvo.

LLMAIMachine LearningData ScienceFraud DetectionAnalyticsAnomaly Detection

Benchmark AD-LLM: GPT-4o dosahuje 0,93+ AUROC Zero-Shot pri detekcii textových anomálií

AD-LLM testuje GPT-4o a Llama 3.1 8B v troch úlohách detekcie anomálií – ako zero-shot detektor, nástroj na augmentáciu dát a poradca pri výbere modelu – na piatich NLP datasetoch; GPT-4o dosahuje AUROC 0,93 – 0,99 v režime zero-shot, avšak výber modelu pomocou LLM zostáva nespoľahlivý, čo má priamy vplyv na AI vo finančnom audite.

LLMAIMachine LearningFraud DetectionData ScienceAnomaly DetectionBeancount

CausalTAD: Kauzálne usporiadanie stĺpcov pre detekciu anomálií v tabuľkových dátach pomocou LLM

CausalTAD zlepšuje detekciu anomálií v tabuľkových dátach založenú na LLM preusporiadaním stĺpcov tabuľky tak, aby rešpektovali kauzálne závislosti pred serializáciou, čím zvyšuje priemerné AUC-ROC z 0,803 na 0,834 oproti AnoLLM na benchmarkoch so zmiešanými typmi dát — s priamym dopadom na detekciu anomálií v štruktúrovaných údajoch účtovných kníh.

AILLMMachine LearningFraud DetectionData ScienceBeancountFinance

AnoLLM: Doladenie LLM pre detekciu anomálií v tabuľkových finančných údajoch

AnoLLM (ICLR 2025) preformulováva detekciu anomálií v tabuľkových údajoch ako odhad hustoty pomocou LLM — doladenie na normálnych riadkoch a skórovanie pomocou zápornej logaritmickej vierohodnosti. Prekonáva klasické metódy na súboroch údajov o podvodoch so zmiešanými typmi, ale neponúka výhodu pri čisto numerických údajoch, s reálnymi dôsledkami pre detekciu anomálií v záznamoch účtovnej knihy Beancount.

LLMBeancountPlain-Text AccountingAIMachine LearningFinancial LiteracyDouble-EntryTransaction Validation

LLM dosahujú 2,3 % v generovaní Beancount DSL: Benchmark LLMFinLiteracy

Benchmark LLMFinLiteracy zisťuje, že päť modelov s otvorenými váhami o veľkosti približne 7B generuje plne správne transakcie Beancount len v 2,3 % prípadov, pričom zlyhania sa sústreďujú v účtovnom uvažovaní — nie v syntaxi — čo poukazuje na spätnú väzbu kompilátora v slučke ako na kritický chýbajúci prvok pre spoľahlivých agentov na zápis.

Nájdené v strede: Kalibrácia predpojatosti pozičnej pozornosti zlepšuje RAG s dlhým kontextom

Latest articles

Odkladanie s vedomím neistoty pre agentov LLM: Kedy prejsť z malých na veľké modely

OpenHands: Otvorená platforma pre AI softvérových agentov a čo to znamená pre automatizáciu financií

Fin-RATE: Ako LLM zlyhávajú pri finančnej analýze medzi obdobiami a entitami

FinDER: Skutočné dopyty analytikov odhaľujú 74 % medzeru v návratnosti pri finančnom RAG

Stratení v strede: Pozičná zaujatosť v LLM a jej vplyv na finančnú AI

Benchmark AD-LLM: GPT-4o dosahuje 0,93+ AUROC Zero-Shot pri detekcii textových anomálií

CausalTAD: Kauzálne usporiadanie stĺpcov pre detekciu anomálií v tabuľkových dátach pomocou LLM

AnoLLM: Doladenie LLM pre detekciu anomálií v tabuľkových finančných údajoch

LLM dosahujú 2,3 % v generovaní Beancount DSL: Benchmark LLMFinLiteracy

Začnite s Beancount.io

Začíname

Funkcie

Komunita

Právne informácie