Bean Labs Research Log

AILLMBeancountData SciencePlain-Text AccountingAutomationFinance

Poden els LLM raonar sobre dades tabulars? El que quatre bancs de proves ens diuen sobre la IA financera

Quatre bancs de proves de 2024–2025 mostren que el GPT-4 obté una puntuació del 42% en preguntes i respostes sobre taules reals en comparació amb el 86% dels humans, amb agregacions complexes que cauen fins al 19,6%, i la sintaxi nativa de Beancount se situa en l'extrem amb pitjor rendiment de la jerarquia de serialització per a l'entrada de LLM.

AIMachine LearningLLMAutomationComplianceAccountingBeancount

IA constitucional per a agents comptables: RLAIF, regles de política i riscos de Goodharting

L'article sobre IA constitucional d'Anthropic (Bai et al., 2022) entrena LLMs per seguir regles mitjançant retroalimentació generada per IA en lloc d'etiquetes de dany humanes. Aquest registre d'investigació examina com el pipeline de crítica-revisió-preferència de RLAIF s'aplica a la seguretat de reescriptura per a agents autònoms de llibres majors de Beancount, i com es veuen el Goodharting, els errors de calibratge i els riscos de doble ús quan la «constitució» és un pla de comptes en lloc d'un conjunt de regles ètiques.

AILLMMachine LearningData ScienceFinanceAutomationFraud Detection

Prompting de Cadena de Pensament: Compromisos entre Precisió i Exhaustivitat per a la IA Financera

Una lectura atenta de l'article de 2022 sobre Chain-of-Thought de Wei et al. i què significa per a la IA financera — per què el CoT augmenta la precisió però pot reduir l'exhaustivitat en la detecció d'esdeveniments rars, per què el llindar d'escala és important per als agents de producció i què ha de tenir en compte un equip financer que construeix sobre LLMs.

LLMAIMachine LearningFinanceFinancial ReportingTrustBeancountData Science

PHANTOM (NeurIPS 2025): Mesurant la detecció d'al·lucinacions d'LLM en documents financers

PHANTOM (NeurIPS 2025) és el primer banc de proves per mesurar la detecció d'al·lucinacions d'LLM en presentacions reals a la SEC amb longituds de context de fins a 30.000 tokens. Qwen3-30B-A3B-Thinking lidera amb un F1=0,882; els models de 7B puntuen a prop de l'atzar — amb implicacions directes per als agents de comptabilitat autònoms.

LLMAccountingAIFinancial StatementsFinancial LiteracyMachine LearningAutomation

FinMaster Benchmark: Per què els LLMs obtenen un 96% en cultura financera però un 3% en generació d'estats financers

FinMaster (arXiv:2505.13533) avalua o3-mini, Claude 3.7 Sonnet i DeepSeek-V3 en 183 tasques financeres, revelant que els models obtenen un 96% en cultura financera però col·lapsen fins al 3% en la generació d'estats financers, amb tasques de consultoria de diversos passos que perden 21 punts de precisió per la propagació d'errors.

AILLMMachine LearningAutomationBeancountReconciliationPlain-Text Accounting

ReAct: Sinergia de raonament i acció en models de llenguatge

ReAct (Yao et al., ICLR 2023) entrellaça el raonament de cadena de pensament amb accions d'eines en una sola trajectòria, superant el CoT pur en la verificació de fets i l'aprenentatge per imitació en tasques encarnades en 34 punts percentuals. Aquesta anàlisi cobreix els modes de fallada de l'article —distracció induïda per la cerca i errors compostos— i què signifiquen per als agents autònoms que escriuen en llibres majors de Beancount.

AILLMMachine LearningAutomationBeancountDevelopersData SciencePlain-Text Accounting

Toolformer: l'ús d'eines amb aprenentatge supervisat i els seus límits per a la IA financera

Una lectura detallada de Toolformer (Meta AI, NeurIPS 2023): com l'entrenament auto-supervisat filtrat per perplexitat ensenya a un model de 6,7 mil milions de paràmetres a cridar APIs externes, on supera el GPT-3 de 175 mil milions en proves d'aritmètica, i per què la seva arquitectura d'un sol pas no pot admetre les crides d'eines encadenades necessàries per a operacions de llibre major estructurat.

AILLMMachine LearningFinanceForecastingData ScienceBeancount

FinBen: Benchmarking d'LLM en 36 tasques financeres — Implicacions per a la IA comptable

FinBen avalua 15 LLM en 36 conjunts de dades financeres a NeurIPS 2024, trobant que GPT-4 arriba a un 0,63 de coincidència exacta en QA numèrica i un 0,54 en previsió de moviments de borsa — prop de l'atzar. Aquí teniu el que signifiquen aquestes xifres per a la creació d'un agent comptable fiable en un llibre major de Beancount.

PAL: Models de llenguatge assistits per programes per a una aritmètica financera fiable

Latest articles

Poden els LLM raonar sobre dades tabulars? El que quatre bancs de proves ens diuen sobre la IA financera

IA constitucional per a agents comptables: RLAIF, regles de política i riscos de Goodharting

Prompting de Cadena de Pensament: Compromisos entre Precisió i Exhaustivitat per a la IA Financera

PHANTOM (NeurIPS 2025): Mesurant la detecció d'al·lucinacions d'LLM en documents financers

FinMaster Benchmark: Per què els LLMs obtenen un 96% en cultura financera però un 3% en generació d'estats financers

ReAct: Sinergia de raonament i acció en models de llenguatge

Toolformer: l'ús d'eines amb aprenentatge supervisat i els seus límits per a la IA financera

FinBen: Benchmarking d'LLM en 36 tasques financeres — Implicacions per a la IA comptable

Comença amb Beancount.io

Primers passos

Funcions

Comunitat

Legal