Bean Labs Research Log

AILLMMachine LearningBeancountPlain-Text AccountingTechnologyRAG

StructRAG (ICLR 2025): Escollir l'estructura de document correcta supera GraphRAG per 28 punts

StructRAG (ICLR 2025) encamina cada consulta a un tipus d'estructura adequat per a la tasca —taula, graf, catàleg, algoritme o fragment— abans del raonament, obtenint 28 punts més que GraphRAG al benchmark Loong mentre s'executa 22 vegades més ràpid, amb l'encaminador entrenat amb DPO representant per si sol un guany de 15 punts en precisió.

AILLMMachine LearningAutomationTechnologyPerformanceFinance

Els LLM d'agent únic superen els sistemes multi-agent en el raonament de múltiples salts sota pressupostos iguals de tòquens de pensament

Un preprint de Stanford de 2026 iguala els pressupostos de tòquens de pensament en cinc arquitectures multi-agent i descobreix que els LLM d'agent únic igualen o superen els sistemes multi-agent en el raonament de múltiples salts, amb base teòrica en la Desigualtat de Processament de Dades i implicacions per al disseny d'agents d'IA financera.

AILLMMachine LearningAutomationFinanceData ScienceMulti-Agent

M3MAD-Bench: Són realment eficaços els debats multiagent en diferents dominis i modalitats?

M3MAD-Bench posa a prova el debat multiagent en 9 models, 5 dominis i entorns de llenguatge visual, i descobreix que el deliri col·lectiu causa el 65% dels errors, el debat adversari redueix la precisió fins a un 12,8% i l'autoconsistència sol igualar la precisió del debat amb un cost de tòquens inferior.

AILLMSecurityAutomationMachine LearningTrustCompliance

AGrail: Guardrails de seguretat adaptatius per a agents LLM que aprenen a través de tasques

AGrail (ACL 2025) introdueix un guardrail cooperatiu de dos LLM que adapta les comprovacions de seguretat en temps d'inferència mitjançant l'adaptació en temps de prova, aconseguint un 0% d'èxit en atacs d'injecció de prompts i un 95,6% de preservació d'accions benignes a Safe-OS — en comparació amb GuardAgent i LLaMA-Guard que bloquegen fins al 49,2% de les accions legítimes.

AILLMMachine LearningSecurityComplianceAutomationTrustDevelopers

ShieldAgent: Raonament de polítiques de seguretat verificables per a agents LLM

ShieldAgent (ICML 2025) substitueix les barreres de seguretat basades en LLM per circuits de regles probabilístics construïts sobre xarxes lògiques de Markov, aconseguint una precisió del 90,4% en atacs contra agents amb un 64,7% menys de crides a l'API — i què significa això per a la seguretat verificable en sistemes d'IA financera.

AIMachine LearningLLMData ScienceBeancountFinanceAutomation

Atlas: El pre-entrenament conjunt de recuperador i lector supera els LLM de 540 mil milions de paràmetres amb 11 mil milions de paràmetres

Atlas (JMLR 2023) aconsegueix una precisió del 42,4% en Natural Questions amb només 64 exemples d'entrenament, superant PaLM 540B per 3 punts utilitzant 11 mil milions de paràmetres, mitjançant el pre-entrenament conjunt d'un recuperador dens basat en Contriever amb un lector T5 Fusion-in-Decoder. L'anàlisi cobreix els límits de la precisió de recuperació, els costos d'infraestructura d'índex de 587 GB i les implicacions per als sistemes de preguntes i respostes de llibres majors de Beancount.

AIMachine LearningLLMBeancountData SciencePlain-Text Accounting

Fusion-in-Decoder: Com la recuperació de múltiples fragments millora les preguntes i respostes generatives

L'arquitectura FiD d'Izacard i Grave codifica independentment els fragments recuperats i després els fusiona en el descodificador, superant RAG-Sequence entre 4 i 11 punts en NQ i TriviaQA. Aquest article examina el disseny i les seves implicacions per a les consultes sobre llibres majors de Beancount, on la síntesi de múltiples entrades entre transaccions és la norma.

AILLMAutomationSecurityMachine LearningTransaction ValidationTrust

GuardAgent: Aplicació determinista de la seguretat per a agents LLM mitjançant l'execució de codi

GuardAgent (ICML 2025) situa un agent LLM independent entre un agent objectiu i el seu entorn, verificant cada acció proposada mitjançant la generació i execució de codi Python — aconseguint una precisió del 98,7% en l'aplicació de polítiques mentre preserva el 100% de la finalització de tasques, enfront del 81% de precisió i el 29–71% de fracàs en les tasques per a regles de seguretat integrades en el prompt.

AILLMMachine LearningAutomationBeancountTransaction Validation

Debat de LLM multiagent: guanys de precisió reals, còmput descontrolat i deliri col·lectiu

Una lectura detinguda de l'article de Du et al. per a l'ICML 2024 sobre el debat multiagent —que informa de guanys de precisió de 14,8 punts en aritmètica— juntament amb les refutacions de 2025 que mostren que agents únics amb el mateix pressupost igualen el rendiment del debat, i una anàlisi de per què el deliri col·lectiu (65% dels errors de debat) planteja riscos específics per a les entrades de llibre major assistides per IA.

InvestorBench: Avaluació comparativa d'agents LLM en decisions de compravenda financera

Latest articles

StructRAG (ICLR 2025): Escollir l'estructura de document correcta supera GraphRAG per 28 punts

Els LLM d'agent únic superen els sistemes multi-agent en el raonament de múltiples salts sota pressupostos iguals de tòquens de pensament

M3MAD-Bench: Són realment eficaços els debats multiagent en diferents dominis i modalitats?

AGrail: Guardrails de seguretat adaptatius per a agents LLM que aprenen a través de tasques

ShieldAgent: Raonament de polítiques de seguretat verificables per a agents LLM

Atlas: El pre-entrenament conjunt de recuperador i lector supera els LLM de 540 mil milions de paràmetres amb 11 mil milions de paràmetres

Fusion-in-Decoder: Com la recuperació de múltiples fragments millora les preguntes i respostes generatives

GuardAgent: Aplicació determinista de la seguretat per a agents LLM mitjançant l'execució de codi

Debat de LLM multiagent: guanys de precisió reals, còmput descontrolat i deliri col·lectiu

Comença amb Beancount.io

Primers passos

Funcions

Comunitat

Legal