Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Veure tots els autors

GuardAgent: Aplicació determinista de la seguretat per a agents LLM mitjançant l'execució de codi
·mike

GuardAgent: Aplicació determinista de la seguretat per a agents LLM mitjançant l'execució de codi

GuardAgent (ICML 2025) situa un agent LLM independent entre un agent objectiu i el seu entorn, verificant cada acció proposada mitjançant la generació i execució de codi Python — aconseguint una precisió del 98,7% en l'aplicació de polítiques mentre preserva el 100% de la finalització de tasques, enfront del 81% de precisió i el 29–71% de fracàs en les tasques per a regles de seguretat integrades en el prompt.

ai
llm
automation
security
+3
Debat de LLM multiagent: guanys de precisió reals, còmput descontrolat i deliri col·lectiu
·mike

Debat de LLM multiagent: guanys de precisió reals, còmput descontrolat i deliri col·lectiu

Una lectura detinguda de l'article de Du et al. per a l'ICML 2024 sobre el debat multiagent —que informa de guanys de precisió de 14,8 punts en aritmètica— juntament amb les refutacions de 2025 que mostren que agents únics amb el mateix pressupost igualen el rendiment del debat, i una anàlisi de per què el deliri col·lectiu (65% dels errors de debat) planteja riscos específics per a les entrades de llibre major assistides per IA.

ai
llm
machine-learning
automation
+2
Els LLM no són útils per a la previsió de sèries temporals: què significa NeurIPS 2024 per a la IA financera
·mike

Els LLM no són útils per a la previsió de sèries temporals: què significa NeurIPS 2024 per a la IA financera

Un article Spotlight de NeurIPS 2024 analitza tres mètodes de previsió de sèries temporals basats en LLM —OneFitsAll, Time-LLM i CALF— i descobreix que eliminar el model de llenguatge millora la precisió en la majoria dels casos, amb una acceleració de l'entrenament de fins a 1.383 vegades. Per a aplicacions d'IA financera com la predicció del saldo de Beancount, els models lleugers dissenyats específicament superen constantment els LLM readaptats.

ai
machine-learning
forecasting
data-science
+3
AuditCopilot: LLMs per a la detecció de frau en la comptabilitat de partida doble
·mike

AuditCopilot: LLMs per a la detecció de frau en la comptabilitat de partida doble

AuditCopilot aplica LLM de codi obert (Mistral-8B, Gemma, Llama-3.1) a la detecció de frau en assentaments comptables corporatius, reduint els falsos positius de 942 a 12 — però l'ablació revela que l'LLM funciona principalment com una capa de síntesi sobre les puntuacions d'Isolation Forest, no com un detector d'anomalies independent.

fraud-detection
llm
double-entry
journal-entries
+4
TAT-LLM: LLaMA 2 ajustat per al raonament discret sobre taules i textos financers
·mike

TAT-LLM: LLaMA 2 ajustat per al raonament discret sobre taules i textos financers

TAT-LLM ajusta LLaMA 2 7B amb LoRA en referents de preguntes i respostes de taules i textos financers, assolint un 64,60% d'EM a FinQA —superant el 63,91% de GPT-4— mitjançant la descomposició del raonament en passos deterministes d'Extracció-Raonament-Execució que eliminen els errors aritmètics.

llm
ai
machine-learning
finance
+3
Ajustament fi vs. RAG: Per què la recuperació guanya per injectar nous coneixements als LLM
·mike

Ajustament fi vs. RAG: Per què la recuperació guanya per injectar nous coneixements als LLM

La comparació empírica de RAG vs. l'ajustament fi no supervisat en LLM de 7.000 milions de paràmetres mostra que el RAG aconsegueix una precisió de més de 0,875 en fets posteriors a la data de tall, mentre que l'ajustament fi s'estanca en 0,504, amb implicacions directes per al disseny d'agents de Beancount i qualsevol sistema que requereixi actualitzacions freqüents de coneixement.

ai
llm
machine-learning
data-science
+3
IRCoT: Entrellaçament de la recuperació amb la cadena de pensament per a preguntes i respostes de múltiples passos
·mike

IRCoT: Entrellaçament de la recuperació amb la cadena de pensament per a preguntes i respostes de múltiples passos

IRCoT entrellaça la recuperació BM25 amb cada pas d'un bucle de raonament de cadena de pensament, aconseguint +11,3 en recuperació i +7,1 en F1 a HotpotQA respecte al RAG d'un sol pas — i demostra que un model de 3B pot superar el GPT-3 de 175B quan l'estratègia de recuperació és la correcta.

ai
llm
machine-learning
automation
+3
FLARE: Generació Augmentada per Recuperació Activa
·mike

FLARE: Generació Augmentada per Recuperació Activa

FLARE (EMNLP 2023) millora el RAG estàndard activant la recuperació a mitja generació mitjançant llindars de confiança de probabilitat de tokens, assolint un 51,0 EM a 2WikiMultihopQA en comparació amb el 39,4 de la recuperació única — però els errors de calibratge en models de xat ajustats per instruccions limiten la seva fiabilitat per a agents financers de producció.

ai
machine-learning
llm
retrieval-augmented-generation
+3
Generació augmentada per recuperació per a tasques de PNL amb un ús intensiu del coneixement
·mike

Generació augmentada per recuperació per a tasques de PNL amb un ús intensiu del coneixement

L'article de Lewis et al. per al NeurIPS 2020 va introduir l'arquitectura híbrida RAG —un generador BART-large emparellat amb un recuperador indexat per FAISS sobre 21 milions de passatges de la Viquipèdia— assolint un 44,5 d'EM en Natural Questions i establint la divisió paramètrica/no paramètrica que actualment sustenta la majoria de sistemes d'IA en producció. Aquesta revisió cobreix les compensacions entre RAG-Sequence i RAG-Token, el mode de fallada per col·lapse de recuperació i què signifiquen els índexs obsolets per a la IA financera basada en llibres de comptabilitat Beancount de només addició.

ai
machine-learning
llm
data-science
+2
MultiHiertt: Avaluació comparativa del raonament numèric en taules financeres multi-jeràrquiques
·mike

MultiHiertt: Avaluació comparativa del raonament numèric en taules financeres multi-jeràrquiques

MultiHiertt (ACL 2022) presenta 10.440 parells de preguntes i respostes d'informes financers reals amb una mitjana de 3,89 taules jeràrquiques cadascun; els models d'última generació obtenen un 38% de puntuació F1 en comparació amb el 87% dels humans, amb una penalització de 15 punts per a les preguntes entre taules, quantificant la bretxa de recuperació que l'IA financera ha de tancar.

ai
machine-learning
llm
financial-reporting
+3
ConvFinQA: QA Financer Multi-torn i la Bretxa de 21 Punts entre Models i Experts Humans
·mike

ConvFinQA: QA Financer Multi-torn i la Bretxa de 21 Punts entre Models i Experts Humans

ConvFinQA (EMNLP 2022) estén FinQA a converses multi-torn sobre informes de resultats de l'S&P 500, trobant que el millor model ajustat aconsegueix un 68,9% de precisió d'execució enfront del 89,4% dels experts humans—i cau al 52,4% en converses híbrides on els models han de mantenir el context numèric entre diferents temes financers.

ai
llm
machine-learning
finance
+3
TAT-QA: un benchmark de QA híbrid de taula i text per al raonament d'informes anuals financers
·mike

TAT-QA: un benchmark de QA híbrid de taula i text per al raonament d'informes anuals financers

TAT-QA és un benchmark de 16.552 preguntes sobre contextos híbrids de taula i text d'informes financers que ha demostrat que la fonamentació de l'evidència —i no l'aritmètica— és el coll d'ampolla principal en l'IA financera; el 2024, els LLM de 7B ajustats van assolir un F1 del 83%, tancant la major part de la bretxa respecte al sostre humà del 91%.

ai
machine-learning
llm
finance
+2
Mostrant 49–60 de 87 articles