Mike Thrift

Marketing Manager

May 25, 2026·mike

GuardAgent: Aplicació determinista de la seguretat per a agents LLM mitjançant l'execució de codi

GuardAgent (ICML 2025) situa un agent LLM independent entre un agent objectiu i el seu entorn, verificant cada acció proposada mitjançant la generació i execució de codi Python — aconseguint una precisió del 98,7% en l'aplicació de polítiques mentre preserva el 100% de la finalització de tasques, enfront del 81% de precisió i el 29–71% de fracàs en les tasques per a regles de seguretat integrades en el prompt.

llm

automation

May 24, 2026·mike

Debat de LLM multiagent: guanys de precisió reals, còmput descontrolat i deliri col·lectiu

Una lectura detinguda de l'article de Du et al. per a l'ICML 2024 sobre el debat multiagent —que informa de guanys de precisió de 14,8 punts en aritmètica— juntament amb les refutacions de 2025 que mostren que agents únics amb el mateix pressupost igualen el rendiment del debat, i una anàlisi de per què el deliri col·lectiu (65% dels errors de debat) planteja riscos específics per a les entrades de llibre major assistides per IA.

llm

machine-learning

May 23, 2026·mike

Els LLM no són útils per a la previsió de sèries temporals: què significa NeurIPS 2024 per a la IA financera

Un article Spotlight de NeurIPS 2024 analitza tres mètodes de previsió de sèries temporals basats en LLM —OneFitsAll, Time-LLM i CALF— i descobreix que eliminar el model de llenguatge millora la precisió en la majoria dels casos, amb una acceleració de l'entrenament de fins a 1.383 vegades. Per a aplicacions d'IA financera com la predicció del saldo de Beancount, els models lleugers dissenyats específicament superen constantment els LLM readaptats.

machine-learning

forecasting

May 22, 2026·mike

AuditCopilot: LLMs per a la detecció de frau en la comptabilitat de partida doble

AuditCopilot aplica LLM de codi obert (Mistral-8B, Gemma, Llama-3.1) a la detecció de frau en assentaments comptables corporatius, reduint els falsos positius de 942 a 12 — però l'ablació revela que l'LLM funciona principalment com una capa de síntesi sobre les puntuacions d'Isolation Forest, no com un detector d'anomalies independent.

TAT-LLM: LLaMA 2 ajustat per al raonament discret sobre taules i textos financers

TAT-LLM ajusta LLaMA 2 7B amb LoRA en referents de preguntes i respostes de taules i textos financers, assolint un 64,60% d'EM a FinQA —superant el 63,91% de GPT-4— mitjançant la descomposició del raonament en passos deterministes d'Extracció-Raonament-Execució que eliminen els errors aritmètics.

llm

machine-learning

May 20, 2026·mike

Ajustament fi vs. RAG: Per què la recuperació guanya per injectar nous coneixements als LLM

La comparació empírica de RAG vs. l'ajustament fi no supervisat en LLM de 7.000 milions de paràmetres mostra que el RAG aconsegueix una precisió de més de 0,875 en fets posteriors a la data de tall, mentre que l'ajustament fi s'estanca en 0,504, amb implicacions directes per al disseny d'agents de Beancount i qualsevol sistema que requereixi actualitzacions freqüents de coneixement.

llm

machine-learning

May 19, 2026·mike

IRCoT: Entrellaçament de la recuperació amb la cadena de pensament per a preguntes i respostes de múltiples passos

IRCoT entrellaça la recuperació BM25 amb cada pas d'un bucle de raonament de cadena de pensament, aconseguint +11,3 en recuperació i +7,1 en F1 a HotpotQA respecte al RAG d'un sol pas — i demostra que un model de 3B pot superar el GPT-3 de 175B quan l'estratègia de recuperació és la correcta.

llm

machine-learning

May 18, 2026·mike

FLARE: Generació Augmentada per Recuperació Activa

FLARE (EMNLP 2023) millora el RAG estàndard activant la recuperació a mitja generació mitjançant llindars de confiança de probabilitat de tokens, assolint un 51,0 EM a 2WikiMultihopQA en comparació amb el 39,4 de la recuperació única — però els errors de calibratge en models de xat ajustats per instruccions limiten la seva fiabilitat per a agents financers de producció.

machine-learning

llm

May 17, 2026·mike

Generació augmentada per recuperació per a tasques de PNL amb un ús intensiu del coneixement

L'article de Lewis et al. per al NeurIPS 2020 va introduir l'arquitectura híbrida RAG —un generador BART-large emparellat amb un recuperador indexat per FAISS sobre 21 milions de passatges de la Viquipèdia— assolint un 44,5 d'EM en Natural Questions i establint la divisió paramètrica/no paramètrica que actualment sustenta la majoria de sistemes d'IA en producció. Aquesta revisió cobreix les compensacions entre RAG-Sequence i RAG-Token, el mode de fallada per col·lapse de recuperació i què signifiquen els índexs obsolets per a la IA financera basada en llibres de comptabilitat Beancount de només addició.

machine-learning

llm

May 16, 2026·mike

MultiHiertt: Avaluació comparativa del raonament numèric en taules financeres multi-jeràrquiques

MultiHiertt (ACL 2022) presenta 10.440 parells de preguntes i respostes d'informes financers reals amb una mitjana de 3,89 taules jeràrquiques cadascun; els models d'última generació obtenen un 38% de puntuació F1 en comparació amb el 87% dels humans, amb una penalització de 15 punts per a les preguntes entre taules, quantificant la bretxa de recuperació que l'IA financera ha de tancar.

machine-learning

llm

May 15, 2026·mike

ConvFinQA: QA Financer Multi-torn i la Bretxa de 21 Punts entre Models i Experts Humans

ConvFinQA (EMNLP 2022) estén FinQA a converses multi-torn sobre informes de resultats de l'S&P 500, trobant que el millor model ajustat aconsegueix un 68,9% de precisió d'execució enfront del 89,4% dels experts humans—i cau al 52,4% en converses híbrides on els models han de mantenir el context numèric entre diferents temes financers.

llm

machine-learning

May 14, 2026·mike

TAT-QA: un benchmark de QA híbrid de taula i text per al raonament d'informes anuals financers

TAT-QA és un benchmark de 16.552 preguntes sobre contextos híbrids de taula i text d'informes financers que ha demostrat que la fonamentació de l'evidència —i no l'aritmètica— és el coll d'ampolla principal en l'IA financera; el 2024, els LLM de 7B ajustats van assolir un F1 del 83%, tancant la major part de la bretxa respecte al sostre humà del 91%.

machine-learning

llm

Mostrant 49–60 de 87 articles

Anterior5 / 8Següent