Mike Thrift

Marketing Manager

June 6, 2026·mike

Banc de proves BIRD: La bretxa de les bases de dades reals en el Text-to-SQL dels LLM

El banc de proves BIRD (NeurIPS 2023) avalua els LLM en 95 bases de dades reals; el GPT-4 només assoleix un 54,89% de precisió d'execució amb pistes de domini i un 34,88% sense elles, una bretxa de 20 punts que defineix directament el que una interfície BQL en llenguatge natural per a Beancount hauria de resoldre.

beancount

llm

June 5, 2026·mike

Ús d'eines verificablement segur per a agents de LLM: STPA es troba amb MCP

Investigadors de la CMU i de la NC State proposen l'ús de l'Anàlisi de Processos Teòric del Sistema (STPA) i un Model Context Protocol millorat amb capacitats per derivar especificacions de seguretat formals per a l'ús d'eines d'agents de LLM, amb una verificació basada en Alloy que demostra l'absència de fluxos insegurs en un estudi de cas de programació de calendaris.

llm

security

June 4, 2026·mike

GraphRAG: De la resumització local a la global centrada en consultes

El GraphRAG de Microsoft construeix un graf d'entitats particionat per Leiden sobre un corpus de text i precalcula resums de comunitats per respondre preguntes de comprensió global que el RAG vectorial estàndard no pot gestionar — però una auditoria de biaix del 2025 mostra que les seves taxes de victòria del 72–83% col·lapsen després de corregir els artefactes de posició i longitud en l'avaluació de LLM com a jutge.

llm

machine-learning

June 3, 2026·mike

FinAuditing: els LLM puntuen per sota del 14% en tasques reals d'auditoria SEC XBRL

FinAuditing posa a prova 13 LLM en format zero-shot sobre 1.102 instàncies reals de presentacions SEC XBRL; les puntuacions més altes són del 13,86% en verificació matemàtica financera i del 12,42% en recuperació de conceptes — resultats que limiten directament el que es pot confiar a les eines de comptabilitat d'IA sense eines externes.

llm

financial-reporting

June 2, 2026·mike

InvestorBench: Avaluació comparativa d'agents LLM en decisions de compravenda financera

InvestorBench (ACL 2025) avalua 13 backbones de LLM en la compravenda retroactiva d'accions, criptomonedes i ETF utilitzant el rendiment acumulat i la ràtio de Sharpe — no la precisió de les respostes. Qwen2.5-72B lidera la classificació d'accions amb un 46,15% de CR; els models ajustats per a finances fracassen en les accions. La mida del model prediu el rendiment amb més fiabilitat que l'ajust d'especialització de domini.

llm

finance

June 1, 2026·mike

StructRAG (ICLR 2025): Escollir l'estructura de document correcta supera GraphRAG per 28 punts

StructRAG (ICLR 2025) encamina cada consulta a un tipus d'estructura adequat per a la tasca —taula, graf, catàleg, algoritme o fragment— abans del raonament, obtenint 28 punts més que GraphRAG al benchmark Loong mentre s'executa 22 vegades més ràpid, amb l'encaminador entrenat amb DPO representant per si sol un guany de 15 punts en precisió.

llm

machine-learning

May 31, 2026·mike

Els LLM d'agent únic superen els sistemes multi-agent en el raonament de múltiples salts sota pressupostos iguals de tòquens de pensament

Un preprint de Stanford de 2026 iguala els pressupostos de tòquens de pensament en cinc arquitectures multi-agent i descobreix que els LLM d'agent únic igualen o superen els sistemes multi-agent en el raonament de múltiples salts, amb base teòrica en la Desigualtat de Processament de Dades i implicacions per al disseny d'agents d'IA financera.

llm

machine-learning

May 30, 2026·mike

M3MAD-Bench: Són realment eficaços els debats multiagent en diferents dominis i modalitats?

M3MAD-Bench posa a prova el debat multiagent en 9 models, 5 dominis i entorns de llenguatge visual, i descobreix que el deliri col·lectiu causa el 65% dels errors, el debat adversari redueix la precisió fins a un 12,8% i l'autoconsistència sol igualar la precisió del debat amb un cost de tòquens inferior.

llm

machine-learning

May 29, 2026·mike

AGrail: Guardrails de seguretat adaptatius per a agents LLM que aprenen a través de tasques

AGrail (ACL 2025) introdueix un guardrail cooperatiu de dos LLM que adapta les comprovacions de seguretat en temps d'inferència mitjançant l'adaptació en temps de prova, aconseguint un 0% d'èxit en atacs d'injecció de prompts i un 95,6% de preservació d'accions benignes a Safe-OS — en comparació amb GuardAgent i LLaMA-Guard que bloquegen fins al 49,2% de les accions legítimes.

llm

security

May 28, 2026·mike

ShieldAgent: Raonament de polítiques de seguretat verificables per a agents LLM

ShieldAgent (ICML 2025) substitueix les barreres de seguretat basades en LLM per circuits de regles probabilístics construïts sobre xarxes lògiques de Markov, aconseguint una precisió del 90,4% en atacs contra agents amb un 64,7% menys de crides a l'API — i què significa això per a la seguretat verificable en sistemes d'IA financera.

llm

machine-learning

May 27, 2026·mike

Atlas: El pre-entrenament conjunt de recuperador i lector supera els LLM de 540 mil milions de paràmetres amb 11 mil milions de paràmetres

Atlas (JMLR 2023) aconsegueix una precisió del 42,4% en Natural Questions amb només 64 exemples d'entrenament, superant PaLM 540B per 3 punts utilitzant 11 mil milions de paràmetres, mitjançant el pre-entrenament conjunt d'un recuperador dens basat en Contriever amb un lector T5 Fusion-in-Decoder. L'anàlisi cobreix els límits de la precisió de recuperació, els costos d'infraestructura d'índex de 587 GB i les implicacions per als sistemes de preguntes i respostes de llibres majors de Beancount.

machine-learning

llm

May 26, 2026·mike

Fusion-in-Decoder: Com la recuperació de múltiples fragments millora les preguntes i respostes generatives

L'arquitectura FiD d'Izacard i Grave codifica independentment els fragments recuperats i després els fusiona en el descodificador, superant RAG-Sequence entre 4 i 11 punts en NQ i TriviaQA. Aquest article examina el disseny i les seves implicacions per a les consultes sobre llibres majors de Beancount, on la síntesi de múltiples entrades entre transaccions és la norma.

machine-learning

llm

Mostrant 37–48 de 87 articles

Anterior4 / 8Següent