Salta al contingut principal

Bean Labs Research Log

Latest articles

TableLlama: Pot un model obert de 7B igualar GPT-4 en la comprensió de taules?

TableLlama realitza un ajustament fi de Llama 2 (7B) en 2,6 milions d'exemples de tasques amb taules i supera GPT-4 en tasques estructurals com l'anotació de tipus de columna (F1 94 vs 32), però es queda 33 punts per sota en el raonament compositiu de WikiTQ — un referent calibrat del que els models oberts de 7B poden i no poden fer en la IA financera actual.

MAC-SQL: Text-to-SQL col·laboratiu multiagent

MAC-SQL (COLING 2025) utilitza tres agents especialitzats — Selector per a la reducció d'esquema, Decomposer per a la descomposició de preguntes i Refiner per a la correcció de SQL guiada per l'execució — per assolir una precisió d'execució del 59,59% al banc de proves BIRD; l'ablació mostra que el Refiner és el que més contribueix (+4,63 punts), amb implicacions directes per a la generació de consultes de llibres majors de Beancount.

DIN-SQL: Aprenentatge en context descompost per a Text-to-SQL

DIN-SQL (NeurIPS 2023) descomposa el text-a-SQL en etapes de vinculació d'esquemes, classificació de complexitat i generació de SQL, elevant el GPT-4 del 67,4% al 85,3% de precisió d'execució a Spider sense ajustos fins — i la mateixa estratègia de descomposició s'aplica directament a les interfícies de llenguatge natural per al llenguatge de consultes BQL de Beancount.

Ús d'eines verificablement segur per a agents de LLM: STPA es troba amb MCP

Investigadors de la CMU i de la NC State proposen l'ús de l'Anàlisi de Processos Teòric del Sistema (STPA) i un Model Context Protocol millorat amb capacitats per derivar especificacions de seguretat formals per a l'ús d'eines d'agents de LLM, amb una verificació basada en Alloy que demostra l'absència de fluxos insegurs en un estudi de cas de programació de calendaris.

GraphRAG: De la resumització local a la global centrada en consultes

El GraphRAG de Microsoft construeix un graf d'entitats particionat per Leiden sobre un corpus de text i precalcula resums de comunitats per respondre preguntes de comprensió global que el RAG vectorial estàndard no pot gestionar — però una auditoria de biaix del 2025 mostra que les seves taxes de victòria del 72–83% col·lapsen després de corregir els artefactes de posició i longitud en l'avaluació de LLM com a jutge.

FinAuditing: els LLM puntuen per sota del 14% en tasques reals d'auditoria SEC XBRL

FinAuditing posa a prova 13 LLM en format zero-shot sobre 1.102 instàncies reals de presentacions SEC XBRL; les puntuacions més altes són del 13,86% en verificació matemàtica financera i del 12,42% en recuperació de conceptes — resultats que limiten directament el que es pot confiar a les eines de comptabilitat d'IA sense eines externes.