Doorgaan naar hoofdinhoud

Bean Labs Research Log

Latest articles

Chain-of-Table: Evoluerende Tabellen in de LLM-Redeneerketen

Chain-of-Table (ICLR 2024) verbetert het tabelgebaseerd redeneren van LLM's door de tabel zelf als tussenstatus te laten evolueren — met een resultaat van 67,31% op WikiTQ tegenover 61,48% voor eerdere baselines, een voorsprong van +10,25 punten op tabellen met meer dan 4.000 tokens en directe toepasbaarheid op Beancount grootboek-queryagents.

TAPAS: Zwak gesuperviseerde tabel-QA zonder SQL, en wat dit betekent voor Beancount

TAPAS (Google Research, ACL 2020) beantwoordt tabelvragen door cellen te selecteren en scalaire aggregaties toe te passen — zonder SQL te genereren. Dit bericht analyseert de architectuur, de nauwkeurigheidswinst van 12 punten op SQA, en waarom het cel-selectieparadigma geschikt is voor kleine Beancount-ledgerqueries maar tekortschiet op schaal.

MAC-SQL: Multi-Agent Collaboratieve Text-to-SQL

MAC-SQL (COLING 2025) gebruikt drie gespecialiseerde agents — Selector voor schemareductie, Decomposer voor vraag-decompositie en Refiner voor uitvoeringsgestuurde SQL-correctie — om een uitvoeringsnauwkeurigheid van 59,59% te behalen op de BIRD-benchmark; ablatie toont aan dat de Refiner het meest bijdraagt (+4,63 punten), met directe gevolgen voor de generatie van zoekopdrachten voor Beancount-grootboeken.

Verifieerbaar Veilig Toolgebruik voor LLM-agenten: STPA ontmoet MCP

Onderzoekers van CMU en NC State stellen het gebruik voor van System-Theoretic Process Analysis (STPA) en een voor capaciteiten uitgebreid Model Context Protocol om formele veiligheidsspecificaties af te leiden voor het toolgebruik door LLM-agenten, waarbij Alloy-gebaseerde verificatie de afwezigheid van onveilige stromen aantoont in een casestudy over agendaplanning.

GraphRAG: Van Lokale naar Globale Query-Gerichte Samenvatting

Microsofts GraphRAG bouwt een door Leiden gepartitioneerde entiteitsgraaf over een tekstcorpus en berekent vooraf community-samenvattingen om globale zingevingsvragen te beantwoorden die standaard vector-RAG niet aankan — maar een bias-audit uit 2025 laat zien dat de winstpercentages van 72–83% instorten na correctie voor positie- en lengte-artefacten in LLM-als-beoordelaar evaluaties.