Mike Thrift

Marketing Manager

May 1, 2026·mike

SWE-agent: Hoe interface-ontwerp geautomatiseerde software-engineering mogelijk maakt

SWE-agent (NeurIPS 2024) introduceert Agent-Computer Interfaces (ACI's) — speciaal gebouwde lagen tussen LLM's en softwareomgevingen — en toont een verbetering van 10,7 procentpunt ten opzichte van directe shell-toegang en een oplossingspercentage van 12,47% op SWE-bench met GPT-4 Turbo. Interface-ontwerp, niet de modelcapaciteit, is de primaire bottleneck voor autonome codeer-agents.

llm

automation

April 30, 2026·mike

SWE-bench: Kunnen taalmodellen echte GitHub-problemen oplossen?

SWE-bench evalueert taalmodellen op 2.294 echte GitHub-issues in 12 Python-repositories met behulp van op uitvoering gebaseerde tests; bij publicatie loste Claude 2 slechts 1,96% van de issues op met realistische retrieval, waarmee de de facto benchmark voor codeer-agents werd vastgesteld en retrieval- en patchlengte-foutmodi werden onthuld die direct relevant zijn voor Beancount write-back agents.

llm

machine-learning

April 29, 2026·mike

CodeAct: Waarom uitvoerbare Python-code LLM-agents 20% nauwkeuriger maakt

CodeAct (ICML 2024) vervangt JSON-tool-aanroepen door uitvoerbare Python-code, waardoor het succespercentage van GPT-4-agents met ~20 procentpunten verbetert bij taken met meerdere tools en de interactierondes met 30% worden verminderd — met directe gevolgen voor het bouwen van betrouwbare Beancount-reconciliatie-agents.

llm

automation

April 28, 2026·mike

LLM's kunnen hun redeneringen nog niet zelf corrigeren — ICLR 2024-bevindingen en implicaties voor Financiële AI

Huang et al. (ICLR 2024) tonen aan dat LLM's die hun eigen redeneringen moeten herzien zonder externe feedback, consequent in nauwkeurigheid afnemen — GPT-4 zakt van 95,5% naar 91,5% op GSM8K — en wat dit betekent voor het ontwerpen van betrouwbare agenten voor Beancount-boekingen.

llm

machine-learning

April 27, 2026·mike

Tree of Thoughts: Doelgericht problemen oplossen met LLM-zoekalgoritmen

Tree of Thoughts (ToT) behaalt 74% op Game of 24 tegenover 4% voor standaard GPT-4 CoT door LLM-redeneringen te organiseren in een vertakkende zoekboom met pruning en backtracking — met directe implicaties voor meerstaps financiële classificatie en belastingoptimalisatie in Beancount-workflows.

llm

machine-learning

April 26, 2026·mike

CRITIC: Waarom LLM-zelfcorrectie feedback van externe tools vereist

CRITIC (ICLR 2024) behaalt een F1-winst van 7,7 op open-domein QA en een toxiciteitsreductie van 79,2% door LLM-revisie te baseren op signalen van externe tools — een 'verifieer-dan-corrigeer'-lus die direct aansluit op de veiligheid van terugschrijven voor financiële Beancount-agents.

llm

machine-learning

April 25, 2026·mike

Reflexion: Taalagenten die leren van fouten zonder hertraining

Reflexion (NeurIPS 2023) stelt LLM-agenten in staat om te verbeteren door verbale post-mortems op te slaan in een episodische buffer — geen gewichtsupdates vereist. Het bereikt 91% op HumanEval met GPT-4, maar faalt op WebShop, wat een structurele beperking onthult: verbale bekrachtiging werkt alleen wanneer de evaluator een helder, bruikbaar signaal afgeeft. Dit is wat dat betekent voor het bouwen van een zelfcorrigerende Beancount-grootboekagent.

llm

machine-learning

April 24, 2026·mike

Zelfconsistentie: Majority-Vote Sampling Verhoogt de Nauwkeurigheid van Chain-of-Thought

Zelfconsistentie vervangt 'greedy' chain-of-thought decodering door een meerderheidsstemming over N gesamplede redeneerpaden — wat de GPT-3 nauwkeurigheid op GSM8K met 17,9 procentpunten verhoogt zonder enige fine-tuning — en is direct toepasbaar op financiële berekeningen in meerdere stappen waarbij een enkele LLM-decodering onbetrouwbaar is.

llm

machine-learning

April 23, 2026·mike

PAL: Program-Aided Language Models voor betrouwbare financiële rekenkunde

PAL (Program-Aided Language Models) behaalt een nauwkeurigheidswinst van +38 procentpunt ten opzichte van chain-of-thought bij rekenintensieve taken door berekeningen uit te besteden aan een Python-interpreter — een direct toepasbare architectuur voor betrouwbare Beancount-grootboekvragen en financiële AI.

llm

machine-learning

April 22, 2026·mike

Kunnen LLM's redeneren over tabelgegevens? Wat vier benchmarks ons vertellen over Finance AI

Vier benchmarks uit 2024–2025 laten zien dat GPT-4 42% scoort op real-world tabel-QA tegenover 86% voor mensen, waarbij complexe aggregaties instorten tot 19,6% — en de systeemeigen syntaxis van Beancount bevindt zich aan het minst presterende uiteinde van de serialisatiehiërarchie voor LLM-invoer.

llm

beancount

April 21, 2026·mike

Constitutionele AI voor boekhoud-agents: RLAIF, beleidsregels en Goodharting-risico's

Anthropic's Constitutional AI-artikel (Bai et al., 2022) traint LLM's om regels te volgen met behulp van AI-gegenereerde feedback in plaats van menselijke labels voor schadelijkheid. Dit onderzoeksdagboek onderzoekt hoe de RLAIF-pijplijn voor kritiek, herziening en voorkeuren vertaalt naar write-back-veiligheid voor autonome Beancount-grootboekagents — en hoe Goodharting, kalibratiefouten en dual-use-risico's eruitzien wanneer de "constitutie" een rekeningschema is in plaats van een ethische regelset.

machine-learning

llm

April 20, 2026·mike

Chain-of-Thought Prompting: Precision-Recall Trade-offs voor Finance AI

Een diepgaande analyse van de Chain-of-Thought-paper uit 2022 van Wei et al. en de betekenis daarvan voor finance AI — waarom CoT de precisie verhoogt maar de recall bij de detectie van zeldzame gebeurtenissen kan verlagen, waarom de schaaldrempel belangrijk is voor productie-agents, en waar een financieel team dat bouwt op LLM's op moet letten.

llm

machine-learning

73–84 van 87 berichten tonen

Vorige7 / 8Volgende