Naar hoofdinhoud springen
Mike Thrift

Mike Thrift

Marketing Manager

Alle auteurs bekijken

SWE-agent: Hoe interface-ontwerp geautomatiseerde software-engineering mogelijk maakt
·mike

SWE-agent: Hoe interface-ontwerp geautomatiseerde software-engineering mogelijk maakt

SWE-agent (NeurIPS 2024) introduceert Agent-Computer Interfaces (ACI's) — speciaal gebouwde lagen tussen LLM's en softwareomgevingen — en toont een verbetering van 10,7 procentpunt ten opzichte van directe shell-toegang en een oplossingspercentage van 12,47% op SWE-bench met GPT-4 Turbo. Interface-ontwerp, niet de modelcapaciteit, is de primaire bottleneck voor autonome codeer-agents.

ai
llm
automation
machine-learning
+4
SWE-bench: Kunnen taalmodellen echte GitHub-problemen oplossen?
·mike

SWE-bench: Kunnen taalmodellen echte GitHub-problemen oplossen?

SWE-bench evalueert taalmodellen op 2.294 echte GitHub-issues in 12 Python-repositories met behulp van op uitvoering gebaseerde tests; bij publicatie loste Claude 2 slechts 1,96% van de issues op met realistische retrieval, waarmee de de facto benchmark voor codeer-agents werd vastgesteld en retrieval- en patchlengte-foutmodi werden onthuld die direct relevant zijn voor Beancount write-back agents.

ai
llm
machine-learning
beancount
+3
CodeAct: Waarom uitvoerbare Python-code LLM-agents 20% nauwkeuriger maakt
·mike

CodeAct: Waarom uitvoerbare Python-code LLM-agents 20% nauwkeuriger maakt

CodeAct (ICML 2024) vervangt JSON-tool-aanroepen door uitvoerbare Python-code, waardoor het succespercentage van GPT-4-agents met ~20 procentpunten verbetert bij taken met meerdere tools en de interactierondes met 30% worden verminderd — met directe gevolgen voor het bouwen van betrouwbare Beancount-reconciliatie-agents.

ai
llm
automation
machine-learning
+3
LLM's kunnen hun redeneringen nog niet zelf corrigeren — ICLR 2024-bevindingen en implicaties voor Financiële AI
·mike

LLM's kunnen hun redeneringen nog niet zelf corrigeren — ICLR 2024-bevindingen en implicaties voor Financiële AI

Huang et al. (ICLR 2024) tonen aan dat LLM's die hun eigen redeneringen moeten herzien zonder externe feedback, consequent in nauwkeurigheid afnemen — GPT-4 zakt van 95,5% naar 91,5% op GSM8K — en wat dit betekent voor het ontwerpen van betrouwbare agenten voor Beancount-boekingen.

llm
ai
machine-learning
automation
+3
Tree of Thoughts: Doelgericht problemen oplossen met LLM-zoekalgoritmen
·mike

Tree of Thoughts: Doelgericht problemen oplossen met LLM-zoekalgoritmen

Tree of Thoughts (ToT) behaalt 74% op Game of 24 tegenover 4% voor standaard GPT-4 CoT door LLM-redeneringen te organiseren in een vertakkende zoekboom met pruning en backtracking — met directe implicaties voor meerstaps financiële classificatie en belastingoptimalisatie in Beancount-workflows.

ai
llm
machine-learning
automation
+2
CRITIC: Waarom LLM-zelfcorrectie feedback van externe tools vereist
·mike

CRITIC: Waarom LLM-zelfcorrectie feedback van externe tools vereist

CRITIC (ICLR 2024) behaalt een F1-winst van 7,7 op open-domein QA en een toxiciteitsreductie van 79,2% door LLM-revisie te baseren op signalen van externe tools — een 'verifieer-dan-corrigeer'-lus die direct aansluit op de veiligheid van terugschrijven voor financiële Beancount-agents.

ai
llm
machine-learning
automation
+4
Reflexion: Taalagenten die leren van fouten zonder hertraining
·mike

Reflexion: Taalagenten die leren van fouten zonder hertraining

Reflexion (NeurIPS 2023) stelt LLM-agenten in staat om te verbeteren door verbale post-mortems op te slaan in een episodische buffer — geen gewichtsupdates vereist. Het bereikt 91% op HumanEval met GPT-4, maar faalt op WebShop, wat een structurele beperking onthult: verbale bekrachtiging werkt alleen wanneer de evaluator een helder, bruikbaar signaal afgeeft. Dit is wat dat betekent voor het bouwen van een zelfcorrigerende Beancount-grootboekagent.

ai
llm
machine-learning
automation
+2
Zelfconsistentie: Majority-Vote Sampling Verhoogt de Nauwkeurigheid van Chain-of-Thought
·mike

Zelfconsistentie: Majority-Vote Sampling Verhoogt de Nauwkeurigheid van Chain-of-Thought

Zelfconsistentie vervangt 'greedy' chain-of-thought decodering door een meerderheidsstemming over N gesamplede redeneerpaden — wat de GPT-3 nauwkeurigheid op GSM8K met 17,9 procentpunten verhoogt zonder enige fine-tuning — en is direct toepasbaar op financiële berekeningen in meerdere stappen waarbij een enkele LLM-decodering onbetrouwbaar is.

ai
llm
machine-learning
automation
+3
PAL: Program-Aided Language Models voor betrouwbare financiële rekenkunde
·mike

PAL: Program-Aided Language Models voor betrouwbare financiële rekenkunde

PAL (Program-Aided Language Models) behaalt een nauwkeurigheidswinst van +38 procentpunt ten opzichte van chain-of-thought bij rekenintensieve taken door berekeningen uit te besteden aan een Python-interpreter — een direct toepasbare architectuur voor betrouwbare Beancount-grootboekvragen en financiële AI.

ai
llm
machine-learning
beancount
+3
Kunnen LLM's redeneren over tabelgegevens? Wat vier benchmarks ons vertellen over Finance AI
·mike

Kunnen LLM's redeneren over tabelgegevens? Wat vier benchmarks ons vertellen over Finance AI

Vier benchmarks uit 2024–2025 laten zien dat GPT-4 42% scoort op real-world tabel-QA tegenover 86% voor mensen, waarbij complexe aggregaties instorten tot 19,6% — en de systeemeigen syntaxis van Beancount bevindt zich aan het minst presterende uiteinde van de serialisatiehiërarchie voor LLM-invoer.

ai
llm
beancount
data-science
+3
Constitutionele AI voor boekhoud-agents: RLAIF, beleidsregels en Goodharting-risico's
·mike

Constitutionele AI voor boekhoud-agents: RLAIF, beleidsregels en Goodharting-risico's

Anthropic's Constitutional AI-artikel (Bai et al., 2022) traint LLM's om regels te volgen met behulp van AI-gegenereerde feedback in plaats van menselijke labels voor schadelijkheid. Dit onderzoeksdagboek onderzoekt hoe de RLAIF-pijplijn voor kritiek, herziening en voorkeuren vertaalt naar write-back-veiligheid voor autonome Beancount-grootboekagents — en hoe Goodharting, kalibratiefouten en dual-use-risico's eruitzien wanneer de "constitutie" een rekeningschema is in plaats van een ethische regelset.

ai
machine-learning
llm
automation
+3
Chain-of-Thought Prompting: Precision-Recall Trade-offs voor Finance AI
·mike

Chain-of-Thought Prompting: Precision-Recall Trade-offs voor Finance AI

Een diepgaande analyse van de Chain-of-Thought-paper uit 2022 van Wei et al. en de betekenis daarvan voor finance AI — waarom CoT de precisie verhoogt maar de recall bij de detectie van zeldzame gebeurtenissen kan verlagen, waarom de schaaldrempel belangrijk is voor productie-agents, en waar een financieel team dat bouwt op LLM's op moet letten.

ai
llm
machine-learning
data-science
+3
73–84 van 87 berichten tonen