Mike Thrift

Marketing Manager

May 1, 2026·mike

SWE-agent: Com el disseny d'interfícies desbloqueja l'enginyeria de programari automatitzada

SWE-agent (NeurIPS 2024) introdueix les interfícies agent-ordinador (ACI) —capes creades específicament entre els LLM i els entorns de programari—, mostrant una millora de 10,7 punts percentuals respecte a l'accés directe a la shell i una resolució del 12,47% a SWE-bench amb GPT-4 Turbo. El disseny de la interfície, i no la capacitat del model, és el principal coll d'ampolla per als agents de programació autònoms.

llm

automation

April 30, 2026·mike

SWE-bench: Poden els models de llenguatge resoldre problemes reals de GitHub?

SWE-bench avalua els models de llenguatge en 2.294 problemes reals de GitHub en 12 repositoris de Python mitjançant proves basades en l'execució; en el moment de la publicació, Claude 2 va resoldre només l'1,96% dels problemes amb una recuperació realista, establint el referent de facto per als agents de codificació i revelant modes d'error de recuperació i longitud de pegats directament rellevants per als agents d'escriptura de Beancount.

llm

machine-learning

April 29, 2026·mike

CodeAct: Per què el codi Python executable fa que els agents LLM siguin un 20% més precisos

CodeAct (ICML 2024) substitueix les crides d'eines JSON per codi Python executable, millorant les taxes d'èxit dels agents GPT-4 en uns 20 punts percentuals en tasques multi-eina i reduint els torns d'interacció en un 30%, amb implicacions directes per a la construcció d'agents de conciliació de Beancount fiables.

llm

automation

April 28, 2026·mike

Els LLM encara no poden autocorregir el raonament — Conclusions de l'ICLR 2024 i implicacions per a la IA financera

Huang et al. (ICLR 2024) mostren que els LLM a qui se'ls demana revisar el seu propi raonament sense feedback extern degraden constantment la seva precisió —GPT-4 baixa del 95,5% al 91,5% a GSM8K— i què significa això per al disseny d'agents fiables d'assentaments comptables de Beancount.

llm

machine-learning

April 27, 2026·mike

Tree of Thoughts: Resolució Deliberada de Problemes amb Cerca de LLM

Tree of Thoughts (ToT) aconsegueix un 74% en el Joc del 24 en comparació amb el 4% de la CoT estàndard de GPT-4 organitzant el raonament de l'LLM en un arbre de cerca ramificat amb poda i retrocés, amb implicacions directes per a la classificació financera de múltiples passos i l'optimització fiscal en fluxos de treball de Beancount.

llm

machine-learning

April 26, 2026·mike

CRITIC: Per què l'autocorrecció dels LLM requereix retroacció d'eines externes

CRITIC (ICLR 2024) aconsegueix guanys de 7,7 en F1 en QA de domini obert i una reducció de la toxicitat del 79,2% en basar la revisió de l'LLM en senyals d'eines externes — un bucle de verificar i després corregir que es trasllada directament a la seguretat d'escriptura per als agents financers de Beancount.

llm

machine-learning

April 25, 2026·mike

Reflexion: Agents de llenguatge que aprenen dels errors sense reentrenament

Reflexion (NeurIPS 2023) permet que els agents LLM millorin emmagatzemant autòpsies verbals en un buffer episòdic — sense necessitat d'actualitzar els pesos. Arriba al 91% a HumanEval amb GPT-4 però falla a WebShop, revelant una restricció estructural: el reforç verbal només funciona quan l'avaluador produeix un senyal clar i executable. Aquí expliquem què significa això per construir un agent de llibre major de Beancount que s'autocorregeixi.

llm

machine-learning

April 24, 2026·mike

Auto-consistència: el mostreig per votació majoritària millora la precisió de la cadena de pensament

L'auto-consistència substitueix la descodificació voraç de la cadena de pensament per una votació majoritària sobre N rutes de raonament mostrejades —millorant la precisió de GPT-3 a GSM8K en 17,9 punts percentuals sense cap ajust fi— i s'aplica directament als càlculs financers de diversos passos on una única descodificació de LLM no és fiable.

llm

machine-learning

April 23, 2026·mike

PAL: Models de llenguatge assistits per programes per a una aritmètica financera fiable

PAL (Program-Aided Language Models) aconsegueix un guany de precisió de +38 pp respecte a la cadena de pensament en tasques amb molta càrrega aritmètica delegant el càlcul a un intèrpret de Python, una arquitectura directament aplicable per a consultes fiables al llibre diari de Beancount i IA financera.

llm

machine-learning

April 22, 2026·mike

Poden els LLM raonar sobre dades tabulars? El que quatre bancs de proves ens diuen sobre la IA financera

Quatre bancs de proves de 2024–2025 mostren que el GPT-4 obté una puntuació del 42% en preguntes i respostes sobre taules reals en comparació amb el 86% dels humans, amb agregacions complexes que cauen fins al 19,6%, i la sintaxi nativa de Beancount se situa en l'extrem amb pitjor rendiment de la jerarquia de serialització per a l'entrada de LLM.

llm

beancount

April 21, 2026·mike

IA constitucional per a agents comptables: RLAIF, regles de política i riscos de Goodharting

L'article sobre IA constitucional d'Anthropic (Bai et al., 2022) entrena LLMs per seguir regles mitjançant retroalimentació generada per IA en lloc d'etiquetes de dany humanes. Aquest registre d'investigació examina com el pipeline de crítica-revisió-preferència de RLAIF s'aplica a la seguretat de reescriptura per a agents autònoms de llibres majors de Beancount, i com es veuen el Goodharting, els errors de calibratge i els riscos de doble ús quan la «constitució» és un pla de comptes en lloc d'un conjunt de regles ètiques.

machine-learning

llm

April 20, 2026·mike

Prompting de Cadena de Pensament: Compromisos entre Precisió i Exhaustivitat per a la IA Financera

Una lectura atenta de l'article de 2022 sobre Chain-of-Thought de Wei et al. i què significa per a la IA financera — per què el CoT augmenta la precisió però pot reduir l'exhaustivitat en la detecció d'esdeveniments rars, per què el llindar d'escala és important per als agents de producció i què ha de tenir en compte un equip financer que construeix sobre LLMs.

llm

machine-learning

Mostrant 73–84 de 87 articles

Anterior7 / 8Següent