Salta al contingut principal
Developers

Tot Sobre Developers

7 articles
Developer resources, APIs, and integration documentation for finance tools

OpenHands: Plataforma oberta per a agents de programari d'IA i què significa per a l'automatització de les finances

OpenHands és una plataforma d'agents amb llicència MIT i entorn Docker on CodeAct assoleix un 26% a SWE-Bench Lite — una referència aclaparadora que estableix el que els agents d'IA poden fer de manera fiable avui dia, i per què les primeres implementacions financeres productives haurien de tenir un abast limitat en lloc de ser autònomes.

ShieldAgent: Raonament de polítiques de seguretat verificables per a agents LLM

ShieldAgent (ICML 2025) substitueix les barreres de seguretat basades en LLM per circuits de regles probabilístics construïts sobre xarxes lògiques de Markov, aconseguint una precisió del 90,4% en atacs contra agents amb un 64,7% menys de crides a l'API — i què significa això per a la seguretat verificable en sistemes d'IA financera.

Ajustament fi vs. RAG: Per què la recuperació guanya per injectar nous coneixements als LLM

La comparació empírica de RAG vs. l'ajustament fi no supervisat en LLM de 7.000 milions de paràmetres mostra que el RAG aconsegueix una precisió de més de 0,875 en fets posteriors a la data de tall, mentre que l'ajustament fi s'estanca en 0,504, amb implicacions directes per al disseny d'agents de Beancount i qualsevol sistema que requereixi actualitzacions freqüents de coneixement.

Gorilla: Com l'entrenament conscient de la recuperació (RAT) redueix les al·lucinacions de l'API dels LLM del 78% a l'11%

Gorilla (Patil et al., NeurIPS 2024) ajusta un model LLaMA de 7B amb entrenament conscient del recuperador (RAT) sobre documentació d'API recuperada, reduint les taxes d'al·lucinació del 78% a l'11% en comparació amb GPT-4 zero-shot, amb implicacions directes per als agents d'escriptura d'IA financera on els noms de compte incorrectes o els signes invertits són fallades de correcció, no simples molèsties.

SWE-agent: Com el disseny d'interfícies desbloqueja l'enginyeria de programari automatitzada

SWE-agent (NeurIPS 2024) introdueix les interfícies agent-ordinador (ACI) —capes creades específicament entre els LLM i els entorns de programari—, mostrant una millora de 10,7 punts percentuals respecte a l'accés directe a la shell i una resolució del 12,47% a SWE-bench amb GPT-4 Turbo. El disseny de la interfície, i no la capacitat del model, és el principal coll d'ampolla per als agents de programació autònoms.

SWE-bench: Poden els models de llenguatge resoldre problemes reals de GitHub?

SWE-bench avalua els models de llenguatge en 2.294 problemes reals de GitHub en 12 repositoris de Python mitjançant proves basades en l'execució; en el moment de la publicació, Claude 2 va resoldre només l'1,96% dels problemes amb una recuperació realista, establint el referent de facto per als agents de codificació i revelant modes d'error de recuperació i longitud de pegats directament rellevants per als agents d'escriptura de Beancount.

Toolformer: l'ús d'eines amb aprenentatge supervisat i els seus límits per a la IA financera

Una lectura detallada de Toolformer (Meta AI, NeurIPS 2023): com l'entrenament auto-supervisat filtrat per perplexitat ensenya a un model de 6,7 mil milions de paràmetres a cridar APIs externes, on supera el GPT-3 de 175 mil milions en proves d'aritmètica, i per què la seva arquitectura d'un sol pas no pot admetre les crides d'eines encadenades necessàries per a operacions de llibre major estructurat.