Mike Thrift

Marketing Manager

May 13, 2026·mike

FinQA: El referent per mesurar el raonament numèric de la IA en informes financers

FinQA (EMNLP 2021) va crear 8.281 parells de preguntes i respostes d'informes de resultats de l'S&P 500 que requerien programes aritmètics de diversos passos. Els models neuronals van obtenir un 61% de puntuació en el llançament enfront del 91% dels experts humans; la precisió cau al 22% en programes de tres o més passos. Els modes de fallada —constants de domini, vinculació entre modalitats, longitud de la cadena— es relacionen directament amb els reptes que afronten avui els agents de Beancount.

machine-learning

llm

May 12, 2026·mike

FinanceBench: Per què el RAG de magatzem de vectors falla en documents financers reals

FinanceBench avalua 16 configuracions d'IA amb 10.231 preguntes de documents reals de la SEC; el RAG de magatzem de vectors compartit respon correctament només el 19% de les vegades, i fins i tot GPT-4-Turbo amb el fragment d'oracle arriba només al 85% de precisió, cosa que demostra que el raonament numèric, i no la recuperació, és el factor limitant per a la IA en les finances empresarials.

llm

machine-learning

May 11, 2026·mike

DSPy: Reemplaçant l'enginyeria de prompts fràgil amb pipelines d'LLM compilats

DSPy substitueix les cadenes de prompts fetes a mà per signatures declaratives i un compilador basat en mètriques, augmentant Llama2-13b del 9,4% al 46,9% en el raonament matemàtic GSM8K i oferint un camí més mantenible per a pipelines d'IA de finances en producció.

llm

machine-learning

May 10, 2026·mike

LATS: Language Agent Tree Search — Raonament, acció i planificació en un sol framework

LATS (Language Agent Tree Search, ICML 2024) unifica ReAct, Tree of Thoughts i Reflexion en un únic framework MCTS, aconseguint un 92,7% de pass@1 a HumanEval amb GPT-4. Per als llibres de comptabilitat Beancount basats en git, el requisit de reversió d'estat que limita LATS en entorns de producció es satisfà trivialment.

llm

machine-learning

May 9, 2026·mike

Self-RAG: Recuperació Adaptativa i Autocrítica per a LLMs

Self-RAG (ICLR 2024 Oral) entrena un model de llenguatge per decidir quan recuperar informació i després avaluar els seus propis resultats mitjançant quatre tokens de reflexió, assolint un 55,8% a PopQA i un 80,2 de FactScore en biografies, superant ChatGPT en cinc bancs de proves. L'anàlisi cobreix el mecanisme, els resultats d'ablació, els límits de reproductibilitat i les implicacions per als agents d'IA financera sobre llibres majors de Beancount.

machine-learning

llm

May 8, 2026·mike

Voyager: Les biblioteques de competències com a base per a l'aprenentatge permanent d'agents d'IA

Voyager, un agent de Minecraft basat en GPT-4 de NVIDIA i Caltech, demostra que una biblioteca de competències de codi persistent permet un aprenentatge permanent genuí sense ajustos fins, descobrint 3,3 vegades més ítems que l'estat de l'art anterior. El patró s'aplica directament a l'automatització del llibre major de Beancount a llarg termini, tot i que la correcció financera exigeix capes de proves que els entorns de sandbox de jocs mai requereixen.

llm

machine-learning

May 7, 2026·mike

HippoRAG: memòria a llarg termini per a LLM d'inspiració neurobiològica

HippoRAG (NeurIPS 2024) construeix un graf de coneixement a partir de triples OpenIE i aplica el PageRank personalitzat en el moment de la consulta, assolint un Recall@5 del 89,1% a 2WikiMultiHopQA en comparació amb el 68,2% de ColBERTv2, amb implicacions directes per a la consulta de llibres comptables financers complexos a través d'historials de transaccions plurianuals.

llm

machine-learning

May 6, 2026·mike

AgentBench: Avaluant els LLM com a agents — Lliçons per a la fiabilitat de la IA en finances

AgentBench (Liu et al., ICLR 2024) avalua 27 LLM en 8 entorns interactius — GPT-4 va obtenir una puntuació de 4,01 en total enfront de 0,96 del millor model de codi obert. Els tres modes de fallada dominants (límit de tasques excedit en el 67,9% de les fallades del graf de coneixement, errors de format en el 53,3% de les fallades de la base de dades i accions no vàlides) es relacionen directament amb els riscos d'implementar un agent d'escriptura de Beancount en un llibre major real.

llm

machine-learning

May 5, 2026·mike

BloombergGPT i els límits dels LLM de domini específic en finances

Bloomberg va entrenar un LLM de 50.000 milions de paràmetres amb 569.000 milions de tokens de dades financeres i va superar els models generals en proves de referència de sentiment i raonament de taules; després, GPT-4 el va igualar sense cap preentrenament específic en finances. El que revela l'experiment de 10 milions de dòlars sobre els compromisos del preentrenament de domini, la tokenització de números i per què l'ús d'eines és més fiable que les funcions internes del model per als agents comptables.

llm

machine-learning

May 4, 2026·mike

AutoGen: Marcs de conversació multiagent per a la IA financera

AutoGen (Wu et al., 2023) presenta un marc de conversació multiagent on els agents basats en LLM s'intercanvien missatges per completar tasques; una configuració de dos agents augmenta la precisió de la referència MATH del 55% al 69%, i un agent SafeGuard dedicat millora la detecció de codi insegur fins a 35 punts F1 — troballes directament aplicables a la construcció de fluxos d'automatització de Beancount segurs i modulars.

llm

automation

May 3, 2026·mike

Gorilla: Com l'entrenament conscient de la recuperació (RAT) redueix les al·lucinacions de l'API dels LLM del 78% a l'11%

Gorilla (Patil et al., NeurIPS 2024) ajusta un model LLaMA de 7B amb entrenament conscient del recuperador (RAT) sobre documentació d'API recuperada, reduint les taxes d'al·lucinació del 78% a l'11% en comparació amb GPT-4 zero-shot, amb implicacions directes per als agents d'escriptura d'IA financera on els noms de compte incorrectes o els signes invertits són fallades de correcció, no simples molèsties.

llm

machine-learning

May 2, 2026·mike

MemGPT: Gestió de context virtual per a agents d'LLM

MemGPT aplica la paginació de memòria virtual d'estil sistema operatiu als LLM, utilitzant un emmagatzematge de tres nivells (memòria de treball, de recuperació i d'arxiu) per donar als agents un record persistent entre sessions; en bancs de proves de xat multisessió, MemGPT amb GPT-4 assoleix una precisió del 92,5% en comparació amb el 32,1% del model de referència de context fix.

llm

machine-learning

Mostrant 61–72 de 87 articles

Anterior6 / 8Següent