Mike Thrift

Marketing Manager

June 30, 2026·mike

OpenHands: Plataforma oberta per a agents de programari d'IA i què significa per a l'automatització de les finances

OpenHands és una plataforma d'agents amb llicència MIT i entorn Docker on CodeAct assoleix un 26% a SWE-Bench Lite — una referència aclaparadora que estableix el que els agents d'IA poden fer de manera fiable avui dia, i per què les primeres implementacions financeres productives haurien de tenir un abast limitat en lloc de ser autònomes.

open-source

automation

June 29, 2026·mike

Fin-RATE: Com els LLM fallen en l'anàlisi financera entre períodes i entre entitats

Fin-RATE avalua 17 LLM en 7.500 parells de preguntes i respostes seleccionades per experts de 2.472 documents de la SEC, revelant un col·lapse de la precisió del 18,60% en el seguiment longitudinal i una caiguda de 54 punts per al model Fin-R1 especialitzat en finances en tasques entre entitats, amb el pipeline de recuperació, i no el model base, com el coll d'ampolla principal.

llm

machine-learning

June 28, 2026·mike

FinDER: Les consultes d'analistes reals exposen una bretxa de recuperació del 74% en el RAG financer

FinDER avalua el RAG sobre 5.703 consultes reals d'analistes de fons de cobertura front a informes 10-K de l'S&P 500; E5-Mistral només aconsegueix un 25,95% de recuperació de context, i les consultes amb moltes abreviatures costen 8,2 punts de precisió — evidència que la normalització de consultes, i no millors embeddings, és la primera solució per als pipelines d'IA en finances.

llm

machine-learning

June 27, 2026·mike

Perduts pel mig: el biaix de posició en els LLM i el seu impacte en la IA financera

L'article de TACL 2024 de Liu et al. mostra que els LLM funcionen fins a 20 punts pitjor amb la informació enterrada al mig de contextos llargs —una degradació en forma de U que afecta tots els models provats, inclòs Claude-1.3-100K— amb implicacions concretes sobre com les canalitzacions RAG haurien d'ordenar els fragments recuperats en aplicacions de finances i comptabilitat.

llm

machine-learning

June 26, 2026·mike

Benchmark AD-LLM: GPT-4o assoleix un AUROC de 0,93+ en detecció d'anomalies de text zero-shot

AD-LLM avalua GPT-4o i Llama 3.1 8B en tres rols de detecció d'anomalies —detector zero-shot, augmentador de dades i selector de models— en cinc conjunts de dades de PNL; GPT-4o arriba a un AUROC de 0,93–0,99 zero-shot, però la selecció de models basada en LLM continua sent poc fiable, amb implicacions directes per a la IA d'auditoria financera.

llm

machine-learning

June 25, 2026·mike

CausalTAD: Ordenació Causal de Columnes per a la Detecció d'Anomalies Tabulars amb LLM

CausalTAD millora la detecció d'anomalies tabulars basada en LLM reordenant les columnes de la taula per respectar les dependències causals abans de la serialització, augmentant l'AUC-ROC mitjà de 0,803 a 0,834 respecte a AnoLLM en bancs de proves de tipus mixt — amb implicacions directes per detectar anomalies en dades estructurades de llibres comptables.

llm

machine-learning

June 24, 2026·mike

AnoLLM: Ajust finit d'LLMs per a la detecció d'anomalies tabulars en dades financeres

AnoLLM (ICLR 2025) reformula la detecció d'anomalies tabulars com una estimació de densitat d'LLM — ajustant el model amb files normals i puntuant mitjançant la log-versemblança negativa. Supera els mètodes clàssics en conjunts de dades de frau de tipus mixt, però no ofereix cap avantatge en dades purament numèriques, amb implicacions reals per detectar anomalies en les entrades del llibre major de Beancount.

llm

machine-learning

June 23, 2026·mike

Els LLM obtenen un 2,3% en la generació de DSL de Beancount: El benchmark LLMFinLiteracy

El benchmark LLMFinLiteracy revela que cinc models de pesos oberts d'uns 7B generen transaccions de Beancount completament correctes només el 2,3% de les vegades, amb errors concentrats en el raonament comptable —no en la sintaxi—, cosa que assenyala el feedback del compilador en el bucle com l'ingredient clau que falta per a agents d'escriptura fiables.

llm

beancount

plain-text-accounting

June 22, 2026·mike

TableMaster: Raonament adaptatiu per a la comprensió de taules amb LLM

TableMaster és un pipeline basat exclusivament en l'ús de promps que assoleix un 78,13% a WikiTQ amb GPT-4o-mini —13 punts per sobre de Chain-of-Table— combinant l'extracció de la taula de focus, la verbalització semàntica i el canvi adaptatiu entre el raonament textual i el simbòlic. Aquí s'explica què significa aquesta arquitectura per als agents d'IA sobre llibres majors financers com Beancount.

llm

machine-learning

June 21, 2026·mike

Detecció d'anomalies Zero-Shot amb LLMs: Com es comporta GPT-4 amb dades tabulars

GPT-4 aconsegueix una mitjana de 74,1 AUROC al benchmark ODDS sense ajustament fi —gairebé igualant la línia base clàssica ECOD de 75,5— però falla en anomalies multidimensionals i conjunts de dades d'alta variància; una revisió crítica de la detecció d'anomalies zero-shot amb LLM i les seves implicacions per a l'auditoria automatitzada de llibres majors de Beancount.

llm

fraud-detection

June 20, 2026·mike

DocFinQA: Raonament financer de context llarg sobre presentacions completes de la SEC

DocFinQA substitueix els passatges seleccionats de 700 paraules de FinQA per presentacions completes de la SEC de 123.000 paraules, exposant un augment de context de 175 vegades que gairebé redueix a la meitat la precisió de GPT-4 en documents llargs. Els fluxos de recuperació no aconsegueixen trobar el fragment correcte el 45% de les vegades a HR@3 — i els models de context llarg no són un substitut.

llm

machine-learning

June 19, 2026·mike

TheAgentCompany: Avaluació comparativa d'agents LLM en tasques empresarials del món real

TheAgentCompany avalua 175 tasques reals del lloc de treball en una intranet simulada amb GitLab, OwnCloud i RocketChat. El millor model (Gemini-2.5-Pro) completa només el 30% de les tasques a un cost de 4 $ per tasca, fet que revela que els agents autònoms encara estan lluny de ser viables per als fluxos de treball comptables i financers.

llm

automation

Mostrant 13–24 de 87 articles

Anterior2 / 8Següent