2026
- 15 d’abril - FinBen: Benchmarking d'LLM en 36 tasques financeres — Implicacions per a la IA comptable
- 16 d’abril - Toolformer: l'ús d'eines amb aprenentatge supervisat i els seus límits per a la IA financera
- 17 d’abril - ReAct: Sinergia de raonament i acció en models de llenguatge
- 18 d’abril - FinMaster Benchmark: Per què els LLMs obtenen un 96% en cultura financera però un 3% en generació d'estats financers
- 19 d’abril - PHANTOM (NeurIPS 2025): Mesurant la detecció d'al·lucinacions d'LLM en documents financers
- 20 d’abril - Prompting de Cadena de Pensament: Compromisos entre Precisió i Exhaustivitat per a la IA Financera
- 21 d’abril - IA constitucional per a agents comptables: RLAIF, regles de política i riscos de Goodharting
- 22 d’abril - Poden els LLM raonar sobre dades tabulars? El que quatre bancs de proves ens diuen sobre la IA financera
- 23 d’abril - PAL: Models de llenguatge assistits per programes per a una aritmètica financera fiable
- 24 d’abril - Auto-consistència: el mostreig per votació majoritària millora la precisió de la cadena de pensament
- 25 d’abril - Reflexion: Agents de llenguatge que aprenen dels errors sense reentrenament
- 26 d’abril - CRITIC: Per què l'autocorrecció dels LLM requereix retroacció d'eines externes
- 27 d’abril - Tree of Thoughts: Resolució Deliberada de Problemes amb Cerca de LLM
- 28 d’abril - Els LLM encara no poden autocorregir el raonament — Conclusions de l'ICLR 2024 i implicacions per a la IA financera
- 29 d’abril - CodeAct: Per què el codi Python executable fa que els agents LLM siguin un 20% més precisos
- 30 d’abril - SWE-bench: Poden els models de llenguatge resoldre problemes reals de GitHub?
- 1 de maig - SWE-agent: Com el disseny d'interfícies desbloqueja l'enginyeria de programari automatitzada
- 2 de maig - MemGPT: Gestió de context virtual per a agents d'LLM
- 3 de maig - Gorilla: Com l'entrenament conscient de la recuperació (RAT) redueix les al·lucinacions de l'API dels LLM del 78% a l'11%
- 4 de maig - AutoGen: Marcs de conversació multiagent per a la IA financera
- 5 de maig - BloombergGPT i els límits dels LLM de domini específic en finances
- 6 de maig - AgentBench: Avaluant els LLM com a agents — Lliçons per a la fiabilitat de la IA en finances
- 7 de maig - HippoRAG: memòria a llarg termini per a LLM d'inspiració neurobiològica
- 8 de maig - Voyager: Les biblioteques de competències com a base per a l'aprenentatge permanent d'agents d'IA
- 9 de maig - Self-RAG: Recuperació Adaptativa i Autocrítica per a LLMs
- 10 de maig - LATS: Language Agent Tree Search — Raonament, acció i planificació en un sol framework
- 11 de maig - DSPy: Reemplaçant l'enginyeria de prompts fràgil amb pipelines d'LLM compilats
- 12 de maig - FinanceBench: Per què el RAG de magatzem de vectors falla en documents financers reals
- 13 de maig - FinQA: El referent per mesurar el raonament numèric de la IA en informes financers
- 14 de maig - TAT-QA: un benchmark de QA híbrid de taula i text per al raonament d'informes anuals financers
- 15 de maig - ConvFinQA: QA Financer Multi-torn i la Bretxa de 21 Punts entre Models i Experts Humans
- 16 de maig - MultiHiertt: Avaluació comparativa del raonament numèric en taules financeres multi-jeràrquiques
- 17 de maig - Generació augmentada per recuperació per a tasques de PNL amb un ús intensiu del coneixement
- 18 de maig - FLARE: Generació Augmentada per Recuperació Activa
- 19 de maig - IRCoT: Entrellaçament de la recuperació amb la cadena de pensament per a preguntes i respostes de múltiples passos
- 20 de maig - Ajustament fi vs. RAG: Per què la recuperació guanya per injectar nous coneixements als LLM
- 21 de maig - TAT-LLM: LLaMA 2 ajustat per al raonament discret sobre taules i textos financers
- 22 de maig - AuditCopilot: LLMs per a la detecció de frau en la comptabilitat de partida doble
- 23 de maig - Els LLM no són útils per a la previsió de sèries temporals: què significa NeurIPS 2024 per a la IA financera
- 24 de maig - Debat de LLM multiagent: guanys de precisió reals, còmput descontrolat i deliri col·lectiu
- 25 de maig - GuardAgent: Aplicació determinista de la seguretat per a agents LLM mitjançant l'execució de codi
- 26 de maig - Fusion-in-Decoder: Com la recuperació de múltiples fragments millora les preguntes i respostes generatives
- 27 de maig - Atlas: El pre-entrenament conjunt de recuperador i lector supera els LLM de 540 mil milions de paràmetres amb 11 mil milions de paràmetres
- 28 de maig - ShieldAgent: Raonament de polítiques de seguretat verificables per a agents LLM
- 29 de maig - AGrail: Guardrails de seguretat adaptatius per a agents LLM que aprenen a través de tasques
- 30 de maig - M3MAD-Bench: Són realment eficaços els debats multiagent en diferents dominis i modalitats?
- 31 de maig - Els LLM d'agent únic superen els sistemes multi-agent en el raonament de múltiples salts sota pressupostos iguals de tòquens de pensament
- 1 de juny - StructRAG (ICLR 2025): Escollir l'estructura de document correcta supera GraphRAG per 28 punts
- 2 de juny - InvestorBench: Avaluació comparativa d'agents LLM en decisions de compravenda financera
- 3 de juny - FinAuditing: els LLM puntuen per sota del 14% en tasques reals d'auditoria SEC XBRL
- 4 de juny - GraphRAG: De la resumització local a la global centrada en consultes
- 5 de juny - Ús d'eines verificablement segur per a agents de LLM: STPA es troba amb MCP
- 6 de juny - Banc de proves BIRD: La bretxa de les bases de dades reals en el Text-to-SQL dels LLM
- 7 de juny - DIN-SQL: Aprenentatge en context descompost per a Text-to-SQL
- 8 de juny - MAC-SQL: Text-to-SQL col·laboratiu multiagent
- 9 de juny - TAPAS: Weakly Supervised Table QA Without SQL, and What It Means for Beancount
- 10 de juny - TableLlama: Pot un model obert de 7B igualar GPT-4 en la comprensió de taules?
- 11 de juny - Chain-of-Table: Evolving Tables in the LLM Reasoning Chain
- 12 de juny - τ-bench: Mesurant la fiabilitat dels agents d'IA en dominis d'ús d'eines del món real
- 13 de juny - WorkArena: Com es comporten els agents web d'LLM en treballs de coneixement empresarial reals
- 14 de juny - WebArena: El referent de 812 tasques que mesura el que els agents web realment poden i no poden fer
- 15 de juny - OSWorld: Desktop AI Agents Succeed on 12% of Tasks Where Humans Succeed on 72%
- 16 de juny - Rendiment GAIA: Mesurant què poden fer realment els agents d'IA de frontera
- 17 de juny - WorkArena++: La bretxa del 93% entre el rendiment humà i el dels agents d'IA en tasques empresarials composicionals
- 18 de juny - τ²-bench: Mesurant el cost del control dual en agents d'IA conversacional
- 19 de juny - TheAgentCompany: Avaluació comparativa d'agents LLM en tasques empresarials del món real
- 20 de juny - DocFinQA: Raonament financer de context llarg sobre presentacions completes de la SEC
- 21 de juny - Detecció d'anomalies Zero-Shot amb LLMs: Com es comporta GPT-4 amb dades tabulars
- 22 de juny - TableMaster: Raonament adaptatiu per a la comprensió de taules amb LLM
- 23 de juny - Els LLM obtenen un 2,3% en la generació de DSL de Beancount: El benchmark LLMFinLiteracy
- 24 de juny - AnoLLM: Ajust finit d'LLMs per a la detecció d'anomalies tabulars en dades financeres
- 25 de juny - CausalTAD: Ordenació Causal de Columnes per a la Detecció d'Anomalies Tabulars amb LLM
- 26 de juny - Benchmark AD-LLM: GPT-4o assoleix un AUROC de 0,93+ en detecció d'anomalies de text zero-shot
- 27 de juny - Perduts pel mig: el biaix de posició en els LLM i el seu impacte en la IA financera
- 28 de juny - FinDER: Les consultes d'analistes reals exposen una bretxa de recuperació del 74% en el RAG financer
- 29 de juny - Fin-RATE: Com els LLM fallen en l'anàlisi financera entre períodes i entre entitats
- 30 de juny - OpenHands: Plataforma oberta per a agents de programari d'IA i què significa per a l'automatització de les finances
- 1 de juliol - Transferència basada en la incertesa per a agents LLM: quan escalar de models petits a grans
- 2 de juliol - Trobats al mig: el calibratge del biaix d'atenció posicional millora el RAG de context llarg
- 3 de juliol - Enquesta sobre detecció d'anomalies amb LLM (NAACL 2025): taxonomia forta, cobertura tabular absent
- 4 de juliol - OmniEval: Banc de proves d'avaluació RAG omnidireccional per al domini financer
- 5 de juliol - FinToolBench: Avaluació d'agents LLM en l'ús d'eines financeres del món real
- 6 de juliol - FinTrace: Avaluació a nivell de trajectòria de la crida d'eines de LLM per a tasques financeres
- 7 de juliol - FinMCP-Bench: Benchmarking d'agents LLM per a l'ús d'eines financeres del món real sota MCP
- 8 de juliol - JSONSchemaBench: La complexitat dels esquemes del món real trenca les garanties de sortida estructurada dels LLM
- 9 de juliol - Confiança i calibratge en LLM: una enquesta sobre el que realment mostra la recerca
- 10 de juliol - WildToolBench: Per què cap LLM supera el 15% de precisió de sessió en l'ús d'eines en el món real
- 11 de juliol - Poden els agents LLM ser CFO? La simulació de 132 mesos d'EnterpriseArena revela una gran bretxa
- 12 de juliol - FinRAGBench-V: RAG multimodal amb citacions visuals en l'àmbit financer
