Salta al contingut principal

Fin-RATE: Com els LLM fallen en l'anàlisi financera entre períodes i entre entitats

· 8 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

La trajectòria dels benchmarks d'LLM financers continua ampliant el seu abast, i Fin-RATE és l'exemple més clar fins ara del que passa quan finalment demanem als models que facin el que fan els analistes reals: fer el seguiment d'una empresa no només en un sol document, sinó al llarg de diversos períodes i en comparació amb els seus homòlegs del sector.

L'article

2026-06-29-fin-rate-real-world-financial-analytics-tracking-evaluation-benchmark

Fin-RATE, publicat al febrer de 2026 per Yidong Jiang, Junrong Chen i col·legues de Yale i institucions col·laboradores, presenta un benchmark construït a partir de 2.472 documents de la SEC de 43 empreses i 36 sectors que abasten el període 2020–2025. El benchmark organitza 7.500 parells de preguntes i respostes seleccionades per experts en tres tipus de tasques que reflecteixen els fluxos de treball dels analistes professionals: DR-QA (detall i raonament dins d'un sol document), EC-QA (comparació entre entitats de dues empreses sota un tema compartit) i LT-QA (seguiment longitudinal de la mateixa empresa al llarg dels períodes d'informes). Cada tipus de tasca conté 2.500 preguntes. L'avaluació abasta 17 LLM: models de codi tancat incloent GPT-4.1 i GPT-5, models de codi obert generals com DeepSeek-V3 i Llama-3.3-70B, i models especialitzats en finances com Fin-R1, Fino1-14B, FinanceConnect-13B i TouchstoneGPT-7B. La puntuació utilitza un marc unificat d'LLM-com-a-jutge amb tres jutges independents (GPT-5, DeepSeek-V3.2, Qwen3-235B) que puntuen cada resposta segons la correcció i cinc dimensions analítiques.

Idees clau

  • El rendiment es col·lapsa a mesura que augmenta la complexitat de la tasca: la precisió cau un 18,60% des del DR-QA d'un sol document fins al LT-QA longitudinal i un 14,35% des del DR-QA fins a l'EC-QA entre entitats, de mitjana en els 17 models.
  • GPT-5 amb cerca web és el que millor rendiment té, però la seva precisió màxima se situa només entre el 43 i el 44% en els tres tipus de tasques, una xifra pèssima per a un benchmark que pretén reflectir els fluxos de treball reals dels analistes.
  • Fin-R1, el model de raonament especialitzat en finances, arriba al 57,48% en DR-QA però es col·lapsa fins al 3,32% en EC-QA: una caiguda de 54 punts que supera amb escreix la degradació de qualsevol model general.
  • En configuracions RAG, el rendiment en tots els models cau molt per sota del 27%, en comparació amb el rendiment amb context d'or (gold-context) de fins al 57,48%; el pipeline de recuperació, i no l'LLM, és el coll d'ampolla principal.
  • L'article introdueix una taxonomia d'errors de 13 tipus en quatre categories: al·lucinacions i contradiccions, errors numèrics i semàntics específics de finances, errors de comprensió de la consulta o context i fallades a nivell de recuperació. La manca de proves (Missing Evidence) representa el 75,44% dels errors en la tasca EC-QA sota RAG.
  • Els models especialitzats en finances mostren taxes d'al·lucinació sistemàticament més altes que els models generals en tasques complexes, malgrat una millor terminologia financera.

Què se sosté — i què no

L'estructura de tres vies està realment ben dissenyada. La majoria dels benchmarks financers (FinQA, TAT-QA, FinanceBench) tracten les preguntes i respostes com una tasca d'un sol document. Fin-RATE és un dels primers a modelar explícitament la comparació entre entitats i el seguiment longitudinal com a tasques de primer nivell, i els resultats exposen una bretxa fonamental: els LLM actuals gestionen les preguntes sobre informes aïllats de manera tolerable, però es desmoronen en el moment que necessiten sintetitzar informació entre documents, entitats o períodes de temps.

El col·lapse de Fin-R1 és la troballa més sorprenent de l'article i crec que està infravalorada. Un model ajustat a les finances que destaca en l'extracció d'un sol document aparentment es va entrenar en un carreró sense sortida: va aprendre plantilles per respondre dins d'un document, no estratègies de raonament per relacionar entitats i períodes de temps. Aquesta és una advertència concreta contra l'ajust fi (fine-tuning) de dominis estrets sense una supervisió explícita del raonament multidocument. Probablement el model s'ajusta excessivament al patró superficial de "trobar el número al document" i no té cap via de generalització per a "comparar aquest número amb el número equivalent en un altre document d'una altra empresa".

Dit això, hi ha preocupacions metodològiques que val la pena assenyalar. El GPT-5 és simultàniament un dels models avaluats i un dels tres jutges que puntuen les respostes. Els autors utilitzen tres jutges per reduir el biaix individual, cosa que ajuda, però el solapament entre jutge i model amb el model més fort avaluat és incòmode. L'article informa d'un alt acord entre jutges, però no quantifica per separat quina fracció de les respostes de GPT-5 va puntuar el mateix GPT-5, ni si les puntuacions autoavaluades de GPT-5 difereixen sistemàticament dels altres dos jutges. Qualsevol biaix d'autoavaluació inflaria el resultat final per al model amb millor rendiment de l'estudi.

La mostra de 43 empreses també és escassa. La cobertura del tipus de document és lloablement àmplia (10-K, 10-Q, 8-K, 6-K, DEF 14A i diverses sèries S i SC), però les mateixes 43 empreses apareixen en totes les tasques. Els models que han vist els informes d'aquestes empreses en el preentrenament tenen un avantatge no quantificat, i l'article no inclou cap anàlisi de contaminació.

La troballa sobre la recuperació és important però incompleta. L'article identifica que el rendiment de RAG es col·lapsa en aproximadament 30 punts en comparació amb el context d'or perquè la recuperació falla. Però només avalua una única configuració de recuperació: tracta la fallada de recuperació com un diagnòstic en lloc de com una cosa per variar sistemàticament. Un article posterior que explorés les arquitectures de recuperació a Fin-RATE seria molt més útil.

Per què això és important per a la IA financera

L'auditoria de llibres majors de Beancount necessita exactament les dues capacitats que Fin-RATE revela que estan trencades: el seguiment longitudinal (com ha evolucionat aquest compte al llarg dels exercicis fiscals?) i la comparació entre entitats (es concilia el balanç d'aquesta filial amb l'estat consolidat?). La caiguda de precisió del 18,60% sota el seguiment temporal és una xifra concreta que hauria de calibrar les expectatives per a qualsevol agent de Beancount que raoni a través de diversos períodes d'informes. Si els models d'última generació fallen al 43% sota el context d'or en preguntes longitudinals de la SEC, un agent de Beancount que navegui per historials de llibres majors de diversos anys s'hauria de dissenyar amb recuperació explícita, fonamentació temporal i escalada humana, no amb inferència LLM d'extrem a extrem.

La troballa sobre la dominància de la recuperació és el que més importa per a la prioritat del disseny del sistema. Si el rendiment amb context d'or és gairebé el doble que el rendiment amb RAG, la inversió correcta és en una millor fragmentació (chunking), selecció de passatges i recuperació, no en un model LLM base més capaç. Això reflecteix el que DocFinQA va trobar per als documents de la SEC de context llarg: el pipeline al voltant del model és el coll d'ampolla.

L'advertència sobre Fin-R1 també s'aplica directament al cas d'ús de Beancount. L'ajust fi en la sintaxi DSL de Beancount i els patrons de transaccions pot produir un model que gestioni bé la generació d'entrades simples, però que falli sota la conciliació multicompte i multiperíode que fa que l'auditoria sigui útil. L'especialització sense entrenament en raonament multidocument és fràgil precisament de la manera com mesura Fin-RATE.

Què llegir a continuació

  • Fin-R1 (arXiv:2503.16252) — per entendre quina configuració d'entrenament va produir un rendiment tan fràgil entre documents, i si el raonament multidocument va estar mai previst.
  • FinTrace (arXiv:2604.10015) — avaluació a nivell de trajectòria de la crida d'eines d'LLM a través de 34 categories de tasques financeres; complementa la visió de QA estàtica de Fin-RATE amb un diagnòstic a nivell de procés d'on els models invoquen les eines adequades però no aconsegueixen raonar sobre els resultats.
  • OpenHands (arXiv:2407.16741) — la plataforma d'agents oberta que hi ha darrere de les avaluacions de TheAgentCompany; entendre la seva arquitectura aclareix quines capacitats bàsiques de l'agent estaven disponibles i quines llacunes són atribuïbles a la dificultat de la tasca més que a les limitacions de la plataforma.