Salta al contingut principal
Fintech

Tot Sobre Fintech

4 articles
Financial technology research, platforms, and infrastructure for modern accounting systems

FinTrace: Avaluació a nivell de trajectòria de la crida d'eines de LLM per a tasques financeres

FinTrace avalua 13 LLM en 800 trajectòries de tasques financeres anotades per experts a través de 9 mètriques, trobant que els models de frontera aconsegueixen una selecció d'eines robusta (F1 ~0,9) però només obtenen una puntuació de 3,23/5 en utilització de la informació, el pas on els agents raonen sobre el que retornen les eines.

FinToolBench: Avaluació d'agents LLM en l'ús d'eines financeres del món real

FinToolBench combina 760 eines d'API financeres en viu amb 295 consultes executables per avaluar agents LLM en tasques financeres reals — descobrint que la taxa d'invocació conservadora del 22,7% de GPT-4o ofereix una major qualitat de resposta (CSS 0,670) que el TIR agressiu del 87,1% de Qwen3-8B, mentre que el desajust d'intencions supera el 50% en tots els models provats.

BloombergGPT i els límits dels LLM de domini específic en finances

Bloomberg va entrenar un LLM de 50.000 milions de paràmetres amb 569.000 milions de tokens de dades financeres i va superar els models generals en proves de referència de sentiment i raonament de taules; després, GPT-4 el va igualar sense cap preentrenament específic en finances. El que revela l'experiment de 10 milions de dòlars sobre els compromisos del preentrenament de domini, la tokenització de números i per què l'ús d'eines és més fiable que les funcions internes del model per als agents comptables.