4 berichten getagd met "Fintech"

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench: Benchmarking van LLM-agenten voor financieel toolgebruik in de praktijk onder MCP

FinMCP-Bench evalueert zes LLM-modellen op 613 praktijkgerichte financiële taken voor het gebruik van tools, ondersteund door 65 MCP-servers — het beste model scoort 3,08% exacte overeenkomst bij multi-turn taken, wat een prestatie-instorting van 20× laat zien van enkelvoudige naar multi-turn scenario's.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace: Evaluatie op trajectniveau van LLM tool-aanroepen voor financiële taken

FinTrace benchmarkt 13 LLM's op 800 door experts geannoteerde trajecten voor financiële taken via 9 statistieken. De resultaten tonen aan dat frontier-modellen sterke tool-selectie behalen (F1 ~0,9), maar slechts 3,23/5 scoren op informatiebenutting — de stap waarin agents redeneren over de resultaten van tools.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: Evaluatie van LLM-agents bij het gebruik van financiële tools in de praktijk

FinToolBench koppelt 760 live financiële API-tools aan 295 uitvoerbare queries om LLM-agents te benchmarken op echte financiële taken — waarbij de conservatieve aanroepfrequentie van 22,7% van GPT-4o een hogere antwoordkwaliteit (CSS 0,670) oplevert dan de agressieve 87,1% TIR van Qwen3-8B, terwijl de intentie-mismatch bij alle geteste modellen meer dan 50% bedraagt.

LLMAIMachine LearningFinanceFintechBeancountPlain-Text Accounting

BloombergGPT en de grenzen van domeinspecifieke LLM's in de financiële sector

Bloomberg trainde een LLM met 50 miljard parameters op 569 miljard tokens aan financiële gegevens en versloeg algemene modellen op benchmarks voor sentiment en tabelredenering — waarna GPT-4 dit evenaarde zonder enige financiële pre-training. Wat het experiment van $10 miljoen onthult over de afwegingen bij domein-pre-training, de tokenisatie van getallen en waarom het gebruik van tools betrouwbaarder is dan interne model-logica voor boekhoudagenten.

Alles Over Fintech

FinMCP-Bench: Benchmarking van LLM-agenten voor financieel toolgebruik in de praktijk onder MCP

FinTrace: Evaluatie op trajectniveau van LLM tool-aanroepen voor financiële taken

FinToolBench: Evaluatie van LLM-agents bij het gebruik van financiële tools in de praktijk

BloombergGPT en de grenzen van domeinspecifieke LLM's in de financiële sector

Aan de slag met Beancount.io

Aan de slag

Functies

Gemeenschap

Juridisch