Tian Pan
Research Engineer
Toolformer: Zelf-gesuperviseerd toolgebruik en de beperkingen voor Finance AI
Een grondige analyse van Toolformer (Meta AI, NeurIPS 2023): hoe door perplexiteit gefilterde zelf-gesuperviseerde training een model met 6,7 miljard parameters leert om externe API's aan te roepen, waarbij het GPT-3 175B overtreft op rekenkundige benchmarks, en waarom de eenstaps-architectuur geen ondersteuning biedt voor de gekoppelde tool-aanroepen die nodig zijn voor gestructureerde grootboekbewerkingen.
FinBen: Benchmarking van LLM's over 36 financiële taken — implicaties voor AI in de boekhouding
FinBen evalueert 15 LLM's over 36 financiële datasets op NeurIPS 2024, waarbij GPT-4 een Exact Match van 0,63 behaalt op numerieke QA en 0,54 op de voorspelling van koersbewegingen — wat dicht bij toeval ligt. Hier leest u wat deze cijfers betekenen voor het bouwen van een betrouwbare boekhoudagent op een Beancount-grootboek.