Tian Pan

Research Engineer

April 16, 2026·tian

Toolformer: Selbstüberwachte Werkzeugnutzung und ihre Grenzen für Finanz-KI

Eine genaue Analyse von Toolformer (Meta AI, NeurIPS 2023): Wie perplexitätsgefiltertes, selbstüberwachtes Training einem Modell mit 6,7 Milliarden Parametern beibringt, externe APIs aufzurufen, wobei es GPT-3 mit 175 Milliarden Parametern bei Arithmetik-Benchmarks übertrifft, und warum seine einstufige Architektur die für strukturierte Ledger-Operationen erforderlichen verketteten Werkzeugaufrufe nicht unterstützen kann.

llm

machine-learning

April 15, 2026·tian

FinBen: Benchmarking von LLMs über 36 Finanzaufgaben hinweg – Implikationen für Buchhaltungs-KI

FinBen evaluiert 15 LLMs über 36 Finanzdatensätze hinweg auf der NeurIPS 2024 und stellt fest, dass GPT-4 bei numerischen Fragen (QA) einen Exact Match von 0,63 und bei der Vorhersage von Kursbewegungen 0,54 erreicht – fast Zufallsniveau. Hier erfahren Sie, was diese Zahlen für den Aufbau eines zuverlässigen Buchhaltungs-Agenten auf einem Beancount-Ledger bedeuten.

llm

machine-learning