Tian Pan

Research Engineer

April 16, 2026·tian

Toolformer: Samostatočne dohliadané používanie nástrojov a jeho limity pre finančnú AI

Detailná analýza Toolformer (Meta AI, NeurIPS 2023): ako samostatočne dohliadaný tréning filtrovaný perplexitou učí 6,7B-parametrový model volať externé API, kde prekonáva GPT-3 175B v aritmetických benchmarkoch a prečo jeho jednokroková architektúra nedokáže podporovať reťazené volania nástrojov potrebné pre operácie v štruktúrovaných účtovných knihách.

llm

machine-learning

April 15, 2026·tian

FinBen: Benchmarking LLMs v 36 finančných úlohách — Dôsledky pre AI v účtovníctve

FinBen hodnotí 15 LLM v 36 finančných datasetoch na NeurIPS 2024. Zisťuje, že GPT-4 dosahuje 0,63 Exact Match v numerických QA a 0,54 v predpovedaní pohybu akcií — čo je takmer náhoda. Tu je vysvetlenie toho, čo tieto čísla znamenajú pre budovanie spoľahlivého účtovného agenta pre Beancount účtovnú knihu.

llm

machine-learning