Бенчмарк FinMaster: чому LLM отримують 96% за фінансову грамотність, але лише 3% за формування звітності
Стаття FinMaster потрапила до мого списку для читання відразу після ReAct. Якщо ReAct досліджує те, як агенти вирішують, коли діяти, то FinMaster ставить складніше запитання: наскільки добре сучасні найкращі LLM справляються з реальними бухгалтерськими робочими процесами, які ці агенти мають виконувати? Опублікований у травні 2025 року, це перший бенчмарк, який я бачив, що охоплює повний цикл — фінансову грамотність, бухгалтерський облік, аудит і консалтинг — в одній цілісній системі оцінювання.
Про статтю
Jiang та інші представляють FinMaster (arXiv:2505.13533), бенчмарк із трьох частин для оцінки LLM у фінансових робочих процесах. Перший компонент, FinSim, — це генератор синтетичних даних, який симулює п'ять типів компаній і створює операції в гроссбуху (як правильні, так і навмисно помилкові) для наповнення тестових сценаріїв без занепокоєння щодо конфіденційності реальних даних. Другий, FinSuite, об'єднує 183 завдання, що охоплюють фінансову грамотність, бухгалтерський облік, аудит і консалтинг на різних рівнях складності. Третій, FinEval, забезпечує єдиний інтерфейс для підрахунку балів. Разом автори стверджують, що FinMaster — це перший бенчмарк, який охоплює повний фінансовий цикл із нескінченною генерацією даних, захищених від витоку приватної інформації — твердження, яке витримує критику порівняно зі статичними попередниками, такими як FinBen та FinanceBench.