FinBen: Сравнителен анализ на LLM в 36 финансови задачи — последици за изкуствения интелект в счетоводството
FinBen беше представен на NeurIPS 2024 като най-изчерпателната обществена оценка на големи езикови модели (LLM) по финансови задачи досега. Исках да го прочета внимателно, защото преди да проектирам какъвто и да е автономен агент върху регистри на Beancount, имам нужда от реалистична представа за това къде всъщност се намират водещите модели по отношение на задачите за финансови разсъждения, които такъв агент би трябвало да изпълнява.
Докладът
Qianqian Xie и 33 съавтори представят FinBen, бенчмарк с отворен код, обхващащ 36 масива от данни в 24 финансови задачи, организирани в седем измерения: извличане на информация, текстов анализ, въпроси и отговори, генериране на текст, управление на риска, прогнозиране и вземане на решения. Те оценяват 15 представителни LLM — включително GPT-4, ChatGPT, Gemini и няколко настроени чрез инструкции (instruction-tuned) модели с отворен код — и въвеждат три нови масива от данни за обобщаване, въпроси и отговори и оценка на търговията с акции.
Основната мотивация е, че предходните финансови бенчмаркове като FLUE и FLARE са улавяли само част от финансовата обработка на естествен език (NLP), но нищо близко до пълния процес. FinBen е първият опит да се обхване целият набор от дейности на едно място и беше приет в раздела Datasets and Benchmarks на NeurIPS 2024, което му дава сериозен печат за методологическа надеждност.