FinanceBench: Защо RAG с векторно хранилище се проваля при реални финансови документи
FinanceBench се появява в момент, в който всеки доставчик на корпоративен ИИ твърди, че системата му може да „отговаря на въпроси от вашите финансови документи“. Тази научна публикация от Patronus AI подлага тези твърдения на сериозно изпитание, използвайки реални отчети към SEC и внимателно подбрани въпроси от типа „отворена книга“. Резултатите са неприятно четиво за всеки, който изгражда финансов ИИ.
Документът
Islam и др. представят FinanceBench: Нов бенчмарк за финансови въпроси и отговори (arXiv:2311.11944) – тестов пакет от 10 231 въпроса за публично търгувани компании, извлечени от реални SEC документи: годишни отчети (10-K), тримесечни отчети (10-Q), текущи отчети (8-K) и транскрипти от срещи за приходите. За разлика от по-ранните масиви от данни за финансови въпроси и отговори (FinQA, TAT-QA), които предоставят предварително извлечени таблици и пасажи, FinanceBench изисква от системата сама да намери доказателствата в пълните документи, преди да отговори. Това е реалистичната обстановка. Въпросите са проектирани да бъдат фактологично недвусмислени и, по думите на авторите, представляват „минимален стандарт за производителност“.
Екипът оцени 16 конфигурации, включващи GPT-4-Turbo, Llama2 и Claude2, чрез четири стратегии за извличане: затворена книга (без извличане), споделено векторно хранилище, векторно хранилище за отделен документ и промпти с дълъг контекст, подаващи пълната релевантна страница. Човешки анотатори ръчно прегледаха всички 2 400 отговора в 150 случая с отворен код.