Критичний аналіз огляду Сю та Діна (NAACL 2025) щодо виявлення аномалій та OOD на базі LLM — таксономія «виявлення проти генерації» витримує критику, але майже повна відсутність охоплення табличних даних означає, що фахівці з фінансового ШІ мають самостійно синтезувати ідеї з візуальних моделей.
Fin-RATE тестує 17 LLM на 7 500 парах питань та відповідей, відібраних експертами з 2 472 звітів SEC, виявляючи падіння точності на 18,60% при лонгітюдному відстеженні та зниження на 54 пункти для спеціалізованої на фінансах моделі Fin-R1 у міжсуб'єктних завданнях — при цьому конвеєр пошуку (retrieval), а не базова модель, є критичним вузьким місцем.
Стаття TACL 2024 року авторства Лю та ін. показує, що LLM працюють на 20 пунктів гірше з інформацією, що знаходиться посередині довгих контекстів — U-подібна деградація, яка стосується кожної протестованої моделі, включаючи Claude-1.3-100K — з конкретними наслідками для того, як RAG-пайплайни повинні впорядковувати знайдені уривки у фінансових та бухгалтерських додатках.
AD-LLM тестує GPT-4o та Llama 3.1 8B у трьох ролях виявлення аномалій — zero-shot детектор, інструмент доповнення даних та радник із вибору моделі — на п’яти наборах даних NLP; GPT-4o досягає AUROC 0,93–0,99 zero-shot, але вибір моделі на основі LLM залишається ненадійним, що має прямі наслідки для ШІ у фінансовому аудиті.
τ-bench показує, що топові LLM, такі як Claude 3.5 Sonnet, демонструють падіння з pass@1 (0,692) до pass@4 (0,462) у завданнях обслуговування клієнтів у ритейлі — «прірва послідовності», що має прямі наслідки для будь-якого агента із записом даних у гросбух Beancount.
ConvFinQA (EMNLP 2022) розширює FinQA до багатокрокових розмов на основі звітів про прибутки S&P 500, виявивши, що найкраща донавчена модель досягає точності виконання 68,9% проти 89,4% у людей-експертів — і цей показник падає до 52,4% у гібридних багатоаспектних розмовах, де моделі повинні переносити числовий контекст між різними фінансовими темами.
FinanceBench оцінює 16 конфігурацій ШІ на основі 10 231 запитання з реальних звітів SEC; RAG із спільним векторним сховищем дає правильні відповіді лише у 19% випадків, і навіть GPT-4-Turbo з використанням фрагмента-оракула досягає лише 85% точності. Це свідчить про те, що саме чисельні міркування, а не пошук даних, є основним обмеженням для корпоративного фінансового ШІ.
Самоузгодженість замінює жадібне декодування ланцюжка думок голосуванням більшістю за N вибраними шляхами міркування — підвищуючи точність GPT-3 на GSM8K на 17,9 відсоткових пунктів без донавчання — і безпосередньо застосовується до багатоетапних фінансових розрахунків, де одноразове виведення ВММ є ненадійним.