Mike Thrift
Marketing Manager
FinRAGBench-V: Мультимодальний RAG із візуальним цитуванням у фінансовій сфері
FinRAGBench-V (EMNLP 2025) — це перший масштабний бенчмарк для мультимодального RAG із візуальним цитуванням у фінансах, що охоплює понад 112 тис. сторінок документів і 1394 анотованих людиною пар запитання-відповідь. Найкращі моделі досягають лише 20–61% повноти цитування на рівні блоків, а мультимодальний пошук перевершує текстовий майже на 50 відсоткових пунктів.
Чи можуть LLM-агенти бути фінансовими директорами? 132-місячна симуляція EnterpriseArena виявляє великий розрив
EnterpriseArena проводить 11 LLM через 132-місячну симуляцію фінансового директора, відстежуючи виживання, кінцеву оцінку та швидкість закриття звітного періоду. Лише Qwen3.5-9B виживає у 80% запусків; GPT-5.4 та DeepSeek-V3.1 показали 0%. Експерти-люди досягають 100% виживання з у 5 разів вищою кінцевою вартістю. Критичне вузьке місце: LLM пропускають звірку реєстрів у 80% випадків, діючи на основі застарілого фінансового стану.
WildToolBench: Чому жодна LLM не перевищує 15% точності сесії при реальному використанні інструментів
WildToolBench (ICLR 2026) оцінює 57 LLM на 1024 завданнях, сформованих на основі реальної поведінки користувачів — жодна модель не перевищує 15% точності сесії, при цьому основними режимами відмов є композиційна оркестрація, прихований намір та переходи між інструкціями.
Впевненість та калібрування LLM: Огляд того, що насправді показують дослідження
Систематичний огляд методів оцінки впевненості та калібрування LLM — підходів «білої скриньки» на основі логітів, SelfCheckGPT на основі узгодженості та семантичної ентропії — показує, що вербалізовані бали впевненості GPT-4 досягають лише ~62,7% AUROC, що ледь перевищує випадковість, з прямими наслідками для впровадження агентів, що враховують невизначеність, у сфері фінансів та бухгалтерського обліку.
JSONSchemaBench: Складність реальних схем порушує гарантії структурованого виводу LLM
JSONSchemaBench тестує 9 558 реальних схем JSON на шести фреймворках обмеженого декодування і виявляє, що складність схем призводить до падіння покриття з 86% на простих схемах до 3% на складних, причому XGrammar непомітно видає 38 невідповідних результатів, а жоден фреймворк не охоплює всі 45 категорій функцій JSON Schema.
FinMCP-Bench: Бенчмаркінг агентів LLM для реального використання фінансових інструментів під управлінням MCP
FinMCP-Bench оцінює шість моделей LLM на 613 реальних завданнях з використання фінансових інструментів на базі 65 серверів MCP — найкраща модель отримує 3,08% точних збігів у багатоходових завданнях, демонструючи 20-кратне падіння продуктивності при переході від одноінструментальних до багатоходових сценаріїв.
FinTrace: оцінка виклику інструментів LLM для фінансових завдань на рівні траєкторії
FinTrace тестує 13 LLM на 800 анотованих експертами траєкторіях фінансових завдань за 9 метриками, виявивши, що передові моделі демонструють якісний вибір інструментів (F1 ~0,9), але отримують лише 3,23/5 за використання інформації — етап, на якому агенти аналізують результати роботи інструментів.
FinToolBench: Оцінка агентів LLM на основі використання фінансових інструментів у реальних умовах
FinToolBench поєднує 760 активних фінансових інструментів API з 295 виконуваними запитами для тестування агентів LLM на реальних фінансових завданнях — виявивши, що консервативна частота викликів GPT-4o у 22,7% забезпечує вищу якість відповідей (CSS 0,670), ніж агресивна TIR Qwen3-8B у 87,1%, тоді як невідповідність намірів перевищує 50% у всіх протестованих моделях.
OmniEval: всебічний бенчмарк для оцінки RAG-систем у фінансовій сфері
OmniEval (EMNLP 2025) оцінює RAG-системи за 5 типами завдань × 16 фінансовими темами, використовуючи 11,4 тис. автоматично згенерованих тестових випадків. Найкращі системи демонструють лише 36% числової точності — це вагомий доказ того, що RAG-конвеєри потребують додаткових рівнів валідації перед записом у структуровані фінансові книги.
Огляд виявлення аномалій за допомогою LLM (NAACL 2025): сильна таксономія, відсутність охоплення табличних даних
Критичний аналіз огляду Сю та Діна (NAACL 2025) щодо виявлення аномалій та OOD на базі LLM — таксономія «виявлення проти генерації» витримує критику, але майже повна відсутність охоплення табличних даних означає, що фахівці з фінансового ШІ мають самостійно синтезувати ідеї з візуальних моделей.
Знайдено посередині: Калібрування позиційного зміщення уваги покращує RAG з довгим контекстом
Калібрування під час виведення без донавчання віднімає позиційне зміщення від ваг уваги LLM, відновлюючи до 15 відсоткових пунктів точності RAG, коли знайдені документи приховані в середині контексту — і що це означає для фінансових конвеєрів агентів.
Передавання завдань з урахуванням невизначеності для агентів LLM: коли переходити від малих до великих моделей
ReDAct за замовчуванням запускає малу модель і переходить до дорогої лише тоді, коли перплексія на рівні токенів сигналізує про невизначеність, досягаючи 64% економії коштів порівняно з використанням лише GPT-5.2 при відповідній або вищій точності — це патерн, що безпосередньо застосовується для агентів категоризації транзакцій Beancount.