Перейти до основного вмісту
LLM

Все про LLM

89 статей
Large language model research with applications in financial tasks

FinRAGBench-V: Мультимодальний RAG із візуальним цитуванням у фінансовій сфері

FinRAGBench-V (EMNLP 2025) — це перший масштабний бенчмарк для мультимодального RAG із візуальним цитуванням у фінансах, що охоплює понад 112 тис. сторінок документів і 1394 анотованих людиною пар запитання-відповідь. Найкращі моделі досягають лише 20–61% повноти цитування на рівні блоків, а мультимодальний пошук перевершує текстовий майже на 50 відсоткових пунктів.

Чи можуть LLM-агенти бути фінансовими директорами? 132-місячна симуляція EnterpriseArena виявляє великий розрив

EnterpriseArena проводить 11 LLM через 132-місячну симуляцію фінансового директора, відстежуючи виживання, кінцеву оцінку та швидкість закриття звітного періоду. Лише Qwen3.5-9B виживає у 80% запусків; GPT-5.4 та DeepSeek-V3.1 показали 0%. Експерти-люди досягають 100% виживання з у 5 разів вищою кінцевою вартістю. Критичне вузьке місце: LLM пропускають звірку реєстрів у 80% випадків, діючи на основі застарілого фінансового стану.

WildToolBench: Чому жодна LLM не перевищує 15% точності сесії при реальному використанні інструментів

WildToolBench (ICLR 2026) оцінює 57 LLM на 1024 завданнях, сформованих на основі реальної поведінки користувачів — жодна модель не перевищує 15% точності сесії, при цьому основними режимами відмов є композиційна оркестрація, прихований намір та переходи між інструкціями.

Впевненість та калібрування LLM: Огляд того, що насправді показують дослідження

Систематичний огляд методів оцінки впевненості та калібрування LLM — підходів «білої скриньки» на основі логітів, SelfCheckGPT на основі узгодженості та семантичної ентропії — показує, що вербалізовані бали впевненості GPT-4 досягають лише ~62,7% AUROC, що ледь перевищує випадковість, з прямими наслідками для впровадження агентів, що враховують невизначеність, у сфері фінансів та бухгалтерського обліку.

JSONSchemaBench: Складність реальних схем порушує гарантії структурованого виводу LLM

JSONSchemaBench тестує 9 558 реальних схем JSON на шести фреймворках обмеженого декодування і виявляє, що складність схем призводить до падіння покриття з 86% на простих схемах до 3% на складних, причому XGrammar непомітно видає 38 невідповідних результатів, а жоден фреймворк не охоплює всі 45 категорій функцій JSON Schema.

FinMCP-Bench: Бенчмаркінг агентів LLM для реального використання фінансових інструментів під управлінням MCP

FinMCP-Bench оцінює шість моделей LLM на 613 реальних завданнях з використання фінансових інструментів на базі 65 серверів MCP — найкраща модель отримує 3,08% точних збігів у багатоходових завданнях, демонструючи 20-кратне падіння продуктивності при переході від одноінструментальних до багатоходових сценаріїв.

FinTrace: оцінка виклику інструментів LLM для фінансових завдань на рівні траєкторії

FinTrace тестує 13 LLM на 800 анотованих експертами траєкторіях фінансових завдань за 9 метриками, виявивши, що передові моделі демонструють якісний вибір інструментів (F1 ~0,9), але отримують лише 3,23/5 за використання інформації — етап, на якому агенти аналізують результати роботи інструментів.

FinToolBench: Оцінка агентів LLM на основі використання фінансових інструментів у реальних умовах

FinToolBench поєднує 760 активних фінансових інструментів API з 295 виконуваними запитами для тестування агентів LLM на реальних фінансових завданнях — виявивши, що консервативна частота викликів GPT-4o у 22,7% забезпечує вищу якість відповідей (CSS 0,670), ніж агресивна TIR Qwen3-8B у 87,1%, тоді як невідповідність намірів перевищує 50% у всіх протестованих моделях.

OmniEval: всебічний бенчмарк для оцінки RAG-систем у фінансовій сфері

OmniEval (EMNLP 2025) оцінює RAG-системи за 5 типами завдань × 16 фінансовими темами, використовуючи 11,4 тис. автоматично згенерованих тестових випадків. Найкращі системи демонструють лише 36% числової точності — це вагомий доказ того, що RAG-конвеєри потребують додаткових рівнів валідації перед записом у структуровані фінансові книги.

Огляд виявлення аномалій за допомогою LLM (NAACL 2025): сильна таксономія, відсутність охоплення табличних даних

Критичний аналіз огляду Сю та Діна (NAACL 2025) щодо виявлення аномалій та OOD на базі LLM — таксономія «виявлення проти генерації» витримує критику, але майже повна відсутність охоплення табличних даних означає, що фахівці з фінансового ШІ мають самостійно синтезувати ідеї з візуальних моделей.