Mike Thrift

Marketing Manager

July 12, 2026·mike

FinRAGBench-V: Мультимодальний RAG із візуальним цитуванням у фінансовій сфері

FinRAGBench-V (EMNLP 2025) — це перший масштабний бенчмарк для мультимодального RAG із візуальним цитуванням у фінансах, що охоплює понад 112 тис. сторінок документів і 1394 анотованих людиною пар запитання-відповідь. Найкращі моделі досягають лише 20–61% повноти цитування на рівні блоків, а мультимодальний пошук перевершує текстовий майже на 50 відсоткових пунктів.

llm

machine-learning

July 11, 2026·mike

Чи можуть LLM-агенти бути фінансовими директорами? 132-місячна симуляція EnterpriseArena виявляє великий розрив

EnterpriseArena проводить 11 LLM через 132-місячну симуляцію фінансового директора, відстежуючи виживання, кінцеву оцінку та швидкість закриття звітного періоду. Лише Qwen3.5-9B виживає у 80% запусків; GPT-5.4 та DeepSeek-V3.1 показали 0%. Експерти-люди досягають 100% виживання з у 5 разів вищою кінцевою вартістю. Критичне вузьке місце: LLM пропускають звірку реєстрів у 80% випадків, діючи на основі застарілого фінансового стану.

llm

automation

July 10, 2026·mike

WildToolBench: Чому жодна LLM не перевищує 15% точності сесії при реальному використанні інструментів

WildToolBench (ICLR 2026) оцінює 57 LLM на 1024 завданнях, сформованих на основі реальної поведінки користувачів — жодна модель не перевищує 15% точності сесії, при цьому основними режимами відмов є композиційна оркестрація, прихований намір та переходи між інструкціями.

llm

automation

July 9, 2026·mike

Впевненість та калібрування LLM: Огляд того, що насправді показують дослідження

Систематичний огляд методів оцінки впевненості та калібрування LLM — підходів «білої скриньки» на основі логітів, SelfCheckGPT на основі узгодженості та семантичної ентропії — показує, що вербалізовані бали впевненості GPT-4 досягають лише ~62,7% AUROC, що ледь перевищує випадковість, з прямими наслідками для впровадження агентів, що враховують невизначеність, у сфері фінансів та бухгалтерського обліку.

llm

machine-learning

July 8, 2026·mike

JSONSchemaBench: Складність реальних схем порушує гарантії структурованого виводу LLM

JSONSchemaBench тестує 9 558 реальних схем JSON на шести фреймворках обмеженого декодування і виявляє, що складність схем призводить до падіння покриття з 86% на простих схемах до 3% на складних, причому XGrammar непомітно видає 38 невідповідних результатів, а жоден фреймворк не охоплює всі 45 категорій функцій JSON Schema.

llm

machine-learning

July 7, 2026·mike

FinMCP-Bench: Бенчмаркінг агентів LLM для реального використання фінансових інструментів під управлінням MCP

FinMCP-Bench оцінює шість моделей LLM на 613 реальних завданнях з використання фінансових інструментів на базі 65 серверів MCP — найкраща модель отримує 3,08% точних збігів у багатоходових завданнях, демонструючи 20-кратне падіння продуктивності при переході від одноінструментальних до багатоходових сценаріїв.

llm

automation

July 6, 2026·mike

FinTrace: оцінка виклику інструментів LLM для фінансових завдань на рівні траєкторії

FinTrace тестує 13 LLM на 800 анотованих експертами траєкторіях фінансових завдань за 9 метриками, виявивши, що передові моделі демонструють якісний вибір інструментів (F1 ~0,9), але отримують лише 3,23/5 за використання інформації — етап, на якому агенти аналізують результати роботи інструментів.

llm

finance

July 5, 2026·mike

FinToolBench: Оцінка агентів LLM на основі використання фінансових інструментів у реальних умовах

FinToolBench поєднує 760 активних фінансових інструментів API з 295 виконуваними запитами для тестування агентів LLM на реальних фінансових завданнях — виявивши, що консервативна частота викликів GPT-4o у 22,7% забезпечує вищу якість відповідей (CSS 0,670), ніж агресивна TIR Qwen3-8B у 87,1%, тоді як невідповідність намірів перевищує 50% у всіх протестованих моделях.

llm

automation

July 4, 2026·mike

OmniEval: всебічний бенчмарк для оцінки RAG-систем у фінансовій сфері

OmniEval (EMNLP 2025) оцінює RAG-системи за 5 типами завдань × 16 фінансовими темами, використовуючи 11,4 тис. автоматично згенерованих тестових випадків. Найкращі системи демонструють лише 36% числової точності — це вагомий доказ того, що RAG-конвеєри потребують додаткових рівнів валідації перед записом у структуровані фінансові книги.

machine-learning

llm

July 3, 2026·mike

Огляд виявлення аномалій за допомогою LLM (NAACL 2025): сильна таксономія, відсутність охоплення табличних даних

Критичний аналіз огляду Сю та Діна (NAACL 2025) щодо виявлення аномалій та OOD на базі LLM — таксономія «виявлення проти генерації» витримує критику, але майже повна відсутність охоплення табличних даних означає, що фахівці з фінансового ШІ мають самостійно синтезувати ідеї з візуальних моделей.

llm

machine-learning

July 2, 2026·mike

Знайдено посередині: Калібрування позиційного зміщення уваги покращує RAG з довгим контекстом

Калібрування під час виведення без донавчання віднімає позиційне зміщення від ваг уваги LLM, відновлюючи до 15 відсоткових пунктів точності RAG, коли знайдені документи приховані в середині контексту — і що це означає для фінансових конвеєрів агентів.

llm

machine-learning

July 1, 2026·mike

Передавання завдань з урахуванням невизначеності для агентів LLM: коли переходити від малих до великих моделей

ReDAct за замовчуванням запускає малу модель і переходить до дорогої лише тоді, коли перплексія на рівні токенів сигналізує про невизначеність, досягаючи 64% економії коштів порівняно з використанням лише GPT-5.2 при відповідній або вищій точності — це патерн, що безпосередньо застосовується для агентів категоризації транзакцій Beancount.

llm

automation

Показано 1–12 з 87 записів

1 / 8Наступна