Перейти до основного вмісту
Data Science

Все про Data Science

40 статей
Data science methods applied to financial datasets and accounting workflows

FinRAGBench-V: Мультимодальний RAG із візуальним цитуванням у фінансовій сфері

FinRAGBench-V (EMNLP 2025) — це перший масштабний бенчмарк для мультимодального RAG із візуальним цитуванням у фінансах, що охоплює понад 112 тис. сторінок документів і 1394 анотованих людиною пар запитання-відповідь. Найкращі моделі досягають лише 20–61% повноти цитування на рівні блоків, а мультимодальний пошук перевершує текстовий майже на 50 відсоткових пунктів.

WildToolBench: Чому жодна LLM не перевищує 15% точності сесії при реальному використанні інструментів

WildToolBench (ICLR 2026) оцінює 57 LLM на 1024 завданнях, сформованих на основі реальної поведінки користувачів — жодна модель не перевищує 15% точності сесії, при цьому основними режимами відмов є композиційна оркестрація, прихований намір та переходи між інструкціями.

Впевненість та калібрування LLM: Огляд того, що насправді показують дослідження

Систематичний огляд методів оцінки впевненості та калібрування LLM — підходів «білої скриньки» на основі логітів, SelfCheckGPT на основі узгодженості та семантичної ентропії — показує, що вербалізовані бали впевненості GPT-4 досягають лише ~62,7% AUROC, що ледь перевищує випадковість, з прямими наслідками для впровадження агентів, що враховують невизначеність, у сфері фінансів та бухгалтерського обліку.

FinToolBench: Оцінка агентів LLM на основі використання фінансових інструментів у реальних умовах

FinToolBench поєднує 760 активних фінансових інструментів API з 295 виконуваними запитами для тестування агентів LLM на реальних фінансових завданнях — виявивши, що консервативна частота викликів GPT-4o у 22,7% забезпечує вищу якість відповідей (CSS 0,670), ніж агресивна TIR Qwen3-8B у 87,1%, тоді як невідповідність намірів перевищує 50% у всіх протестованих моделях.

OmniEval: всебічний бенчмарк для оцінки RAG-систем у фінансовій сфері

OmniEval (EMNLP 2025) оцінює RAG-системи за 5 типами завдань × 16 фінансовими темами, використовуючи 11,4 тис. автоматично згенерованих тестових випадків. Найкращі системи демонструють лише 36% числової точності — це вагомий доказ того, що RAG-конвеєри потребують додаткових рівнів валідації перед записом у структуровані фінансові книги.

Огляд виявлення аномалій за допомогою LLM (NAACL 2025): сильна таксономія, відсутність охоплення табличних даних

Критичний аналіз огляду Сю та Діна (NAACL 2025) щодо виявлення аномалій та OOD на базі LLM — таксономія «виявлення проти генерації» витримує критику, але майже повна відсутність охоплення табличних даних означає, що фахівці з фінансового ШІ мають самостійно синтезувати ідеї з візуальних моделей.

Знайдено посередині: Калібрування позиційного зміщення уваги покращує RAG з довгим контекстом

Калібрування під час виведення без донавчання віднімає позиційне зміщення від ваг уваги LLM, відновлюючи до 15 відсоткових пунктів точності RAG, коли знайдені документи приховані в середині контексту — і що це означає для фінансових конвеєрів агентів.

Fin-RATE: Як LLM зазнають невдачі у міжперіодному та міжсуб'єктному фінансовому аналізі

Fin-RATE тестує 17 LLM на 7 500 парах питань та відповідей, відібраних експертами з 2 472 звітів SEC, виявляючи падіння точності на 18,60% при лонгітюдному відстеженні та зниження на 54 пункти для спеціалізованої на фінансах моделі Fin-R1 у міжсуб'єктних завданнях — при цьому конвеєр пошуку (retrieval), а не базова модель, є критичним вузьким місцем.

FinDER: реальні запити аналітиків виявили 74% розриву в повноті фінансових RAG-систем

FinDER тестує RAG на 5 703 реальних запитах аналітиків хедж-фондів до звітів 10-K компаній S&P 500; E5-Mistral досягає лише 25,95% повноти контексту, а запити з великою кількістю скорочень коштують 8,2 пункта точності — доказ того, що нормалізація запитів, а не кращі ембедінги, є першим виправленням для фінансових AI-конвеєрів.

Загублені посередині: упередженість щодо позиції в LLM та її вплив на ШІ у сфері фінансів

Стаття TACL 2024 року авторства Лю та ін. показує, що LLM працюють на 20 пунктів гірше з інформацією, що знаходиться посередині довгих контекстів — U-подібна деградація, яка стосується кожної протестованої моделі, включаючи Claude-1.3-100K — з конкретними наслідками для того, як RAG-пайплайни повинні впорядковувати знайдені уривки у фінансових та бухгалтерських додатках.