Mike Thrift
Marketing Manager
OpenHands: Відкрита платформа для програмних агентів ШІ та що вона означає для автоматизації фінансів
OpenHands — це платформа для агентів з ліцензією MIT та пісочницею Docker, де CodeAct досягає 26% на SWE-Bench Lite — протверезний бенчмарк, який визначає, що агенти ШІ можуть надійно робити сьогодні, і чому перші продуктивні впровадження у фінансах мають бути вузькоспрямованими, а не автономними.
Fin-RATE: Як LLM зазнають невдачі у міжперіодному та міжсуб'єктному фінансовому аналізі
Fin-RATE тестує 17 LLM на 7 500 парах питань та відповідей, відібраних експертами з 2 472 звітів SEC, виявляючи падіння точності на 18,60% при лонгітюдному відстеженні та зниження на 54 пункти для спеціалізованої на фінансах моделі Fin-R1 у міжсуб'єктних завданнях — при цьому конвеєр пошуку (retrieval), а не базова модель, є критичним вузьким місцем.
FinDER: реальні запити аналітиків виявили 74% розриву в повноті фінансових RAG-систем
FinDER тестує RAG на 5 703 реальних запитах аналітиків хедж-фондів до звітів 10-K компаній S&P 500; E5-Mistral досягає лише 25,95% повноти контексту, а запити з великою кількістю скорочень коштують 8,2 пункта точності — доказ того, що нормалізація запитів, а не кращі ембедінги, є першим виправленням для фінансових AI-конвеєрів.
Загублені посередині: упередженість щодо позиції в LLM та її вплив на ШІ у сфері фінансів
Стаття TACL 2024 року авторства Лю та ін. показує, що LLM працюють на 20 пунктів гірше з інформацією, що знаходиться посередині довгих контекстів — U-подібна деградація, яка стосується кожної протестованої моделі, включаючи Claude-1.3-100K — з конкретними наслідками для того, як RAG-пайплайни повинні впорядковувати знайдені уривки у фінансових та бухгалтерських додатках.
Бенчмарк AD-LLM: GPT-4o досягає 0.93+ AUROC Zero-Shot для виявлення аномалій у тексті
AD-LLM тестує GPT-4o та Llama 3.1 8B у трьох ролях виявлення аномалій — zero-shot детектор, інструмент доповнення даних та радник із вибору моделі — на п’яти наборах даних NLP; GPT-4o досягає AUROC 0,93–0,99 zero-shot, але вибір моделі на основі LLM залишається ненадійним, що має прямі наслідки для ШІ у фінансовому аудиті.
CausalTAD: Каузальне впорядкування стовпців для виявлення аномалій у табличних даних за допомогою LLM
CausalTAD покращує виявлення аномалій у табличних даних на основі LLM шляхом перевпорядкування стовпців таблиці відповідно до каузальних залежностей перед серіалізацією, підвищуючи середній показник AUC-ROC з 0,803 до 0,834 порівняно з AnoLLM на тестах змішаного типу — з прямими наслідками для виявлення аномалій у структурованих даних бухгалтерських книг.
AnoLLM: тонке налаштування LLM для виявлення аномалій у табличних фінансових даних
AnoLLM (ICLR 2025) переосмислює виявлення табличних аномалій як оцінку щільності LLM — тонке налаштування на нормальних рядках і оцінювання за від’ємною логарифмічною правдоподібністю. Він перевершує класичні методи на наборах даних про шахрайство змішаного типу, але не має переваг на суто числових даних, що має реальне значення для виявлення аномалій у записах реєстрів Beancount.
LLM отримують 2,3% за генерацію Beancount DSL: бенчмарк LLMFinLiteracy
Бенчмарк LLMFinLiteracy виявив, що п'ять моделей з відкритими вагами (~7 млрд параметрів) генерують повністю коректні транзакції Beancount лише у 2,3% випадків. Помилки зосереджені в бухгалтерській логіці, а не в синтаксисі, що вказує на зворотний зв'язок від компілятора як на критично важливий елемент для надійних агентів зворотного запису.
TableMaster: адаптивне міркування для розуміння таблиць за допомогою LLM
TableMaster — це конвеєр, що базується виключно на промптингу, який досягає 78,13% на WikiTQ з GPT-4o-mini — на 13 пунктів вище, ніж Chain-of-Table — завдяки поєднанню вилучення фокусної таблиці (table-of-focus), семантичної вербалізації та адаптивного перемикання між текстовим і символічним міркуванням. Ось що ця архітектура означає для ШІ-агентів, які працюють із фінансовими книгами, такими як Beancount.
Виявлення аномалій за методом Zero-Shot за допомогою LLM: Як GPT-4 працює з табличними даними
GPT-4 досягає середнього показника AUROC 74,1 у бенчмарку ODDS без донавчання — майже наздоганяючи класичний базовий метод ECOD з результатом 75,5 — проте зазнає невдачі на багатовимірних аномаліях та наборах даних з високою дисперсією; критичний огляд виявлення аномалій за допомогою LLM без навчання та його наслідки для автоматизованого аудиту книги Beancount.
DocFinQA: Фінансове міркування в довгому контексті на повних звітах SEC
DocFinQA замінює відібрані уривки FinQA довжиною 700 слів на повні звіти SEC обсягом 123 000 слів, показуючи 175-кратне збільшення контексту, що майже вдвічі знижує точність GPT-4 на довгих документах. Конвеєри пошуку не можуть знайти потрібний фрагмент у 45% випадків при HR@3 — і моделі з довгим контекстом не є заміною.
TheAgentCompany: Бенчмаркінг агентів LLM на реальних корпоративних завданнях
TheAgentCompany тестує 175 реальних робочих завдань у симульованій інтрамережі з GitLab, OwnCloud та RocketChat. Найкраща модель (Gemini-2.5-Pro) виконує лише 30% завдань вартістю 4 долари за кожне, що свідчить про те, що автономні агенти все ще далекі від життєздатності для робочих процесів у бухгалтерії та фінансах.