Mike Thrift

Marketing Manager

June 30, 2026·mike

OpenHands: Відкрита платформа для програмних агентів ШІ та що вона означає для автоматизації фінансів

OpenHands — це платформа для агентів з ліцензією MIT та пісочницею Docker, де CodeAct досягає 26% на SWE-Bench Lite — протверезний бенчмарк, який визначає, що агенти ШІ можуть надійно робити сьогодні, і чому перші продуктивні впровадження у фінансах мають бути вузькоспрямованими, а не автономними.

open-source

automation

June 29, 2026·mike

Fin-RATE: Як LLM зазнають невдачі у міжперіодному та міжсуб'єктному фінансовому аналізі

Fin-RATE тестує 17 LLM на 7 500 парах питань та відповідей, відібраних експертами з 2 472 звітів SEC, виявляючи падіння точності на 18,60% при лонгітюдному відстеженні та зниження на 54 пункти для спеціалізованої на фінансах моделі Fin-R1 у міжсуб'єктних завданнях — при цьому конвеєр пошуку (retrieval), а не базова модель, є критичним вузьким місцем.

llm

machine-learning

June 28, 2026·mike

FinDER: реальні запити аналітиків виявили 74% розриву в повноті фінансових RAG-систем

FinDER тестує RAG на 5 703 реальних запитах аналітиків хедж-фондів до звітів 10-K компаній S&P 500; E5-Mistral досягає лише 25,95% повноти контексту, а запити з великою кількістю скорочень коштують 8,2 пункта точності — доказ того, що нормалізація запитів, а не кращі ембедінги, є першим виправленням для фінансових AI-конвеєрів.

llm

machine-learning

June 27, 2026·mike

Загублені посередині: упередженість щодо позиції в LLM та її вплив на ШІ у сфері фінансів

Стаття TACL 2024 року авторства Лю та ін. показує, що LLM працюють на 20 пунктів гірше з інформацією, що знаходиться посередині довгих контекстів — U-подібна деградація, яка стосується кожної протестованої моделі, включаючи Claude-1.3-100K — з конкретними наслідками для того, як RAG-пайплайни повинні впорядковувати знайдені уривки у фінансових та бухгалтерських додатках.

llm

machine-learning

June 26, 2026·mike

Бенчмарк AD-LLM: GPT-4o досягає 0.93+ AUROC Zero-Shot для виявлення аномалій у тексті

AD-LLM тестує GPT-4o та Llama 3.1 8B у трьох ролях виявлення аномалій — zero-shot детектор, інструмент доповнення даних та радник із вибору моделі — на п’яти наборах даних NLP; GPT-4o досягає AUROC 0,93–0,99 zero-shot, але вибір моделі на основі LLM залишається ненадійним, що має прямі наслідки для ШІ у фінансовому аудиті.

llm

machine-learning

June 25, 2026·mike

CausalTAD: Каузальне впорядкування стовпців для виявлення аномалій у табличних даних за допомогою LLM

CausalTAD покращує виявлення аномалій у табличних даних на основі LLM шляхом перевпорядкування стовпців таблиці відповідно до каузальних залежностей перед серіалізацією, підвищуючи середній показник AUC-ROC з 0,803 до 0,834 порівняно з AnoLLM на тестах змішаного типу — з прямими наслідками для виявлення аномалій у структурованих даних бухгалтерських книг.

llm

machine-learning

June 24, 2026·mike

AnoLLM: тонке налаштування LLM для виявлення аномалій у табличних фінансових даних

AnoLLM (ICLR 2025) переосмислює виявлення табличних аномалій як оцінку щільності LLM — тонке налаштування на нормальних рядках і оцінювання за від’ємною логарифмічною правдоподібністю. Він перевершує класичні методи на наборах даних про шахрайство змішаного типу, але не має переваг на суто числових даних, що має реальне значення для виявлення аномалій у записах реєстрів Beancount.

llm

machine-learning

June 23, 2026·mike

LLM отримують 2,3% за генерацію Beancount DSL: бенчмарк LLMFinLiteracy

Бенчмарк LLMFinLiteracy виявив, що п'ять моделей з відкритими вагами (~7 млрд параметрів) генерують повністю коректні транзакції Beancount лише у 2,3% випадків. Помилки зосереджені в бухгалтерській логіці, а не в синтаксисі, що вказує на зворотний зв'язок від компілятора як на критично важливий елемент для надійних агентів зворотного запису.

llm

beancount

plain-text-accounting

June 22, 2026·mike

TableMaster: адаптивне міркування для розуміння таблиць за допомогою LLM

TableMaster — це конвеєр, що базується виключно на промптингу, який досягає 78,13% на WikiTQ з GPT-4o-mini — на 13 пунктів вище, ніж Chain-of-Table — завдяки поєднанню вилучення фокусної таблиці (table-of-focus), семантичної вербалізації та адаптивного перемикання між текстовим і символічним міркуванням. Ось що ця архітектура означає для ШІ-агентів, які працюють із фінансовими книгами, такими як Beancount.

llm

machine-learning

June 21, 2026·mike

Виявлення аномалій за методом Zero-Shot за допомогою LLM: Як GPT-4 працює з табличними даними

GPT-4 досягає середнього показника AUROC 74,1 у бенчмарку ODDS без донавчання — майже наздоганяючи класичний базовий метод ECOD з результатом 75,5 — проте зазнає невдачі на багатовимірних аномаліях та наборах даних з високою дисперсією; критичний огляд виявлення аномалій за допомогою LLM без навчання та його наслідки для автоматизованого аудиту книги Beancount.

llm

fraud-detection

June 20, 2026·mike

DocFinQA: Фінансове міркування в довгому контексті на повних звітах SEC

DocFinQA замінює відібрані уривки FinQA довжиною 700 слів на повні звіти SEC обсягом 123 000 слів, показуючи 175-кратне збільшення контексту, що майже вдвічі знижує точність GPT-4 на довгих документах. Конвеєри пошуку не можуть знайти потрібний фрагмент у 45% випадків при HR@3 — і моделі з довгим контекстом не є заміною.

llm

machine-learning

June 19, 2026·mike

TheAgentCompany: Бенчмаркінг агентів LLM на реальних корпоративних завданнях

TheAgentCompany тестує 175 реальних робочих завдань у симульованій інтрамережі з GitLab, OwnCloud та RocketChat. Найкраща модель (Gemini-2.5-Pro) виконує лише 30% завдань вартістю 4 долари за кожне, що свідчить про те, що автономні агенти все ще далекі від життєздатності для робочих процесів у бухгалтерії та фінансах.

llm

automation

Показано 13–24 з 87 записів

Попередня2 / 8Наступна