Beancount.io LogoBeancount.io
OpenHands: Відкрита платформа для програмних агентів ШІ та що вона означає для автоматизації фінансів
·mike

OpenHands: Відкрита платформа для програмних агентів ШІ та що вона означає для автоматизації фінансів

OpenHands — це платформа для агентів з ліцензією MIT та пісочницею Docker, де CodeAct досягає 26% на SWE-Bench Lite — протверезний бенчмарк, який визначає, що агенти ШІ можуть надійно робити сьогодні, і чому перші продуктивні впровадження у фінансах мають бути вузькоспрямованими, а не автономними.

ai
open-source
automation
llm
+4
Fin-RATE: Як LLM зазнають невдачі у міжперіодному та міжсуб'єктному фінансовому аналізі
·mike

Fin-RATE: Як LLM зазнають невдачі у міжперіодному та міжсуб'єктному фінансовому аналізі

Fin-RATE тестує 17 LLM на 7 500 парах питань та відповідей, відібраних експертами з 2 472 звітів SEC, виявляючи падіння точності на 18,60% при лонгітюдному відстеженні та зниження на 54 пункти для спеціалізованої на фінансах моделі Fin-R1 у міжсуб'єктних завданнях — при цьому конвеєр пошуку (retrieval), а не базова модель, є критичним вузьким місцем.

llm
ai
machine-learning
analytics
+3
FinDER: реальні запити аналітиків виявили 74% розриву в повноті фінансових RAG-систем
·mike

FinDER: реальні запити аналітиків виявили 74% розриву в повноті фінансових RAG-систем

FinDER тестує RAG на 5 703 реальних запитах аналітиків хедж-фондів до звітів 10-K компаній S&P 500; E5-Mistral досягає лише 25,95% повноти контексту, а запити з великою кількістю скорочень коштують 8,2 пункта точності — доказ того, що нормалізація запитів, а не кращі ембедінги, є першим виправленням для фінансових AI-конвеєрів.

ai
llm
machine-learning
finance
+3
Загублені посередині: упередженість щодо позиції в LLM та її вплив на ШІ у сфері фінансів
·mike

Загублені посередині: упередженість щодо позиції в LLM та її вплив на ШІ у сфері фінансів

Стаття TACL 2024 року авторства Лю та ін. показує, що LLM працюють на 20 пунктів гірше з інформацією, що знаходиться посередині довгих контекстів — U-подібна деградація, яка стосується кожної протестованої моделі, включаючи Claude-1.3-100K — з конкретними наслідками для того, як RAG-пайплайни повинні впорядковувати знайдені уривки у фінансових та бухгалтерських додатках.

llm
ai
machine-learning
data-science
+3
Бенчмарк AD-LLM: GPT-4o досягає 0.93+ AUROC Zero-Shot для виявлення аномалій у тексті
·mike

Бенчмарк AD-LLM: GPT-4o досягає 0.93+ AUROC Zero-Shot для виявлення аномалій у тексті

AD-LLM тестує GPT-4o та Llama 3.1 8B у трьох ролях виявлення аномалій — zero-shot детектор, інструмент доповнення даних та радник із вибору моделі — на п’яти наборах даних NLP; GPT-4o досягає AUROC 0,93–0,99 zero-shot, але вибір моделі на основі LLM залишається ненадійним, що має прямі наслідки для ШІ у фінансовому аудиті.

llm
ai
machine-learning
data-science
+3
CausalTAD: Каузальне впорядкування стовпців для виявлення аномалій у табличних даних за допомогою LLM
·mike

CausalTAD: Каузальне впорядкування стовпців для виявлення аномалій у табличних даних за допомогою LLM

CausalTAD покращує виявлення аномалій у табличних даних на основі LLM шляхом перевпорядкування стовпців таблиці відповідно до каузальних залежностей перед серіалізацією, підвищуючи середній показник AUC-ROC з 0,803 до 0,834 порівняно з AnoLLM на тестах змішаного типу — з прямими наслідками для виявлення аномалій у структурованих даних бухгалтерських книг.

llm
ai
machine-learning
fraud-detection
+3
AnoLLM: тонке налаштування LLM для виявлення аномалій у табличних фінансових даних
·mike

AnoLLM: тонке налаштування LLM для виявлення аномалій у табличних фінансових даних

AnoLLM (ICLR 2025) переосмислює виявлення табличних аномалій як оцінку щільності LLM — тонке налаштування на нормальних рядках і оцінювання за від’ємною логарифмічною правдоподібністю. Він перевершує класичні методи на наборах даних про шахрайство змішаного типу, але не має переваг на суто числових даних, що має реальне значення для виявлення аномалій у записах реєстрів Beancount.

ai
llm
machine-learning
fraud-detection
+3
LLM отримують 2,3% за генерацію Beancount DSL: бенчмарк LLMFinLiteracy
·mike

LLM отримують 2,3% за генерацію Beancount DSL: бенчмарк LLMFinLiteracy

Бенчмарк LLMFinLiteracy виявив, що п'ять моделей з відкритими вагами (~7 млрд параметрів) генерують повністю коректні транзакції Beancount лише у 2,3% випадків. Помилки зосереджені в бухгалтерській логіці, а не в синтаксисі, що вказує на зворотний зв'язок від компілятора як на критично важливий елемент для надійних агентів зворотного запису.

llm
beancount
plain-text-accounting
ai
+4
TableMaster: адаптивне міркування для розуміння таблиць за допомогою LLM
·mike

TableMaster: адаптивне міркування для розуміння таблиць за допомогою LLM

TableMaster — це конвеєр, що базується виключно на промптингу, який досягає 78,13% на WikiTQ з GPT-4o-mini — на 13 пунктів вище, ніж Chain-of-Table — завдяки поєднанню вилучення фокусної таблиці (table-of-focus), семантичної вербалізації та адаптивного перемикання між текстовим і символічним міркуванням. Ось що ця архітектура означає для ШІ-агентів, які працюють із фінансовими книгами, такими як Beancount.

ai
llm
machine-learning
beancount
+4
Виявлення аномалій за методом Zero-Shot за допомогою LLM: Як GPT-4 працює з табличними даними
·mike

Виявлення аномалій за методом Zero-Shot за допомогою LLM: Як GPT-4 працює з табличними даними

GPT-4 досягає середнього показника AUROC 74,1 у бенчмарку ODDS без донавчання — майже наздоганяючи класичний базовий метод ECOD з результатом 75,5 — проте зазнає невдачі на багатовимірних аномаліях та наборах даних з високою дисперсією; критичний огляд виявлення аномалій за допомогою LLM без навчання та його наслідки для автоматизованого аудиту книги Beancount.

ai
llm
fraud-detection
machine-learning
+3
DocFinQA: Фінансове міркування в довгому контексті на повних звітах SEC
·mike

DocFinQA: Фінансове міркування в довгому контексті на повних звітах SEC

DocFinQA замінює відібрані уривки FinQA довжиною 700 слів на повні звіти SEC обсягом 123 000 слів, показуючи 175-кратне збільшення контексту, що майже вдвічі знижує точність GPT-4 на довгих документах. Конвеєри пошуку не можуть знайти потрібний фрагмент у 45% випадків при HR@3 — і моделі з довгим контекстом не є заміною.

ai
llm
machine-learning
finance
+3
TheAgentCompany: Бенчмаркінг агентів LLM на реальних корпоративних завданнях
·mike

TheAgentCompany: Бенчмаркінг агентів LLM на реальних корпоративних завданнях

TheAgentCompany тестує 175 реальних робочих завдань у симульованій інтрамережі з GitLab, OwnCloud та RocketChat. Найкраща модель (Gemini-2.5-Pro) виконує лише 30% завдань вартістю 4 долари за кожне, що свідчить про те, що автономні агенти все ще далекі від життєздатності для робочих процесів у бухгалтерії та фінансах.

ai
llm
automation
machine-learning
+3
Показано 13–24 з 87 записів