Bean Labs Research Log

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

Передавання завдань з урахуванням невизначеності для агентів LLM: коли переходити від малих до великих моделей

ReDAct за замовчуванням запускає малу модель і переходить до дорогої лише тоді, коли перплексія на рівні токенів сигналізує про невизначеність, досягаючи 64% економії коштів порівняно з використанням лише GPT-5.2 при відповідній або вищій точності — це патерн, що безпосередньо застосовується для агентів категоризації транзакцій Beancount.

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: Відкрита платформа для програмних агентів ШІ та що вона означає для автоматизації фінансів

OpenHands — це платформа для агентів з ліцензією MIT та пісочницею Docker, де CodeAct досягає 26% на SWE-Bench Lite — протверезний бенчмарк, який визначає, що агенти ШІ можуть надійно робити сьогодні, і чому перші продуктивні впровадження у фінансах мають бути вузькоспрямованими, а не автономними.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Як LLM зазнають невдачі у міжперіодному та міжсуб'єктному фінансовому аналізі

Fin-RATE тестує 17 LLM на 7 500 парах питань та відповідей, відібраних експертами з 2 472 звітів SEC, виявляючи падіння точності на 18,60% при лонгітюдному відстеженні та зниження на 54 пункти для спеціалізованої на фінансах моделі Fin-R1 у міжсуб'єктних завданнях — при цьому конвеєр пошуку (retrieval), а не базова модель, є критичним вузьким місцем.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: реальні запити аналітиків виявили 74% розриву в повноті фінансових RAG-систем

FinDER тестує RAG на 5 703 реальних запитах аналітиків хедж-фондів до звітів 10-K компаній S&P 500; E5-Mistral досягає лише 25,95% повноти контексту, а запити з великою кількістю скорочень коштують 8,2 пункта точності — доказ того, що нормалізація запитів, а не кращі ембедінги, є першим виправленням для фінансових AI-конвеєрів.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Загублені посередині: упередженість щодо позиції в LLM та її вплив на ШІ у сфері фінансів

Стаття TACL 2024 року авторства Лю та ін. показує, що LLM працюють на 20 пунктів гірше з інформацією, що знаходиться посередині довгих контекстів — U-подібна деградація, яка стосується кожної протестованої моделі, включаючи Claude-1.3-100K — з конкретними наслідками для того, як RAG-пайплайни повинні впорядковувати знайдені уривки у фінансових та бухгалтерських додатках.

LLMAIMachine LearningData ScienceFraud DetectionAnalyticsAnomaly Detection

Бенчмарк AD-LLM: GPT-4o досягає 0.93+ AUROC Zero-Shot для виявлення аномалій у тексті

AD-LLM тестує GPT-4o та Llama 3.1 8B у трьох ролях виявлення аномалій — zero-shot детектор, інструмент доповнення даних та радник із вибору моделі — на п’яти наборах даних NLP; GPT-4o досягає AUROC 0,93–0,99 zero-shot, але вибір моделі на основі LLM залишається ненадійним, що має прямі наслідки для ШІ у фінансовому аудиті.

LLMAIMachine LearningFraud DetectionData ScienceAnomaly DetectionBeancount

CausalTAD: Каузальне впорядкування стовпців для виявлення аномалій у табличних даних за допомогою LLM

CausalTAD покращує виявлення аномалій у табличних даних на основі LLM шляхом перевпорядкування стовпців таблиці відповідно до каузальних залежностей перед серіалізацією, підвищуючи середній показник AUC-ROC з 0,803 до 0,834 порівняно з AnoLLM на тестах змішаного типу — з прямими наслідками для виявлення аномалій у структурованих даних бухгалтерських книг.

AILLMMachine LearningFraud DetectionData ScienceBeancountFinance

AnoLLM: тонке налаштування LLM для виявлення аномалій у табличних фінансових даних

AnoLLM (ICLR 2025) переосмислює виявлення табличних аномалій як оцінку щільності LLM — тонке налаштування на нормальних рядках і оцінювання за від’ємною логарифмічною правдоподібністю. Він перевершує класичні методи на наборах даних про шахрайство змішаного типу, але не має переваг на суто числових даних, що має реальне значення для виявлення аномалій у записах реєстрів Beancount.

LLMBeancountPlain-Text AccountingAIMachine LearningFinancial LiteracyDouble-EntryTransaction Validation

LLM отримують 2,3% за генерацію Beancount DSL: бенчмарк LLMFinLiteracy

Бенчмарк LLMFinLiteracy виявив, що п'ять моделей з відкритими вагами (~7 млрд параметрів) генерують повністю коректні транзакції Beancount лише у 2,3% випадків. Помилки зосереджені в бухгалтерській логіці, а не в синтаксисі, що вказує на зворотний зв'язок від компілятора як на критично важливий елемент для надійних агентів зворотного запису.

Знайдено посередині: Калібрування позиційного зміщення уваги покращує RAG з довгим контекстом

Latest articles

Передавання завдань з урахуванням невизначеності для агентів LLM: коли переходити від малих до великих моделей

OpenHands: Відкрита платформа для програмних агентів ШІ та що вона означає для автоматизації фінансів

Fin-RATE: Як LLM зазнають невдачі у міжперіодному та міжсуб'єктному фінансовому аналізі

FinDER: реальні запити аналітиків виявили 74% розриву в повноті фінансових RAG-систем

Загублені посередині: упередженість щодо позиції в LLM та її вплив на ШІ у сфері фінансів

Бенчмарк AD-LLM: GPT-4o досягає 0.93+ AUROC Zero-Shot для виявлення аномалій у тексті

CausalTAD: Каузальне впорядкування стовпців для виявлення аномалій у табличних даних за допомогою LLM

AnoLLM: тонке налаштування LLM для виявлення аномалій у табличних фінансових даних

LLM отримують 2,3% за генерацію Beancount DSL: бенчмарк LLMFinLiteracy

Почніть роботу з Beancount.io

Початок роботи

Функції

Спільнота

Юридична інформація