35 записів з тегом "Finance"

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: Мультимодальний RAG із візуальним цитуванням у фінансовій сфері

FinRAGBench-V (EMNLP 2025) — це перший масштабний бенчмарк для мультимодального RAG із візуальним цитуванням у фінансах, що охоплює понад 112 тис. сторінок документів і 1394 анотованих людиною пар запитання-відповідь. Найкращі моделі досягають лише 20–61% повноти цитування на рівні блоків, а мультимодальний пошук перевершує текстовий майже на 50 відсоткових пунктів.

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

Впевненість та калібрування LLM: Огляд того, що насправді показують дослідження

Систематичний огляд методів оцінки впевненості та калібрування LLM — підходів «білої скриньки» на основі логітів, SelfCheckGPT на основі узгодженості та семантичної ентропії — показує, що вербалізовані бали впевненості GPT-4 досягають лише ~62,7% AUROC, що ледь перевищує випадковість, з прямими наслідками для впровадження агентів, що враховують невизначеність, у сфері фінансів та бухгалтерського обліку.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace: оцінка виклику інструментів LLM для фінансових завдань на рівні траєкторії

FinTrace тестує 13 LLM на 800 анотованих експертами траєкторіях фінансових завдань за 9 метриками, виявивши, що передові моделі демонструють якісний вибір інструментів (F1 ~0,9), але отримують лише 3,23/5 за використання інформації — етап, на якому агенти аналізують результати роботи інструментів.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: всебічний бенчмарк для оцінки RAG-систем у фінансовій сфері

OmniEval (EMNLP 2025) оцінює RAG-системи за 5 типами завдань × 16 фінансовими темами, використовуючи 11,4 тис. автоматично згенерованих тестових випадків. Найкращі системи демонструють лише 36% числової точності — це вагомий доказ того, що RAG-конвеєри потребують додаткових рівнів валідації перед записом у структуровані фінансові книги.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: реальні запити аналітиків виявили 74% розриву в повноті фінансових RAG-систем

FinDER тестує RAG на 5 703 реальних запитах аналітиків хедж-фондів до звітів 10-K компаній S&P 500; E5-Mistral досягає лише 25,95% повноти контексту, а запити з великою кількістю скорочень коштують 8,2 пункта точності — доказ того, що нормалізація запитів, а не кращі ембедінги, є першим виправленням для фінансових AI-конвеєрів.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Загублені посередині: упередженість щодо позиції в LLM та її вплив на ШІ у сфері фінансів

Стаття TACL 2024 року авторства Лю та ін. показує, що LLM працюють на 20 пунктів гірше з інформацією, що знаходиться посередині довгих контекстів — U-подібна деградація, яка стосується кожної протестованої моделі, включаючи Claude-1.3-100K — з конкретними наслідками для того, як RAG-пайплайни повинні впорядковувати знайдені уривки у фінансових та бухгалтерських додатках.

AILLMMachine LearningFraud DetectionData ScienceBeancountFinance

AnoLLM: тонке налаштування LLM для виявлення аномалій у табличних фінансових даних

AnoLLM (ICLR 2025) переосмислює виявлення табличних аномалій як оцінку щільності LLM — тонке налаштування на нормальних рядках і оцінювання за від’ємною логарифмічною правдоподібністю. Він перевершує класичні методи на наборах даних про шахрайство змішаного типу, але не має переваг на суто числових даних, що має реальне значення для виявлення аномалій у записах реєстрів Beancount.

AILLMMachine LearningFinanceFinancial ReportingData ScienceBeancount

DocFinQA: Фінансове міркування в довгому контексті на повних звітах SEC

DocFinQA замінює відібрані уривки FinQA довжиною 700 слів на повні звіти SEC обсягом 123 000 слів, показуючи 175-кратне збільшення контексту, що майже вдвічі знижує точність GPT-4 на довгих документах. Конвеєри пошуку не можуть знайти потрібний фрагмент у 45% випадків при HR@3 — і моделі з довгим контекстом не є заміною.

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany: Бенчмаркінг агентів LLM на реальних корпоративних завданнях

TheAgentCompany тестує 175 реальних робочих завдань у симульованій інтрамережі з GitLab, OwnCloud та RocketChat. Найкраща модель (Gemini-2.5-Pro) виконує лише 30% завдань вартістю 4 долари за кожне, що свідчить про те, що автономні агенти все ще далекі від життєздатності для робочих процесів у бухгалтерії та фінансах.

LLMAIFinanceMachine LearningForecastingDecision-makingData Science

InvestorBench: Тестування агентів LLM у прийнятті рішень щодо фінансової торгівлі

InvestorBench (ACL 2025) тестує 13 базових моделей LLM на бектестованій торгівлі акціями, криптовалютою та ETF, використовуючи кумулятивну прибутковість та коефіцієнт Шарпа, а не точність відповідей. Qwen2.5-72B очолює таблицю лідерів акцій з прибутковістю 46,15% CR; моделі, налаштовані під фінанси, показують гірші результати на ринку акцій. Розмір моделі прогнозує ефективність надійніше, ніж доменне донавчання.

Все про Finance

FinRAGBench-V: Мультимодальний RAG із візуальним цитуванням у фінансовій сфері

Впевненість та калібрування LLM: Огляд того, що насправді показують дослідження

FinTrace: оцінка виклику інструментів LLM для фінансових завдань на рівні траєкторії

OmniEval: всебічний бенчмарк для оцінки RAG-систем у фінансовій сфері

FinDER: реальні запити аналітиків виявили 74% розриву в повноті фінансових RAG-систем

Загублені посередині: упередженість щодо позиції в LLM та її вплив на ШІ у сфері фінансів

AnoLLM: тонке налаштування LLM для виявлення аномалій у табличних фінансових даних

DocFinQA: Фінансове міркування в довгому контексті на повних звітах SEC

TheAgentCompany: Бенчмаркінг агентів LLM на реальних корпоративних завданнях

InvestorBench: Тестування агентів LLM у прийнятті рішень щодо фінансової торгівлі

Почніть роботу з Beancount.io

Початок роботи

Функції

Спільнота

Юридична інформація