12 записів з тегом "Financial Reporting"

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: Мультимодальний RAG із візуальним цитуванням у фінансовій сфері

FinRAGBench-V (EMNLP 2025) — це перший масштабний бенчмарк для мультимодального RAG із візуальним цитуванням у фінансах, що охоплює понад 112 тис. сторінок документів і 1394 анотованих людиною пар запитання-відповідь. Найкращі моделі досягають лише 20–61% повноти цитування на рівні блоків, а мультимодальний пошук перевершує текстовий майже на 50 відсоткових пунктів.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Як LLM зазнають невдачі у міжперіодному та міжсуб'єктному фінансовому аналізі

Fin-RATE тестує 17 LLM на 7 500 парах питань та відповідей, відібраних експертами з 2 472 звітів SEC, виявляючи падіння точності на 18,60% при лонгітюдному відстеженні та зниження на 54 пункти для спеціалізованої на фінансах моделі Fin-R1 у міжсуб'єктних завданнях — при цьому конвеєр пошуку (retrieval), а не базова модель, є критичним вузьким місцем.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: реальні запити аналітиків виявили 74% розриву в повноті фінансових RAG-систем

FinDER тестує RAG на 5 703 реальних запитах аналітиків хедж-фондів до звітів 10-K компаній S&P 500; E5-Mistral досягає лише 25,95% повноти контексту, а запити з великою кількістю скорочень коштують 8,2 пункта точності — доказ того, що нормалізація запитів, а не кращі ембедінги, є першим виправленням для фінансових AI-конвеєрів.

AILLMMachine LearningFinanceFinancial ReportingData ScienceBeancount

DocFinQA: Фінансове міркування в довгому контексті на повних звітах SEC

DocFinQA замінює відібрані уривки FinQA довжиною 700 слів на повні звіти SEC обсягом 123 000 слів, показуючи 175-кратне збільшення контексту, що майже вдвічі знижує точність GPT-4 на довгих документах. Конвеєри пошуку не можуть знайти потрібний фрагмент у 45% випадків при HR@3 — і моделі з довгим контекстом не є заміною.

LLMAIFinancial ReportingMachine LearningBeancountCompliance

FinAuditing: LLMs Score Under 14% on Real SEC XBRL Auditing Tasks

FinAuditing tests 13 LLMs zero-shot on 1,102 real SEC XBRL filing instances; top scores are 13.86% on financial math verification and 12.42% on concept retrieval—results that directly bound what AI accounting tools can be trusted to automate without external tooling.

LLMAIMachine LearningFinanceFinancial ReportingData ScienceAutomation

TAT-LLM: Тонко налаштована LLaMA 2 для дискретного логічного висновку над фінансовими таблицями та текстом

TAT-LLM тонко налаштовує LLaMA 2 7B за допомогою LoRA на бенчмарках фінансових таблиць та текстів, досягаючи 64,60% EM на FinQA — перевершуючи GPT-4 з 63,91% — завдяки розкладанню логічного висновку на детерміновані кроки «Вилучення-Міркування-Виконання», що усувають арифметичні помилки.

AIMachine LearningLLMFinancial ReportingFinancial StatementsData ScienceFinance

MultiHiertt: Тестування чисельного міркування на основі багатоієрархічних фінансових таблиць

MultiHiertt (ACL 2022) представляє 10 440 пар запитань та відповідей із реальних фінансових звітів, які містять у середньому 3,89 ієрархічних таблиць кожна; найсучасніші моделі отримують 38% за показником F1 проти 87% у людей, зі штрафом у 15 балів для запитань, що стосуються кількох таблиць — що кількісно визначає розрив у пошуку даних, який має подолати ШІ у сфері фінансів.

AILLMMachine LearningFinanceFinancial ReportingData ScienceAnalytics

ConvFinQA: багатокрокові фінансові запитання та відповіді та 21-пунктовий розрив між моделями та експертами-людьми

ConvFinQA (EMNLP 2022) розширює FinQA до багатокрокових розмов на основі звітів про прибутки S&P 500, виявивши, що найкраща донавчена модель досягає точності виконання 68,9% проти 89,4% у людей-експертів — і цей показник падає до 52,4% у гібридних багатоаспектних розмовах, де моделі повинні переносити числовий контекст між різними фінансовими темами.

AIMachine LearningLLMFinanceFinancial ReportingData Science

TAT-QA: Гібридний бенчмарк відповідей на запитання для аналізу фінансової звітності

TAT-QA — це бенчмарк із 16 552 запитань за контекстами фінансових звітів (таблиці + текст), який довів, що обґрунтування доказами, а не арифметика, є основним вузьким місцем у ШІ для фінансів; до 2024 року донастроєні 7B LLM досягли 83% F1, майже наздогнавши людський показник у 91%.

AIMachine LearningLLMFinanceFinancial ReportingBeancount

FinQA: Бенчмарк для вимірювання чисельних міркувань ШІ у фінансових звітах

FinQA (EMNLP 2021) зібрав 8 281 пару питань та відповідей зі звітів про прибутки компаній S&P 500, що потребують багатоетапних арифметичних програм. Нейронні моделі набрали 61% на момент випуску проти 91% у експертів-людей; точність падає до 22% у програмах з трьома або більше етапами. Режими збоїв — доменні константи, крос-модальне обґрунтування, довжина ланцюжка — безпосередньо відображають виклики, з якими сьогодні стикаються агенти Beancount.

Все про Financial Reporting

FinRAGBench-V: Мультимодальний RAG із візуальним цитуванням у фінансовій сфері

Fin-RATE: Як LLM зазнають невдачі у міжперіодному та міжсуб'єктному фінансовому аналізі

FinDER: реальні запити аналітиків виявили 74% розриву в повноті фінансових RAG-систем

DocFinQA: Фінансове міркування в довгому контексті на повних звітах SEC

FinAuditing: LLMs Score Under 14% on Real SEC XBRL Auditing Tasks

TAT-LLM: Тонко налаштована LLaMA 2 для дискретного логічного висновку над фінансовими таблицями та текстом

MultiHiertt: Тестування чисельного міркування на основі багатоієрархічних фінансових таблиць

ConvFinQA: багатокрокові фінансові запитання та відповіді та 21-пунктовий розрив між моделями та експертами-людьми

TAT-QA: Гібридний бенчмарк відповідей на запитання для аналізу фінансової звітності

FinQA: Бенчмарк для вимірювання чисельних міркувань ШІ у фінансових звітах

Почніть роботу з Beancount.io

Початок роботи

Функції

Спільнота

Юридична інформація