12 príspevkov so štítkom „Financial Reporting“

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: Multimodálny RAG s vizuálnymi citáciami vo finančnej oblasti

FinRAGBench-V (EMNLP 2025) je prvý rozsiahly benchmark pre multimodálny RAG s vizuálnymi citáciami vo financiách, pokrývajúci viac ako 112-tisíc strán dokumentov a 1 394 manuálne anotovaných párov otázok a odpovedí. Najlepšie modely dosahujú len 20 – 61 % úspešnosť vyhľadávania citácií na úrovni blokov a multimodálne vyhľadávanie prekonáva čisto textové o takmer 50 percentuálnych bodov.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Ako LLM zlyhávajú pri finančnej analýze medzi obdobiami a entitami

Fin-RATE testuje 17 modelov LLM na 7 500 odborne zostavených dvojiciach otázok a odpovedí z 2 472 výkazov SEC, čo odhaľuje prepad presnosti o 18,60 % pri longitudinálnom sledovaní a pokles o 54 bodov u finančne špecializovaného modelu Fin-R1 pri úlohách naprieč entitami – pričom hlavným úzkym hrdlom je proces vyhľadávania (retrieval), nie samotný model.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: Skutočné dopyty analytikov odhaľujú 74 % medzeru v návratnosti pri finančnom RAG

FinDER benchmarkuje RAG na 5 703 reálnych dopytoch analytikov hedžových fondov voči výkazom 10-K spoločností S&P 500; E5-Mistral dosahuje len 25,95 % návratnosť kontextu a dopyty plné skratiek stoja 8,2 bodu presnosti — dôkaz, že normalizácia dopytov, nie lepšie embeddingy, je prvým riešením pre finančné AI pipeline.

AILLMMachine LearningFinanceFinancial ReportingData ScienceBeancount

DocFinQA: Dlho-kontextové finančné uvažovanie na úplných podaniach SEC

DocFinQA nahrádza kurátorované 700-slovné pasáže z FinQA úplnými podaniami SEC so 123 000 slovami, čím odhaľuje 175-násobný nárast kontextu, ktorý takmer o polovicu znižuje presnosť GPT-4 na dlhých dokumentoch. Vyhľadávacie procesy v 45 % prípadov pri HR@3 nedokážu nájsť správny úsek — a modely s dlhým kontextom nie sú náhradou.

LLMAIFinancial ReportingMachine LearningBeancountCompliance

FinAuditing: LLM dosahujú menej ako 14 % pri reálnych úlohách auditu SEC XBRL

FinAuditing testuje 13 LLM modelov metódou zero-shot na 1 102 reálnych prípadoch podaní SEC XBRL; najlepšie výsledky sú 13,86 % pri overovaní finančnej matematiky a 12,42 % pri vyhľadávaní konceptov – výsledky, ktoré priamo vymedzujú, do akej miery možno dôverovať automatizácii nástrojov AI účtovníctva bez externých nástrojov.

LLMAIMachine LearningFinanceFinancial ReportingData ScienceAutomation

TAT-LLM: Doladený LLaMA 2 pre diskrétne uvažovanie nad finančnými tabuľkami a textom

TAT-LLM dolaďuje LLaMA 2 7B pomocou LoRA na benchmarkoch QA pre finančné tabuľky a text, pričom dosahuje 64,60 % EM na FinQA — čím prekonáva 63,91 % modelu GPT-4 — rozkladom uvažovania do deterministických krokov Extrahuje-Uvažuje-Vykonáva, ktoré eliminujú aritmetické chyby.

AIMachine LearningLLMFinancial ReportingFinancial StatementsData ScienceFinance

MultiHiertt: Benchmarking numerického uvažovania nad multi-hierarchickými finančnými tabuľkami

MultiHiertt (ACL 2022) predstavuje 10 440 párov otázok a odpovedí z reálnych finančných správ s priemerom 3,89 hierarchických tabuliek na správu; najmodernejšie modely dosahujú skóre 38 % F1 oproti 87 % u ľudí, s 15-bodovou penalizáciou pri otázkach naprieč tabuľkami — čo kvantifikuje medzeru vo vyhľadávaní, ktorú musí finančná AI prekonať.

AILLMMachine LearningFinanceFinancial ReportingData ScienceAnalytics

ConvFinQA: Viackolové finančné QA a 21-bodový rozdiel medzi modelmi a ľudskými expertmi

ConvFinQA (EMNLP 2022) rozširuje FinQA o viackolové konverzácie nad správami o výnosoch indexu S&P 500 a zisťuje, že najlepší doladený model dosahuje 68,9 % presnosť vykonania v porovnaní s 89,4 % u ľudských expertov – a klesá na 52,4 % pri hybridných multiaspektových konverzáciách, kde modely musia prenášať numerický kontext medzi rôznymi finančnými témami.

AIMachine LearningLLMFinanceFinancial ReportingData Science

TAT-QA: Hybridný benchmark pre usudzovanie z tabuliek a textu vo finančných výročných správach

TAT-QA je benchmark so 16 552 otázkami nad hybridnými kontextmi finančných správ (tabuľky plus text), ktorý ukázal, že hlavným úzkym hrdlom finančnej AI je ukotvenie dôkazov (evidence grounding), nie aritmetika. Do roku 2024 dosiahli vyladené 7B LLM modely F1 skóre 83 %, čím takmer uzavreli stratu voči 91 % ľudskému maximu.

AIMachine LearningLLMFinanceFinancial ReportingBeancount

FinQA: Benchmark na meranie numerického uvažovania AI vo finančných správach

FinQA (EMNLP 2021) vytvoril 8 281 párov otázok a odpovedí z výkazov ziskov a strát spoločností z indexu S&P 500, ktoré vyžadujú viacstupňové aritmetické programy. Neurónové modely dosiahli pri vydaní skóre 61 % v porovnaní s 91 % u ľudských expertov; presnosť klesá na 22 % pri programoch s tromi a viacerými krokmi. Chybové režimy — doménové konštanty, prepojenie naprieč modalitami, dĺžka reťazca — priamo zodpovedajú výzvam, ktorým dnes čelia agenti Beancount.

Všetko o Financial Reporting

FinRAGBench-V: Multimodálny RAG s vizuálnymi citáciami vo finančnej oblasti

Fin-RATE: Ako LLM zlyhávajú pri finančnej analýze medzi obdobiami a entitami

FinDER: Skutočné dopyty analytikov odhaľujú 74 % medzeru v návratnosti pri finančnom RAG

DocFinQA: Dlho-kontextové finančné uvažovanie na úplných podaniach SEC

FinAuditing: LLM dosahujú menej ako 14 % pri reálnych úlohách auditu SEC XBRL

TAT-LLM: Doladený LLaMA 2 pre diskrétne uvažovanie nad finančnými tabuľkami a textom

MultiHiertt: Benchmarking numerického uvažovania nad multi-hierarchickými finančnými tabuľkami

ConvFinQA: Viackolové finančné QA a 21-bodový rozdiel medzi modelmi a ľudskými expertmi

TAT-QA: Hybridný benchmark pre usudzovanie z tabuliek a textu vo finančných výročných správach

FinQA: Benchmark na meranie numerického uvažovania AI vo finančných správach

Začnite s Beancount.io

Začíname

Funkcie

Komunita

Právne informácie