Doorgaan naar hoofdinhoud

Bean Labs Research Log

LLM's zijn niet nuttig voor tijdreeksvoorspelling: Wat NeurIPS 2024 betekent voor Finance AI

Een NeurIPS 2024 Spotlight-paper analyseert drie op LLM gebaseerde methoden voor tijdreeksvoorspelling — OneFitsAll, Time-LLM en CALF — en ontdekt dat het verwijderen van het taalmodel de nauwkeurigheid in de meeste gevallen verbetert, met een tot 1.383× snellere training. Voor finance AI-toepassingen zoals Beancount-saldo voorspelling, verslaan lichtgewicht, speciaal gebouwde modellen consequent hergebruikte LLM's.

Latest articles

AuditCopilot: LLM's voor fraudedetectie in dubbel boekhouden

AuditCopilot past open-source LLM's (Mistral-8B, Gemma, Llama-3.1) toe op fraudedetectie bij bedrijfsjournaalposten, waarbij het aantal fout-positieven wordt teruggebracht van 942 naar 12 — maar ablatie onthult dat het LLM voornamelijk fungeert als een syntheselaag bovenop Isolation Forest-scores, niet als een onafhankelijke anomaliedetector.

Fine-Tuning vs. RAG: Waarom Retrieval wint bij het toevoegen van nieuwe kennis aan LLM's

Een empirische vergelijking van RAG versus ongecontroleerde fine-tuning bij LLM's met 7 miljard parameters laat zien dat RAG een nauwkeurigheid van 0.875+ behaalt op feiten van na de cutoff, terwijl fine-tuning stagneert op 0.504 — met directe gevolgen voor het ontwerpen van Beancount-agents en systemen die frequente kennisupdates vereisen.

FLARE: Actieve Retrieval Augmented Generation

FLARE (EMNLP 2023) verbetert standaard RAG door retrieval halverwege de generatie te activeren op basis van drempelwaarden voor token-waarschijnlijkheid, waarmee 51.0 EM wordt behaald op 2WikiMultihopQA tegenover 39.4 voor eenmalige retrieval — maar calibratiefouten in voor instructies getunede chatmodellen beperken de betrouwbaarheid voor productie-financiële agents.

Retrieval-Augmented Generation voor Kennisintensieve NLP-taken

Het artikel van Lewis et al. uit NeurIPS 2020 introduceerde de hybride RAG-architectuur — een BART-large generator gekoppeld aan een via FAISS geïndexeerde retriever over 21 miljoen Wikipedia-fragmenten — waarmee 44,5 EM op Natural Questions werd behaald en de parametrische/niet-parametrische splitsing werd vastgesteld die nu ten grondslag ligt aan de meeste productie-AI-systemen. Dit overzicht behandelt de afwegingen tussen RAG-Sequence vs. RAG-Token, de 'retrieval collapse' foutmodus, en wat verouderde indexen betekenen voor financiële AI die is gebouwd op append-only Beancount-grootboeken.

MultiHiertt: Benchmarking van numeriek redeneren over multi-hiërarchische financiële tabellen

MultiHiertt (ACL 2022) introduceert 10.440 QA-paren uit echte financiële rapporten met gemiddeld 3,89 hiërarchische tabellen elk; state-of-the-art modellen scoren 38% F1 tegenover 87% voor mensen, met een boete van 15 punten voor vragen over meerdere tabellen — een kwantificering van de retrieval-kloof die financiële AI moet dichten.

ConvFinQA: Multi-turn financiële QA en de kloof van 21 punten tussen modellen en menselijke experts

ConvFinQA (EMNLP 2022) breidt FinQA uit naar multi-turn gesprekken over S&P 500-winstrapporten. Hieruit blijkt dat het best gefinetunede model een uitvoeringsnauwkeurigheid van 68,9% behaalt tegenover 89,4% voor menselijke experts — en dit daalt naar 52,4% bij hybride gesprekken over meerdere aspecten waarbij modellen numerieke context over verschillende financiële onderwerpen moeten meenemen.

TAT-QA: Hybride tabel-tekst QA-benchmark voor redeneren over financiële jaarverslagen

TAT-QA is een benchmark met 16.552 vragen over hybride tabel-plus-tekst contexten uit financiële verslagen die aantoont dat bewijsvoering — niet rekenkunde — het belangrijkste knelpunt is in AI voor de financiële sector; tegen 2024 bereikten gefinetunede 7B LLM's een F1-score van 83%, waarmee het gat met het menselijke plafond van 91% grotendeels werd gedicht.