Doorgaan naar hoofdinhoud

ConvFinQA: Multi-turn financiële QA en de kloof van 21 punten tussen modellen en menselijke experts

· 6 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

Na verschillende logs te hebben besteed aan single-turn financiële QA — FinQA, FinanceBench, TAT-QA — wilde ik kijken wat er gebeurt als gebruikers vervolgvragen stellen. ConvFinQA (Chen et al., EMNLP 2022) is het artikel dat de FinQA-setting neemt en uitbreidt naar multi-turn gesprekken. De resultaten leggen een foutmodus bloot die single-turn benchmarks simpelweg niet kunnen zien: modellen die uitblinken in geïsoleerd numeriek redeneren, storten vaak in op het moment dat een vraag verwijst naar iets dat twee beurten geleden is gezegd.

Het artikel

2026-05-15-convfinqa-chain-numerical-reasoning-conversational-finance-qa

ConvFinQA, van Zhiyu Chen, Shiyang Li, Charese Smiley, Zhiqiang Ma, Sameena Shah en William Yang Wang (UC Santa Barbara en J.P. Morgan), bouwt een dataset van 3.892 multi-turn gesprekken met in totaal 14.115 vragen over 2.066 pagina's met financiële rapporten. Elk gesprek is gebaseerd op winstrapporten — dezelfde S&P 500-deponeringen die in FinQA worden gebruikt — en vragen zijn aan elkaar gekoppeld zodat latere beurten kunnen verwijzen naar eerdere antwoorden. Het taakformat is overgenomen van FinQA: modellen genereren een programma in een kleine domeinspecifieke taal (optellen, aftrekken, vermenigvuldigen, delen, groter dan, exp) dat vervolgens wordt uitgevoerd om het antwoord te produceren. Evaluatie maakt gebruik van uitvoeringsnauwkeurigheid (of het uitgevoerde resultaat overeenkomt met het gouden antwoord) en programmanauwkeurigheid (of het gegenereerde programma overeenkomt met het gouden programma).

De dataset heeft twee gesprekstypen. Type I "eenvoudige" gesprekken splitsen één complexe FinQA-vraag op in een reeks subvragen. Type II "hybride" gesprekken voegen de opsplitsingen van twee verschillende FinQA-vragen over hetzelfde rapport samen, wat redeneren over verschillende aspecten vereist. Meer dan 60% van de vragen heeft afhankelijkheden van eerdere beurten, en vragen in het tweede deel van hybride gesprekken zijn aanzienlijk moeilijker omdat het model de redeneringstoestand over verschillende financiële onderwerpen moet vasthouden.

Kernideeën

  • Best gefinetunede model (FinQANet met RoBERTa-large): 68,90% uitvoeringsnauwkeurigheid op de testset. Menselijke financiële experts bereiken 89,44%. Algemene crowdwerkers (MTurk): 46,90% — een opvallende kloof die bevestigt dat de taak echte domeinkennis vereist.
  • GPT-3 (text-davinci-002, 175B) met 20 few-shot voorbeelden en gouden ondersteunende feiten: 50,30% uitvoeringsnauwkeurigheid — ruim onder de gefinetunede specialist en nauwelijks boven de crowd.
  • Chain-of-thought prompting schaadt GPT-3: CoT levert 40,63% op tegenover 45,15% voor standaard programma-prompting. Het model bootst het redeneringsformat van de gegeven voorbeelden na in plaats van het toe te passen op de werkelijke vraag.
  • Hybride gesprekken zijn aanzienlijk moeilijker: het tweede deel van een hybride gesprek scoort 52,38% voor FinQANet tegenover 72,37% voor eenvoudige gesprekken. Kruisverwijzingen tussen meerdere aspecten is waar huidige modellen tekortschieten.
  • GPT-3 heeft specifiek moeite met vragen over getalselectie — het beantwoorden van een vervolgvraag zoals "hoe zat het met het voorgaande jaar?" — en behaalt slechts 35,32% waar FinQANet 82,54% bereikt. Conversatie-anafoorresolutie is de flessenhals.

Wat standhoudt — en wat niet

De constructie van de dataset is zorgvuldig en de evaluatie is zuiver. Het gebruik van programmanauwkeurigheid naast uitvoeringsnauwkeurigheid is waardevol: twee programma's kunnen hetzelfde numerieke antwoord produceren via verschillende (mogelijk foute) redeneringspaden, en programmanauwkeurigheid vangt dat op. De beslissing om gesprekken te verankeren in echte S&P 500-deponeringen houdt de taak realistisch in plaats van synthetisch.

Dat gezegd hebbende, is de variëteit in gesprekken door het ontwerp beperkt. Elk gesprek is opgebouwd door bestaande FinQA-vragen te ontleden — er zijn geen echt open dialogen, geen verduidelijkingsbeurten, geen correcties door de gebruiker. Echte boekhoudkundige gesprekken bevatten dit allemaal. De dataset is een gecontroleerde benadering van conversationeel redeneren, geen naturalistische steekproef.

De GPT-3-analyse is wat verouderd. Ten tijde van publicatie (eind 2022) voelde een GPT-3-score van minder dan 50% als een betekenisvol negatief resultaat. Maar het artikel dateert van vóór GPT-4, en later werk laat zien dat krachtigere modellen een groot deel van de kloof dichten. De CoT-bevinding — dat prompting averechts werkte — is interessant maar kan modelspecifiek zijn: CoT werkt meestal beter in modellen die instructies beter volgen.

De evaluatie richt zich ook volledig op de juistheid van het eindantwoord en negeert de kwaliteit van de tussenliggende redeneringsketen. Dit is belangrijk omdat een model een numeriek correct antwoord kan genereren via een fout programma (wat programmanauwkeurigheid deels opvangt) of een correct programma via een rammelende redenering die zou falen bij een lichte parafrasering. FinChain (2025) geeft hier expliciet kritiek op en pleit voor een op transparantie gericht alternatief. Voor productiesystemen is weten waarom het model het juiste antwoord gaf even belangrijk als weten dat het dat deed.

Waarom dit belangrijk is voor financiële AI

Een Beancount-agent die gebruikersvragen afhandelt, krijgt zelden één op zichzelf staande vraag. Gebruikers vragen "wat heb ik vorige maand aan boodschappen uitgegeven?" en vervolgens "hoe verhoudt dat zich tot de maand daarvoor?" en dan "is dat meer dan ik had begroot?". Elke vraag bouwt voort op de vorige. ConvFinQA is de meest relevante gepubliceerde benchmark voor dit interactiepatroon, en de cijfers zijn ontnuchterend: zelfs met gouden retrieval liet het best beschikbare model in 2022 een kloof van ongeveer 21 procentpunten over ten opzichte van menselijke experts, en de kloof wordt groter bij vragen over meerdere aspecten.

De specifieke tekortkoming bij hybride gesprekken is noemenswaardig. Wanneer een gebruiker in dezelfde sessie overstapt van vragen over inkomsten naar vragen over uitgaven, moet het model de numerieke context meenemen terwijl de focus op het onderwerp wordt gereset. Dat is precies wat een Beancount-agent moet doen tijdens een multi-turn sessie voor het beoordelen van een grootboek. De score van 52,38% op die beurten is een directe ondergrens voor hoe goed huidige benaderingen dat scenario aanpakken.

De CoT-bevinding is ook praktisch nuttig: het suggereert dat bij het laten redeneren van een model over financiële gegevens in een multi-turn setting, gestructureerde programmageneratie betrouwbaarder kan zijn dan vrije chain-of-thought, althans voor modellen van het niveau van GPT-3. Krachtigere modellen vertonen deze omkering mogelijk niet — maar het is een hypothese om te testen, geen aanname om te maken.

Wat nu te lezen

  • ConvFinQA APOLLO follow-up (arXiv:2212.07249) — behaalt state-of-the-art op ConvFinQA met behulp van getalbewuste negatieve sampling en op consistentie gebaseerd reinforcement learning; de moeite waard om te lezen om te zien wat de kloof dichtte na het oorspronkelijke artikel.
  • Program of Thoughts Prompting (arXiv:2211.12737, 2022) — besteedt rekenwerk uit aan een Python-interpreter in plaats van een DSL; rapporteerde ~12% verbetering ten opzichte van CoT op financiële QA-taken en bijna SoTA op ConvFinQA; verbindt CodeAct-ideeën direct met financieel redeneren.
  • FLARE: Active Retrieval Augmented Generation (arXiv:2305.06983, EMNLP 2023) — haalt gegevens op aanvraag op tijdens het genereren in plaats van één keer aan het begin; direct relevant voor de multi-turn setting waarbij wat het model moet opzoeken per beurt verandert.