8 Posts getaggt mit „Queries“

AILLMMachine LearningBeancountAutomationData ScienceQueriesPlain-Text Accounting

TableMaster: Adaptives Denken für das Tabellenverständnis mit LLMs

TableMaster ist eine reine Prompting-Pipeline, die mit GPT-4o-mini 78,13 % auf WikiTQ erreicht – 13 Prozentpunkte mehr als Chain-of-Table – durch die Kombination von Table-of-Focus-Extraktion, semantischer Verbalisierung und adaptivem Wechsel zwischen textuellem und symbolischem Denken. Erfahren Sie hier, was diese Architektur für KI-Agenten über Finanz-Hauptbüchern wie Beancount bedeutet.

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table: Evolution von Tabellen in der LLM-Schlussfolgerungskette

Chain-of-Table (ICLR 2024) verbessert das tabellarische Schlussfolgern von LLMs, indem die Tabelle selbst als Zwischenzustand weiterentwickelt wird. Es erreicht 67,31 % bei WikiTQ gegenüber 61,48 % bei früheren Baselines, mit einem Vorsprung von +10,25 Punkten bei Tabellen über 4.000 Token und direkter Anwendbarkeit auf Beancount-Ledger-Abfrage-Agenten.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: Kann ein offenes 7B-Modell mit GPT-4 beim Tabellenverständnis mithalten?

TableLlama unterzieht Llama 2 (7B) einem Fine-Tuning mit 2,6 Millionen Tabellen-Aufgabenbeispielen und schlägt GPT-4 bei strukturellen Aufgaben wie der Spaltentyp-Annotation (F1 94 vs. 32), bleibt jedoch 33 Punkte hinter dem kompositionellen Denken von WikiTQ zurück – ein kalibrierter Benchmark dafür, was offene 7B-Modelle heute in der Finanz-KI leisten können und was nicht.

AIMachine LearningLLMData SciencePlain-Text AccountingBeancountQueriesAutomation

TAPAS: Schwach überwachtes Table-QA ohne SQL und was es für Beancount bedeutet

TAPAS (Google Research, ACL 2020) beantwortet Tabellenfragen durch die Auswahl von Zellen und die Anwendung skalarer Aggregationen – ohne SQL-Generierung. Dieser Beitrag analysiert die Architektur, den SQA-Genauigkeitsgewinn von 12 Punkten und warum das Zellenauswahl-Paradigma für kleine Beancount-Ledger-Abfragen geeignet ist, aber bei großen Datenmengen scheitert.

AIMachine LearningDatabaseQueriesLLMBeancountAutomation

MAC-SQL: Multi-Agent Collaborative Text-to-SQL

MAC-SQL (COLING 2025) nutzt drei spezialisierte Agenten — Selector für die Schema-Reduktion, Decomposer für die Fragen-Dekomposition und Refiner für die ausführungsgesteuerte SQL-Korrektur — um eine Ausführungsgenauigkeit von 59,59 % im BIRD-Benchmark zu erreichen. Die Ablationsstudie zeigt, dass der Refiner am meisten beiträgt (+4,63 Punkte), was direkte Auswirkungen auf die Generierung von Abfragen für Beancount-Ledger hat.

AILLMDatabaseQueriesBeancountPlain-Text AccountingMachine Learning

DIN-SQL: Zerlegtes In-Context Learning für Text-zu-SQL

DIN-SQL (NeurIPS 2023) zerlegt Text-zu-SQL in Phasen der Schema-Verknüpfung, Komplexitätsklassifizierung und SQL-Generierung. Dies hebt GPT-4 ohne Fine-Tuning von 67,4 % auf 85,3 % Ausführungsgenauigkeit bei Spider – und dieselbe Strategie lässt sich direkt auf natürliche Schnittstellen für die BQL-Abfragesprache von Beancount übertragen.

BeancountAILLMDatabaseQueriesMachine LearningPlain-Text Accounting

BIRD-Benchmark: Die Kluft bei realen Datenbanken in LLM Text-to-SQL

Der BIRD-Benchmark (NeurIPS 2023) testet LLMs auf 95 realen Datenbanken – GPT-4 erreicht mit Domänenhinweisen nur 54,89 % Ausführungsgenauigkeit und ohne nur 34,88 %. Diese Kluft von 20 Prozentpunkten prägt direkt die Anforderungen an eine BQL-Schnittstelle in natürlicher Sprache für Beancount.

AILLMMachine LearningBeancountPlain-Text AccountingData ScienceQueries

GraphRAG: Von lokaler zu globaler abfrageorientierter Zusammenfassung

Microsofts GraphRAG erstellt einen Leiden-partitionierten Entitätsgraphen über ein Textkorpus und berechnet Community-Zusammenfassungen im Voraus, um globale Fragen zum Gesamtverständnis zu beantworten, die Standard-Vektor-RAG nicht bewältigen kann – ein Bias-Audit von 2025 zeigt jedoch, dass die Gewinnraten von 72–83 % einbrechen, sobald Positions- und Längenartefakte in der LLM-as-Judge-Evaluierung korrigiert werden.

Alles Über Queries

TableMaster: Adaptives Denken für das Tabellenverständnis mit LLMs

Chain-of-Table: Evolution von Tabellen in der LLM-Schlussfolgerungskette

TableLlama: Kann ein offenes 7B-Modell mit GPT-4 beim Tabellenverständnis mithalten?

TAPAS: Schwach überwachtes Table-QA ohne SQL und was es für Beancount bedeutet

MAC-SQL: Multi-Agent Collaborative Text-to-SQL

DIN-SQL: Zerlegtes In-Context Learning für Text-zu-SQL

BIRD-Benchmark: Die Kluft bei realen Datenbanken in LLM Text-to-SQL

GraphRAG: Von lokaler zu globaler abfrageorientierter Zusammenfassung

Erste Schritte mit Beancount.io

Erste Schritte

Funktionen

Community

Rechtliches