Преминете към основното съдържание
Queries

Всичко за Queries

8 статии
Query generation, table reasoning, and structured data retrieval for financial AI

TableMaster: Адаптивно разсъждение за разбиране на таблици с LLMs

TableMaster е конвейер, базиран само на промптване, който достига 78,13% на WikiTQ с GPT-4o-mini — с 13 пункта над Chain-of-Table — чрез комбиниране на извличане на фокусна таблица, семантична вербализация и адаптивно превключване между текстово и символно разсъждение. Ето какво означава тази архитектура за AI агентите върху финансови леджъри като Beancount.

Chain-of-Table: Еволюиращи таблици във веригата от разсъждения на LLM

Chain-of-Table (ICLR 2024) подобрява табличните разсъждения на големите езикови модели (LLM) чрез еволюиране на самата таблица като междинно състояние — постигайки 67,31% на WikiTQ срещу 61,48% за предходни базови модели, с предимство от +10,25 пункта при таблици над 4000 токена и пряка приложимост към агенти за заявки в Beancount.

TableLlama: Може ли отворен модел със 7B параметри да се мери с GPT-4 в разбирането на таблици?

TableLlama прави фина настройка на Llama 2 (7B) върху 2,6 милиона примера за задачи с таблици и побеждава GPT-4 при структурни задачи като анотиране на типове колони (F1 94 срещу 32), но изостава с 33 точки при композиционното мислене в WikiTQ — калибриран бенчмарк за това какво могат и какво не могат отворените модели със 7B параметри във финансовия AI днес.

TAPAS: Слабо контролирано таблично QA без SQL и какво означава това за Beancount

TAPAS (Google Research, ACL 2020) отговаря на въпроси върху таблици чрез избиране на клетки и прилагане на скаларни агрегации — без генериране на SQL. Тази публикация анализира архитектурата, нейния ръст от 12 точки в точността на SQA и защо парадигмата за избор на клетки е подходяща за малки заявки в Beancount регистри, но се проваля при мащабиране.

MAC-SQL: Многоагентно сътрудничество за Text-to-SQL

MAC-SQL (COLING 2025) използва три специализирани агента — Selector за редуциране на схемата, Decomposer за декомпозиране на въпроси и Refiner за коригиране на SQL чрез обратна връзка от изпълнението — за постигане на 59,59% точност на изпълнение в бенчмарка BIRD; аблационният анализ показва, че Refiner допринася най-много (+4,63 пункта), с преки последици за генерирането на заявки към леджъри на Beancount.

DIN-SQL: Декомпозирано контекстно обучение за текст-към-SQL

DIN-SQL (NeurIPS 2023) декомпозира текст-към-SQL на етапи за свързване на схеми, класификация на сложността и генериране на SQL, повишавайки точността на GPT-4 от 67,4% на 85,3% при Spider без фина настройка — и същата стратегия се прилага директно към интерфейси на естествен език за езика за заявки BQL на Beancount.

BIRD Бенчмарк: Разликата в реалните бази данни при LLM Text-to-SQL

Бенчмаркът BIRD (NeurIPS 2023) тества LLM върху 95 реални бази данни — GPT-4 постига само 54,89% точност на изпълнение с насоки за домейна и 34,88% без тях. Тази разлика от 20 пункта директно очертава предизвикателствата, които един BQL интерфейс на естествен език за Beancount трябва да реши.

GraphRAG: От локално към глобално обобщаване, фокусирано върху заявки

GraphRAG на Microsoft изгражда граф на ентитети с Leiden разделяне върху текстов корпус и предварително изчислява резюмета на общности, за да отговори на въпроси за глобално осмисляне, с които стандартният векторен RAG не може да се справи — но одит на предразположенията от 2025 г. показва, че нивата му на победа от 72–83% се сриват след коригиране на артефактите за позиция и дължина при оценяване тип „LLM като съдия“.