Bean Labs Research Log

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table: Еволюиращи таблици във веригата от разсъждения на LLM

Chain-of-Table (ICLR 2024) подобрява табличните разсъждения на големите езикови модели (LLM) чрез еволюиране на самата таблица като междинно състояние — постигайки 67,31% на WikiTQ срещу 61,48% за предходни базови модели, с предимство от +10,25 пункта при таблици над 4000 токена и пряка приложимост към агенти за заявки в Beancount.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: Може ли отворен модел със 7B параметри да се мери с GPT-4 в разбирането на таблици?

TableLlama прави фина настройка на Llama 2 (7B) върху 2,6 милиона примера за задачи с таблици и побеждава GPT-4 при структурни задачи като анотиране на типове колони (F1 94 срещу 32), но изостава с 33 точки при композиционното мислене в WikiTQ — калибриран бенчмарк за това какво могат и какво не могат отворените модели със 7B параметри във финансовия AI днес.

AIMachine LearningLLMData SciencePlain-Text AccountingBeancountQueriesAutomation

TAPAS: Слабо контролирано таблично QA без SQL и какво означава това за Beancount

TAPAS (Google Research, ACL 2020) отговаря на въпроси върху таблици чрез избиране на клетки и прилагане на скаларни агрегации — без генериране на SQL. Тази публикация анализира архитектурата, нейния ръст от 12 точки в точността на SQA и защо парадигмата за избор на клетки е подходяща за малки заявки в Beancount регистри, но се проваля при мащабиране.

AIMachine LearningDatabaseQueriesLLMBeancountAutomation

MAC-SQL: Многоагентно сътрудничество за Text-to-SQL

MAC-SQL (COLING 2025) използва три специализирани агента — Selector за редуциране на схемата, Decomposer за декомпозиране на въпроси и Refiner за коригиране на SQL чрез обратна връзка от изпълнението — за постигане на 59,59% точност на изпълнение в бенчмарка BIRD; аблационният анализ показва, че Refiner допринася най-много (+4,63 пункта), с преки последици за генерирането на заявки към леджъри на Beancount.

AILLMDatabaseQueriesBeancountPlain-Text AccountingMachine Learning

DIN-SQL: Декомпозирано контекстно обучение за текст-към-SQL

DIN-SQL (NeurIPS 2023) декомпозира текст-към-SQL на етапи за свързване на схеми, класификация на сложността и генериране на SQL, повишавайки точността на GPT-4 от 67,4% на 85,3% при Spider без фина настройка — и същата стратегия се прилага директно към интерфейси на естествен език за езика за заявки BQL на Beancount.

BeancountAILLMDatabaseQueriesMachine LearningPlain-Text Accounting

BIRD Бенчмарк: Разликата в реалните бази данни при LLM Text-to-SQL

Бенчмаркът BIRD (NeurIPS 2023) тества LLM върху 95 реални бази данни — GPT-4 постига само 54,89% точност на изпълнение с насоки за домейна и 34,88% без тях. Тази разлика от 20 пункта директно очертава предизвикателствата, които един BQL интерфейс на естествен език за Beancount трябва да реши.

AILLMSecurityAutomationBeancountComplianceTrust

Проверимо безопасно използване на инструменти от LLM агенти: STPA среща MCP

Изследователи от CMU и NC State предлагат използването на системен-теоретичен анализ на процесите (STPA) и разширен с възможности Model Context Protocol за извеждане на формални спецификации за безопасност при използването на инструменти от LLM агенти, като верификацията базирана на Alloy демонстрира липсата на небезопасни потоци в казус с планиране на календар.

AILLMMachine LearningBeancountPlain-Text AccountingData ScienceQueries

GraphRAG: От локално към глобално обобщаване, фокусирано върху заявки

GraphRAG на Microsoft изгражда граф на ентитети с Leiden разделяне върху текстов корпус и предварително изчислява резюмета на общности, за да отговори на въпроси за глобално осмисляне, с които стандартният векторен RAG не може да се справи — но одит на предразположенията от 2025 г. показва, че нивата му на победа от 72–83% се сриват след коригиране на артефактите за позиция и дължина при оценяване тип „LLM като съдия“.

LLMAIFinancial ReportingMachine LearningBeancountCompliance

FinAuditing: LLM постигат под 14% резултат при реални задачи за одит на SEC XBRL

FinAuditing тества 13 LLM без предварителна подготовка (zero-shot) върху 1102 реални примера от SEC XBRL отчети; най-високите резултати са 13,86% при верификация на финансова математика и 12,42% при извличане на концепции – резултати, които директно ограничават степента на доверие към AI счетоводни инструменти без външна помощ.

τ-bench: Измерване на надеждността на AI агентите в реални домейни с използване на инструменти

Latest articles

Chain-of-Table: Еволюиращи таблици във веригата от разсъждения на LLM

TableLlama: Може ли отворен модел със 7B параметри да се мери с GPT-4 в разбирането на таблици?

TAPAS: Слабо контролирано таблично QA без SQL и какво означава това за Beancount

MAC-SQL: Многоагентно сътрудничество за Text-to-SQL

DIN-SQL: Декомпозирано контекстно обучение за текст-към-SQL

BIRD Бенчмарк: Разликата в реалните бази данни при LLM Text-to-SQL

Проверимо безопасно използване на инструменти от LLM агенти: STPA среща MCP

GraphRAG: От локално към глобално обобщаване, фокусирано върху заявки

FinAuditing: LLM постигат под 14% резултат при реални задачи за одит на SEC XBRL

Започнете с Beancount.io

Първи стъпки

Функции

Общност

Правни въпроси