Преминете към основното съдържание

Bean Labs Research Log

τ-bench: Измерване на надеждността на AI агентите в реални домейни с използване на инструменти

τ-bench показва, че водещи LLM модели като Claude 3.5 Sonnet падат от pass@1 стойност 0,692 до pass@4 стойност 0,462 при задачи за обслужване на клиенти в търговията на дребно — рязък спад в последователността с преки последици за всеки агент с възможност за запис, опериращ върху Beancount главна книга.

Latest articles

Chain-of-Table: Еволюиращи таблици във веригата от разсъждения на LLM

Chain-of-Table (ICLR 2024) подобрява табличните разсъждения на големите езикови модели (LLM) чрез еволюиране на самата таблица като междинно състояние — постигайки 67,31% на WikiTQ срещу 61,48% за предходни базови модели, с предимство от +10,25 пункта при таблици над 4000 токена и пряка приложимост към агенти за заявки в Beancount.

TableLlama: Може ли отворен модел със 7B параметри да се мери с GPT-4 в разбирането на таблици?

TableLlama прави фина настройка на Llama 2 (7B) върху 2,6 милиона примера за задачи с таблици и побеждава GPT-4 при структурни задачи като анотиране на типове колони (F1 94 срещу 32), но изостава с 33 точки при композиционното мислене в WikiTQ — калибриран бенчмарк за това какво могат и какво не могат отворените модели със 7B параметри във финансовия AI днес.

TAPAS: Слабо контролирано таблично QA без SQL и какво означава това за Beancount

TAPAS (Google Research, ACL 2020) отговаря на въпроси върху таблици чрез избиране на клетки и прилагане на скаларни агрегации — без генериране на SQL. Тази публикация анализира архитектурата, нейния ръст от 12 точки в точността на SQA и защо парадигмата за избор на клетки е подходяща за малки заявки в Beancount регистри, но се проваля при мащабиране.

MAC-SQL: Многоагентно сътрудничество за Text-to-SQL

MAC-SQL (COLING 2025) използва три специализирани агента — Selector за редуциране на схемата, Decomposer за декомпозиране на въпроси и Refiner за коригиране на SQL чрез обратна връзка от изпълнението — за постигане на 59,59% точност на изпълнение в бенчмарка BIRD; аблационният анализ показва, че Refiner допринася най-много (+4,63 пункта), с преки последици за генерирането на заявки към леджъри на Beancount.

DIN-SQL: Декомпозирано контекстно обучение за текст-към-SQL

DIN-SQL (NeurIPS 2023) декомпозира текст-към-SQL на етапи за свързване на схеми, класификация на сложността и генериране на SQL, повишавайки точността на GPT-4 от 67,4% на 85,3% при Spider без фина настройка — и същата стратегия се прилага директно към интерфейси на естествен език за езика за заявки BQL на Beancount.

BIRD Бенчмарк: Разликата в реалните бази данни при LLM Text-to-SQL

Бенчмаркът BIRD (NeurIPS 2023) тества LLM върху 95 реални бази данни — GPT-4 постига само 54,89% точност на изпълнение с насоки за домейна и 34,88% без тях. Тази разлика от 20 пункта директно очертава предизвикателствата, които един BQL интерфейс на естествен език за Beancount трябва да реши.

Проверимо безопасно използване на инструменти от LLM агенти: STPA среща MCP

Изследователи от CMU и NC State предлагат използването на системен-теоретичен анализ на процесите (STPA) и разширен с възможности Model Context Protocol за извеждане на формални спецификации за безопасност при използването на инструменти от LLM агенти, като верификацията базирана на Alloy демонстрира липсата на небезопасни потоци в казус с планиране на календар.

GraphRAG: От локално към глобално обобщаване, фокусирано върху заявки

GraphRAG на Microsoft изгражда граф на ентитети с Leiden разделяне върху текстов корпус и предварително изчислява резюмета на общности, за да отговори на въпроси за глобално осмисляне, с които стандартният векторен RAG не може да се справи — но одит на предразположенията от 2025 г. показва, че нивата му на победа от 72–83% се сриват след коригиране на артефактите за позиция и дължина при оценяване тип „LLM като съдия“.

FinAuditing: LLM постигат под 14% резултат при реални задачи за одит на SEC XBRL

FinAuditing тества 13 LLM без предварителна подготовка (zero-shot) върху 1102 реални примера от SEC XBRL отчети; най-високите резултати са 13,86% при верификация на финансова математика и 12,42% при извличане на концепции – резултати, които директно ограничават степента на доверие към AI счетоводни инструменти без външна помощ.