Mike Thrift
Marketing Manager
BIRD Бенчмарк: Разликата в реалните бази данни при LLM Text-to-SQL
Бенчмаркът BIRD (NeurIPS 2023) тества LLM върху 95 реални бази данни — GPT-4 постига само 54,89% точност на изпълнение с насоки за домейна и 34,88% без тях. Тази разлика от 20 пункта директно очертава предизвикателствата, които един BQL интерфейс на естествен език за Beancount трябва да реши.
Проверимо безопасно използване на инструменти от LLM агенти: STPA среща MCP
Изследователи от CMU и NC State предлагат използването на системен-теоретичен анализ на процесите (STPA) и разширен с възможности Model Context Protocol за извеждане на формални спецификации за безопасност при използването на инструменти от LLM агенти, като верификацията базирана на Alloy демонстрира липсата на небезопасни потоци в казус с планиране на календар.
GraphRAG: От локално към глобално обобщаване, фокусирано върху заявки
GraphRAG на Microsoft изгражда граф на ентитети с Leiden разделяне върху текстов корпус и предварително изчислява резюмета на общности, за да отговори на въпроси за глобално осмисляне, с които стандартният векторен RAG не може да се справи — но одит на предразположенията от 2025 г. показва, че нивата му на победа от 72–83% се сриват след коригиране на артефактите за позиция и дължина при оценяване тип „LLM като съдия“.
FinAuditing: LLM постигат под 14% резултат при реални задачи за одит на SEC XBRL
FinAuditing тества 13 LLM без предварителна подготовка (zero-shot) върху 1102 реални примера от SEC XBRL отчети; най-високите резултати са 13,86% при верификация на финансова математика и 12,42% при извличане на концепции – резултати, които директно ограничават степента на доверие към AI счетоводни инструменти без външна помощ.
InvestorBench: Бенчмаркинг на LLM агенти за вземане на решения при финансова търговия
InvestorBench (ACL 2025) тества 13 базови LLM модела върху бектествана търговия с акции, криптовалути и ETF, използвайки кумулативна доходност и коефициент на Шарп — а не точност при въпроси и отговори. Qwen2.5-72B оглавява класацията за акции с 46,15% CR; моделите, фино настроени за финанси, показват лоши резултати при акциите. Размерът на модела предсказва производителността по-надеждно от специализираната домена настройка.
StructRAG (ICLR 2025): Изборът на правилната структура на документа побеждава GraphRAG с 28 точки
StructRAG (ICLR 2025) насочва всяка заявка към подходящ за задачата тип структура — таблица, граф, каталог, алгоритъм или сегмент (chunk) — преди да премине към разсъждения, постигайки с 28 точки по-висок резултат от GraphRAG в бенчмарка Loong, като същевременно работи 22 пъти по-бързо, като само маршрутизаторът, обучен с DPO, допринася за 15 точки ръст в точността.
Едноагентните LLM превъзхождат многоагентните системи при многостъпкови разсъждения при равни бюджети от токени за мислене
Предварителна публикация от Станфорд от 2026 г. изравнява бюджетите от токени за мислене в пет многоагентни архитектури и установява, че едноагентните LLM съвпадат или побеждават многоагентните системи при многостъпкови разсъждения — с теоретична основа в Неравенството при обработката на данни и последици за проектирането на финансови AI агенти.
M3MAD-Bench: Наистина ли са ефективни дебатите между множество агенти в различни области и модалности?
M3MAD-Bench подлага на стрес-тест дебатите между множество агенти (Multi-Agent Debate) в 9 модела, 5 области и визуално-езикови среди, установявайки, че колективната заблуда причинява 65% от неуспехите, състезателният дебат намалява точността с до 12,8%, а самосъгласуваността обикновено съответства на точността на дебата при по-ниска цена на токените.
AGrail: Адаптивни защитни механизми за LLM агенти, които учат чрез задачите
AGrail (ACL 2025) въвежда кооперативен защитен механизъм с два LLM модела, който адаптира проверките за безопасност по време на извеждане чрез адаптация по време на тест (TTA), постигайки 0% успех на атаки с вмъкване на подкани и 95,6% запазване на легитимни действия в Safe-OS — в сравнение с GuardAgent и LLaMA-Guard, които блокират до 49,2% от легитимните действия.
ShieldAgent: Проверимо аргументиране на политики за безопасност за LLM агенти
ShieldAgent (ICML 2025) заменя базираните на LLM защитни прегради с вероятностни схеми с правила, изградени върху логически мрежи на Марков, постигайки 90,4% точност при атаки срещу агенти с 64,7% по-малко API повиквания — и какво означава това за проверимата безопасност във финансовите AI системи.
Atlas: Съвместно предварително обучение на Retriever-Reader превъзхожда LLM с 540 милиарда параметри само с 11 милиарда параметри
Atlas (JMLR 2023) постига 42,4% точност при Natural Questions само с 64 примера за обучение – побеждавайки PaLM 540B с 3 пункта, използвайки 11 милиарда параметри – чрез съвместно предварително обучение на гъст ретривър, базиран на Contriever, с T5 Fusion-in-Decoder рийдър. Анализът обхваща границите на точността на извличане, инфраструктурните разходи за 587GB индекс и последиците за системи за въпроси и отговори върху Beancount главни книги.
Fusion-in-Decoder: Как извличането от множество пасажи подобрява генеративните системи за въпроси и отговори
Архитектурата FiD на Izacard и Grave кодира независимо извлечените пасажи, след което ги обединява в декодера, превъзхождайки RAG-Sequence с 4–11 пункта при NQ и TriviaQA. Тази публикация разглежда дизайна и неговото значение за QA при Beancount регистри, където синтезът на множество записи в трансакциите е норма.