Mike Thrift

Marketing Manager

June 6, 2026·mike

BIRD Бенчмарк: Разликата в реалните бази данни при LLM Text-to-SQL

Бенчмаркът BIRD (NeurIPS 2023) тества LLM върху 95 реални бази данни — GPT-4 постига само 54,89% точност на изпълнение с насоки за домейна и 34,88% без тях. Тази разлика от 20 пункта директно очертава предизвикателствата, които един BQL интерфейс на естествен език за Beancount трябва да реши.

beancount

llm

June 5, 2026·mike

Проверимо безопасно използване на инструменти от LLM агенти: STPA среща MCP

Изследователи от CMU и NC State предлагат използването на системен-теоретичен анализ на процесите (STPA) и разширен с възможности Model Context Protocol за извеждане на формални спецификации за безопасност при използването на инструменти от LLM агенти, като верификацията базирана на Alloy демонстрира липсата на небезопасни потоци в казус с планиране на календар.

llm

security

June 4, 2026·mike

GraphRAG: От локално към глобално обобщаване, фокусирано върху заявки

GraphRAG на Microsoft изгражда граф на ентитети с Leiden разделяне върху текстов корпус и предварително изчислява резюмета на общности, за да отговори на въпроси за глобално осмисляне, с които стандартният векторен RAG не може да се справи — но одит на предразположенията от 2025 г. показва, че нивата му на победа от 72–83% се сриват след коригиране на артефактите за позиция и дължина при оценяване тип „LLM като съдия“.

llm

machine-learning

June 3, 2026·mike

FinAuditing: LLM постигат под 14% резултат при реални задачи за одит на SEC XBRL

FinAuditing тества 13 LLM без предварителна подготовка (zero-shot) върху 1102 реални примера от SEC XBRL отчети; най-високите резултати са 13,86% при верификация на финансова математика и 12,42% при извличане на концепции – резултати, които директно ограничават степента на доверие към AI счетоводни инструменти без външна помощ.

llm

financial-reporting

June 2, 2026·mike

InvestorBench: Бенчмаркинг на LLM агенти за вземане на решения при финансова търговия

InvestorBench (ACL 2025) тества 13 базови LLM модела върху бектествана търговия с акции, криптовалути и ETF, използвайки кумулативна доходност и коефициент на Шарп — а не точност при въпроси и отговори. Qwen2.5-72B оглавява класацията за акции с 46,15% CR; моделите, фино настроени за финанси, показват лоши резултати при акциите. Размерът на модела предсказва производителността по-надеждно от специализираната домена настройка.

llm

finance

June 1, 2026·mike

StructRAG (ICLR 2025): Изборът на правилната структура на документа побеждава GraphRAG с 28 точки

StructRAG (ICLR 2025) насочва всяка заявка към подходящ за задачата тип структура — таблица, граф, каталог, алгоритъм или сегмент (chunk) — преди да премине към разсъждения, постигайки с 28 точки по-висок резултат от GraphRAG в бенчмарка Loong, като същевременно работи 22 пъти по-бързо, като само маршрутизаторът, обучен с DPO, допринася за 15 точки ръст в точността.

llm

machine-learning

May 31, 2026·mike

Едноагентните LLM превъзхождат многоагентните системи при многостъпкови разсъждения при равни бюджети от токени за мислене

Предварителна публикация от Станфорд от 2026 г. изравнява бюджетите от токени за мислене в пет многоагентни архитектури и установява, че едноагентните LLM съвпадат или побеждават многоагентните системи при многостъпкови разсъждения — с теоретична основа в Неравенството при обработката на данни и последици за проектирането на финансови AI агенти.

llm

machine-learning

May 30, 2026·mike

M3MAD-Bench: Наистина ли са ефективни дебатите между множество агенти в различни области и модалности?

M3MAD-Bench подлага на стрес-тест дебатите между множество агенти (Multi-Agent Debate) в 9 модела, 5 области и визуално-езикови среди, установявайки, че колективната заблуда причинява 65% от неуспехите, състезателният дебат намалява точността с до 12,8%, а самосъгласуваността обикновено съответства на точността на дебата при по-ниска цена на токените.

llm

machine-learning

May 29, 2026·mike

AGrail: Адаптивни защитни механизми за LLM агенти, които учат чрез задачите

AGrail (ACL 2025) въвежда кооперативен защитен механизъм с два LLM модела, който адаптира проверките за безопасност по време на извеждане чрез адаптация по време на тест (TTA), постигайки 0% успех на атаки с вмъкване на подкани и 95,6% запазване на легитимни действия в Safe-OS — в сравнение с GuardAgent и LLaMA-Guard, които блокират до 49,2% от легитимните действия.

llm

security

May 28, 2026·mike

ShieldAgent: Проверимо аргументиране на политики за безопасност за LLM агенти

ShieldAgent (ICML 2025) заменя базираните на LLM защитни прегради с вероятностни схеми с правила, изградени върху логически мрежи на Марков, постигайки 90,4% точност при атаки срещу агенти с 64,7% по-малко API повиквания — и какво означава това за проверимата безопасност във финансовите AI системи.

llm

machine-learning

May 27, 2026·mike

Atlas: Съвместно предварително обучение на Retriever-Reader превъзхожда LLM с 540 милиарда параметри само с 11 милиарда параметри

Atlas (JMLR 2023) постига 42,4% точност при Natural Questions само с 64 примера за обучение – побеждавайки PaLM 540B с 3 пункта, използвайки 11 милиарда параметри – чрез съвместно предварително обучение на гъст ретривър, базиран на Contriever, с T5 Fusion-in-Decoder рийдър. Анализът обхваща границите на точността на извличане, инфраструктурните разходи за 587GB индекс и последиците за системи за въпроси и отговори върху Beancount главни книги.

machine-learning

llm

May 26, 2026·mike

Fusion-in-Decoder: Как извличането от множество пасажи подобрява генеративните системи за въпроси и отговори

Архитектурата FiD на Izacard и Grave кодира независимо извлечените пасажи, след което ги обединява в декодера, превъзхождайки RAG-Sequence с 4–11 пункта при NQ и TriviaQA. Тази публикация разглежда дизайна и неговото значение за QA при Beancount регистри, където синтезът на множество записи в трансакциите е норма.

machine-learning

llm

Показани 37–48 от 87 публикации

Предишна4 / 8Следваща