Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Вижте всички автори

BIRD Бенчмарк: Разликата в реалните бази данни при LLM Text-to-SQL
·mike

BIRD Бенчмарк: Разликата в реалните бази данни при LLM Text-to-SQL

Бенчмаркът BIRD (NeurIPS 2023) тества LLM върху 95 реални бази данни — GPT-4 постига само 54,89% точност на изпълнение с насоки за домейна и 34,88% без тях. Тази разлика от 20 пункта директно очертава предизвикателствата, които един BQL интерфейс на естествен език за Beancount трябва да реши.

beancount
ai
llm
database
+3
Проверимо безопасно използване на инструменти от LLM агенти: STPA среща MCP
·mike

Проверимо безопасно използване на инструменти от LLM агенти: STPA среща MCP

Изследователи от CMU и NC State предлагат използването на системен-теоретичен анализ на процесите (STPA) и разширен с възможности Model Context Protocol за извеждане на формални спецификации за безопасност при използването на инструменти от LLM агенти, като верификацията базирана на Alloy демонстрира липсата на небезопасни потоци в казус с планиране на календар.

ai
llm
security
automation
+3
GraphRAG: От локално към глобално обобщаване, фокусирано върху заявки
·mike

GraphRAG: От локално към глобално обобщаване, фокусирано върху заявки

GraphRAG на Microsoft изгражда граф на ентитети с Leiden разделяне върху текстов корпус и предварително изчислява резюмета на общности, за да отговори на въпроси за глобално осмисляне, с които стандартният векторен RAG не може да се справи — но одит на предразположенията от 2025 г. показва, че нивата му на победа от 72–83% се сриват след коригиране на артефактите за позиция и дължина при оценяване тип „LLM като съдия“.

ai
llm
machine-learning
beancount
+3
FinAuditing: LLM постигат под 14% резултат при реални задачи за одит на SEC XBRL
·mike

FinAuditing: LLM постигат под 14% резултат при реални задачи за одит на SEC XBRL

FinAuditing тества 13 LLM без предварителна подготовка (zero-shot) върху 1102 реални примера от SEC XBRL отчети; най-високите резултати са 13,86% при верификация на финансова математика и 12,42% при извличане на концепции – резултати, които директно ограничават степента на доверие към AI счетоводни инструменти без външна помощ.

llm
ai
financial-reporting
machine-learning
+2
InvestorBench: Бенчмаркинг на LLM агенти за вземане на решения при финансова търговия
·mike

InvestorBench: Бенчмаркинг на LLM агенти за вземане на решения при финансова търговия

InvestorBench (ACL 2025) тества 13 базови LLM модела върху бектествана търговия с акции, криптовалути и ETF, използвайки кумулативна доходност и коефициент на Шарп — а не точност при въпроси и отговори. Qwen2.5-72B оглавява класацията за акции с 46,15% CR; моделите, фино настроени за финанси, показват лоши резултати при акциите. Размерът на модела предсказва производителността по-надеждно от специализираната домена настройка.

llm
ai
finance
machine-learning
+3
StructRAG (ICLR 2025): Изборът на правилната структура на документа побеждава GraphRAG с 28 точки
·mike

StructRAG (ICLR 2025): Изборът на правилната структура на документа побеждава GraphRAG с 28 точки

StructRAG (ICLR 2025) насочва всяка заявка към подходящ за задачата тип структура — таблица, граф, каталог, алгоритъм или сегмент (chunk) — преди да премине към разсъждения, постигайки с 28 точки по-висок резултат от GraphRAG в бенчмарка Loong, като същевременно работи 22 пъти по-бързо, като само маршрутизаторът, обучен с DPO, допринася за 15 точки ръст в точността.

ai
llm
machine-learning
beancount
+3
Едноагентните LLM превъзхождат многоагентните системи при многостъпкови разсъждения при равни бюджети от токени за мислене
·mike

Едноагентните LLM превъзхождат многоагентните системи при многостъпкови разсъждения при равни бюджети от токени за мислене

Предварителна публикация от Станфорд от 2026 г. изравнява бюджетите от токени за мислене в пет многоагентни архитектури и установява, че едноагентните LLM съвпадат или побеждават многоагентните системи при многостъпкови разсъждения — с теоретична основа в Неравенството при обработката на данни и последици за проектирането на финансови AI агенти.

ai
llm
machine-learning
automation
+3
M3MAD-Bench: Наистина ли са ефективни дебатите между множество агенти в различни области и модалности?
·mike

M3MAD-Bench: Наистина ли са ефективни дебатите между множество агенти в различни области и модалности?

M3MAD-Bench подлага на стрес-тест дебатите между множество агенти (Multi-Agent Debate) в 9 модела, 5 области и визуално-езикови среди, установявайки, че колективната заблуда причинява 65% от неуспехите, състезателният дебат намалява точността с до 12,8%, а самосъгласуваността обикновено съответства на точността на дебата при по-ниска цена на токените.

ai
llm
machine-learning
automation
+3
AGrail: Адаптивни защитни механизми за LLM агенти, които учат чрез задачите
·mike

AGrail: Адаптивни защитни механизми за LLM агенти, които учат чрез задачите

AGrail (ACL 2025) въвежда кооперативен защитен механизъм с два LLM модела, който адаптира проверките за безопасност по време на извеждане чрез адаптация по време на тест (TTA), постигайки 0% успех на атаки с вмъкване на подкани и 95,6% запазване на легитимни действия в Safe-OS — в сравнение с GuardAgent и LLaMA-Guard, които блокират до 49,2% от легитимните действия.

ai
llm
security
automation
+3
ShieldAgent: Проверимо аргументиране на политики за безопасност за LLM агенти
·mike

ShieldAgent: Проверимо аргументиране на политики за безопасност за LLM агенти

ShieldAgent (ICML 2025) заменя базираните на LLM защитни прегради с вероятностни схеми с правила, изградени върху логически мрежи на Марков, постигайки 90,4% точност при атаки срещу агенти с 64,7% по-малко API повиквания — и какво означава това за проверимата безопасност във финансовите AI системи.

ai
llm
machine-learning
security
+4
Atlas: Съвместно предварително обучение на Retriever-Reader превъзхожда LLM с 540 милиарда параметри само с 11 милиарда параметри
·mike

Atlas: Съвместно предварително обучение на Retriever-Reader превъзхожда LLM с 540 милиарда параметри само с 11 милиарда параметри

Atlas (JMLR 2023) постига 42,4% точност при Natural Questions само с 64 примера за обучение – побеждавайки PaLM 540B с 3 пункта, използвайки 11 милиарда параметри – чрез съвместно предварително обучение на гъст ретривър, базиран на Contriever, с T5 Fusion-in-Decoder рийдър. Анализът обхваща границите на точността на извличане, инфраструктурните разходи за 587GB индекс и последиците за системи за въпроси и отговори върху Beancount главни книги.

ai
machine-learning
llm
data-science
+3
Fusion-in-Decoder: Как извличането от множество пасажи подобрява генеративните системи за въпроси и отговори
·mike

Fusion-in-Decoder: Как извличането от множество пасажи подобрява генеративните системи за въпроси и отговори

Архитектурата FiD на Izacard и Grave кодира независимо извлечените пасажи, след което ги обединява в декодера, превъзхождайки RAG-Sequence с 4–11 пункта при NQ и TriviaQA. Тази публикация разглежда дизайна и неговото значение за QA при Beancount регистри, където синтезът на множество записи в трансакциите е норма.

ai
machine-learning
llm
beancount
+2
Показани 37–48 от 87 публикации