Mike Thrift

Marketing Manager

May 13, 2026·mike

FinQA: Бенчмаркът за измерване на численото мислене на ИИ върху финансови отчети

FinQA (EMNLP 2021) изгради 8 281 двойки въпроси и отговори от отчети за приходите на S&P 500, изискващи многостъпкови аритметични програми. Невронните модели постигнаха 61% при пускането им срещу 91% за човешки експерти; точността спада до 22% при програми с три или повече стъпки. Режимите на неуспех — константи на домейна, заземяване между различни модалности, дължина на веригата — съответстват директно на предизвикателствата, пред които са изправени Beancount агентите днес.

machine-learning

llm

May 12, 2026·mike

FinanceBench: Защо RAG с векторно хранилище се проваля при реални финансови документи

FinanceBench оценява 16 конфигурации на ИИ спрямо 10 231 въпроса от реални SEC отчети; RAG със споделено векторно хранилище отговаря правилно само в 19% от случаите, а дори GPT-4-Turbo с „oracle“ пасаж достига едва 85% точност — показвайки, че численото разсъждение, а не извличането на информация, е основното ограничение за корпоративния финансов ИИ.

llm

machine-learning

May 11, 2026·mike

DSPy: Замяна на нестабилното проектиране на инструкции с компилирани LLM конвейери

DSPy заменя ръчно изработените низове от инструкции с декларативни сигнатури и компилатор, управляван от метрики — повишавайки резултатите на Llama2-13b от 9,4% на 46,9% при математическото мислене GSM8K и предлагайки по-устойчив път за производствени финансови AI конвейери.

llm

machine-learning

May 10, 2026·mike

LATS: Language Agent Tree Search — Разсъждение, действие и планиране в една рамка

LATS (Language Agent Tree Search, ICML 2024) обединява ReAct, Tree of Thoughts и Reflexion в една MCTS рамка, постигайки 92,7% pass@1 на HumanEval с GPT-4. За базирани на git Beancount регистри, изискването за връщане на състоянието, което ограничава LATS в производствени среди, е тривиално изпълнено.

llm

machine-learning

May 9, 2026·mike

Self-RAG: Адаптивно извличане и самокритика за големи езикови модели (LLMs)

Self-RAG (ICLR 2024 Oral) обучава езиков модел да решава кога да извлича информация и след това да оценява собствените си резултати чрез четири токена за рефлексия — постигайки 55,8% на PopQA и 80,2 FactScore при биографии, като превъзхожда ChatGPT в пет бенчмарка. Анализът обхваща механизма, резултатите от аблацията, лимитите на възпроизводимост и последиците за финансови AI агенти върху Beancount регистри.

machine-learning

llm

May 8, 2026·mike

Voyager: Библиотеки от умения като основа за учене през целия живот на AI агенти

Voyager, базиран на GPT-4 агент за Minecraft от NVIDIA и Caltech, демонстрира, че постоянната библиотека от кодови умения позволява истинско учене през целия живот без фина настройка — откривайки 3,3 пъти повече предмети от предишните водещи технологии. Този модел се пренася директно върху дългосрочната автоматизация на Beancount леджъри, въпреки че финансовата коректност изисква слоеве за подготовка (staging layers), които пясъчниците в игрите не изискват.

llm

machine-learning

May 7, 2026·mike

HippoRAG: Невробиологично вдъхновена дългосрочна памет за LLMs

HippoRAG (NeurIPS 2024) изгражда граф на знанието от OpenIE тройки и прилага Personalized PageRank по време на заявка, достигайки 89,1% Recall@5 при 2WikiMultiHopQA срещу 68,2% за ColBERTv2 – с преки последици при заявки към сложни финансови регистри с многогодишна история на транзакциите.

llm

machine-learning

May 6, 2026·mike

AgentBench: Оценяване на LLM като агенти — уроци за надеждността на ИИ във финансите

AgentBench (Liu et al., ICLR 2024) оценява 27 LLM в 8 интерактивни среди — GPT-4 постигна общ резултат от 4.01 срещу 0.96 за най-добрия модел с отворен код. Трите доминиращи режима на отказ (превишаване на лимита на задачите при 67.9% от отказите в графика на знанието, грешки във формата при 53.3% от отказите в бази данни и невалидни действия) се съпоставят директно с рисковете при внедряване на Beancount агент за запис върху реална главна книга.

llm

machine-learning

May 5, 2026·mike

BloombergGPT и границите на специализираните LLM в областта на финансите

Bloomberg обучи LLM с 50 милиарда параметри върху корпус от 569 милиарда токена финансови данни и победи общите модели в бенчмарковете за сентимент анализ и логически изводи върху таблици — след което GPT-4 го настигна без никакво специализирано финансово обучение. Какво разкрива този експеримент за 10 милиона долара относно компромисите при тясно специализираното предварително обучение, токенизацията на числата и защо използването на външни инструменти е по-надеждно от вътрешната логика на модела за счетоводни агенти.

llm

machine-learning

May 4, 2026·mike

AutoGen: Многоагентни рамки за разговори за финансов ИИ

AutoGen (Wu et al., 2023) представя многоагентна рамка за разговори, при която агенти, базирани на LLM, си обменят съобщения за изпълнение на задачи; конфигурация с два агента повишава точността при MATH бенчмарка от 55% на 69%, а специализиран SafeGuard агент подобрява откриването на небезопасен код с до 35 F1 точки — констатации, пряко приложими за изграждането на безопасни, модулни тръбопроводи за автоматизация на Beancount.

llm

automation

May 3, 2026·mike

Gorilla: Как обучението с отчитане на извличането намалява халюцинациите в LLM API от 78% на 11%

Gorilla (Patil et al., NeurIPS 2024) фино настройва 7B LLaMA модел с обучение с отчитане на извличането (Retriever-Aware Training) върху извлечена API документация, намалявайки процента на халюцинации от 78% на 11% спрямо GPT-4 zero-shot — с преки последици за финансовите AI агенти за записване, където грешните имена на сметки или обърнатите знаци са критични грешки, а не просто неудобства.

llm

machine-learning

May 2, 2026·mike

MemGPT: Управление на виртуален контекст за LLM агенти

MemGPT прилага виртуално пейджиране на паметта в стил операционна система към LLM, използвайки тристепенно съхранение — работна памет, памет за припомняне и архивно хранилище — за да осигури на агентите постоянно припомняне между сесиите; при бенчмаркове за многосесийни чатове, MemGPT с GPT-4 постига 92,5% точност срещу 32,1% базова линия с фиксиран контекст.

llm

machine-learning

Показани 61–72 от 87 публикации

Предишна6 / 8Следваща