Към основното съдържание
Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Вижте всички автори

FinQA: Бенчмаркът за измерване на численото мислене на ИИ върху финансови отчети
·mike

FinQA: Бенчмаркът за измерване на численото мислене на ИИ върху финансови отчети

FinQA (EMNLP 2021) изгради 8 281 двойки въпроси и отговори от отчети за приходите на S&P 500, изискващи многостъпкови аритметични програми. Невронните модели постигнаха 61% при пускането им срещу 91% за човешки експерти; точността спада до 22% при програми с три или повече стъпки. Режимите на неуспех — константи на домейна, заземяване между различни модалности, дължина на веригата — съответстват директно на предизвикателствата, пред които са изправени Beancount агентите днес.

ai
machine-learning
llm
finance
+2
FinanceBench: Защо RAG с векторно хранилище се проваля при реални финансови документи
·mike

FinanceBench: Защо RAG с векторно хранилище се проваля при реални финансови документи

FinanceBench оценява 16 конфигурации на ИИ спрямо 10 231 въпроса от реални SEC отчети; RAG със споделено векторно хранилище отговаря правилно само в 19% от случаите, а дори GPT-4-Turbo с „oracle“ пасаж достига едва 85% точност — показвайки, че численото разсъждение, а не извличането на информация, е основното ограничение за корпоративния финансов ИИ.

ai
llm
machine-learning
financial-reporting
+3
DSPy: Замяна на нестабилното проектиране на инструкции с компилирани LLM конвейери
·mike

DSPy: Замяна на нестабилното проектиране на инструкции с компилирани LLM конвейери

DSPy заменя ръчно изработените низове от инструкции с декларативни сигнатури и компилатор, управляван от метрики — повишавайки резултатите на Llama2-13b от 9,4% на 46,9% при математическото мислене GSM8K и предлагайки по-устойчив път за производствени финансови AI конвейери.

ai
llm
machine-learning
automation
+2
LATS: Language Agent Tree Search — Разсъждение, действие и планиране в една рамка
·mike

LATS: Language Agent Tree Search — Разсъждение, действие и планиране в една рамка

LATS (Language Agent Tree Search, ICML 2024) обединява ReAct, Tree of Thoughts и Reflexion в една MCTS рамка, постигайки 92,7% pass@1 на HumanEval с GPT-4. За базирани на git Beancount регистри, изискването за връщане на състоянието, което ограничава LATS в производствени среди, е тривиално изпълнено.

ai
llm
machine-learning
automation
+3
Self-RAG: Адаптивно извличане и самокритика за големи езикови модели (LLMs)
·mike

Self-RAG: Адаптивно извличане и самокритика за големи езикови модели (LLMs)

Self-RAG (ICLR 2024 Oral) обучава езиков модел да решава кога да извлича информация и след това да оценява собствените си резултати чрез четири токена за рефлексия — постигайки 55,8% на PopQA и 80,2 FactScore при биографии, като превъзхожда ChatGPT в пет бенчмарка. Анализът обхваща механизма, резултатите от аблацията, лимитите на възпроизводимост и последиците за финансови AI агенти върху Beancount регистри.

ai
machine-learning
llm
technology
+3
Voyager: Библиотеки от умения като основа за учене през целия живот на AI агенти
·mike

Voyager: Библиотеки от умения като основа за учене през целия живот на AI агенти

Voyager, базиран на GPT-4 агент за Minecraft от NVIDIA и Caltech, демонстрира, че постоянната библиотека от кодови умения позволява истинско учене през целия живот без фина настройка — откривайки 3,3 пъти повече предмети от предишните водещи технологии. Този модел се пренася директно върху дългосрочната автоматизация на Beancount леджъри, въпреки че финансовата коректност изисква слоеве за подготовка (staging layers), които пясъчниците в игрите не изискват.

ai
llm
machine-learning
automation
+3
HippoRAG: Невробиологично вдъхновена дългосрочна памет за LLMs
·mike

HippoRAG: Невробиологично вдъхновена дългосрочна памет за LLMs

HippoRAG (NeurIPS 2024) изгражда граф на знанието от OpenIE тройки и прилага Personalized PageRank по време на заявка, достигайки 89,1% Recall@5 при 2WikiMultiHopQA срещу 68,2% за ColBERTv2 – с преки последици при заявки към сложни финансови регистри с многогодишна история на транзакциите.

llm
ai
machine-learning
beancount
+3
AgentBench: Оценяване на LLM като агенти — уроци за надеждността на ИИ във финансите
·mike

AgentBench: Оценяване на LLM като агенти — уроци за надеждността на ИИ във финансите

AgentBench (Liu et al., ICLR 2024) оценява 27 LLM в 8 интерактивни среди — GPT-4 постигна общ резултат от 4.01 срещу 0.96 за най-добрия модел с отворен код. Трите доминиращи режима на отказ (превишаване на лимита на задачите при 67.9% от отказите в графика на знанието, грешки във формата при 53.3% от отказите в бази данни и невалидни действия) се съпоставят директно с рисковете при внедряване на Beancount агент за запис върху реална главна книга.

ai
llm
machine-learning
automation
+3
BloombergGPT и границите на специализираните LLM в областта на финансите
·mike

BloombergGPT и границите на специализираните LLM в областта на финансите

Bloomberg обучи LLM с 50 милиарда параметри върху корпус от 569 милиарда токена финансови данни и победи общите модели в бенчмарковете за сентимент анализ и логически изводи върху таблици — след което GPT-4 го настигна без никакво специализирано финансово обучение. Какво разкрива този експеримент за 10 милиона долара относно компромисите при тясно специализираното предварително обучение, токенизацията на числата и защо използването на външни инструменти е по-надеждно от вътрешната логика на модела за счетоводни агенти.

llm
ai
machine-learning
finance
+3
AutoGen: Многоагентни рамки за разговори за финансов ИИ
·mike

AutoGen: Многоагентни рамки за разговори за финансов ИИ

AutoGen (Wu et al., 2023) представя многоагентна рамка за разговори, при която агенти, базирани на LLM, си обменят съобщения за изпълнение на задачи; конфигурация с два агента повишава точността при MATH бенчмарка от 55% на 69%, а специализиран SafeGuard агент подобрява откриването на небезопасен код с до 35 F1 точки — констатации, пряко приложими за изграждането на безопасни, модулни тръбопроводи за автоматизация на Beancount.

ai
llm
automation
beancount
+3
Gorilla: Как обучението с отчитане на извличането намалява халюцинациите в LLM API от 78% на 11%
·mike

Gorilla: Как обучението с отчитане на извличането намалява халюцинациите в LLM API от 78% на 11%

Gorilla (Patil et al., NeurIPS 2024) фино настройва 7B LLaMA модел с обучение с отчитане на извличането (Retriever-Aware Training) върху извлечена API документация, намалявайки процента на халюцинации от 78% на 11% спрямо GPT-4 zero-shot — с преки последици за финансовите AI агенти за записване, където грешните имена на сметки или обърнатите знаци са критични грешки, а не просто неудобства.

ai
llm
machine-learning
automation
+3
MemGPT: Управление на виртуален контекст за LLM агенти
·mike

MemGPT: Управление на виртуален контекст за LLM агенти

MemGPT прилага виртуално пейджиране на паметта в стил операционна система към LLM, използвайки тристепенно съхранение — работна памет, памет за припомняне и архивно хранилище — за да осигури на агентите постоянно припомняне между сесиите; при бенчмаркове за многосесийни чатове, MemGPT с GPT-4 постига 92,5% точност срещу 32,1% базова линия с фиксиран контекст.

ai
llm
machine-learning
automation
+4
Показани 61–72 от 87 публикации