Mike Thrift
Marketing Manager
OpenHands: Отворена платформа за AI софтуерни агенти и какво означава тя за автоматизацията на финансите
OpenHands е платформа за агенти с лиценз MIT и изолация в Docker, където CodeAct постига 26% на SWE-Bench Lite — изтрезняващ бенчмарк, който установява какво могат надеждно да правят AI агентите днес и защо първите продуктивни финансови внедрявания трябва да бъдат тясно ограничени, а не автономни.
Fin-RATE: Как големите езикови модели (LLM) се провалят при междупериодния и междуфирмения финансов анализ
Fin-RATE оценява 17 големи езикови модела върху 7 500 експертно подбрани двойки въпроси и отговори от 2 472 отчета към SEC, разкривайки 18,60% срив в точността при лонгитудиално проследяване и 54 пункта спад за тясно специализирания във финансите Fin-R1 при задачи между различни предприятия — като основното тясно място се оказва конвейерът за извличане на информация (retrieval pipeline), а не базовият модел.
FinDER: Реални запитвания от анализатори разкриват 74% пропуск в пълнотата при финансовия RAG
FinDER оценява RAG върху 5 703 реални запитвания от анализатори на хедж фондове спрямо 10-K отчети на S&P 500; E5-Mistral постига само 25,95% пълнота на контекста, а наситените със съкращения запитвания струват 8,2 пункта прецизност — доказателство, че нормализирането на запитванията, а не по-добрите вграждания, е първото решение за финансовите AI конвейери.
Изгубени по средата: Позиционно отклонение в големите езикови модели (LLM) и неговото въздействие върху финансовия ИИ
Статията в TACL 2024 от Liu и съавтори показва, че LLM се справят с до 20 пункта по-лошо с информация, заровена в средата на дълги контексти — U-образна деградация, засягаща всеки тестван модел, включително Claude-1.3-100K — с конкретни последици за начина, по който RAG конвейерите трябва да подреждат извлечените пасажи във финансови и счетоводни приложения.
AD-LLM бенчмарк: GPT-4o постига 0.93+ AUROC при zero-shot откриване на аномалии в текст
AD-LLM сравнява GPT-4o и Llama 3.1 8B в три роли за откриване на аномалии – zero-shot детектор, генератор на данни и съветник за избор на модел – върху пет NLP набора от данни; GPT-4o достига AUROC 0.93–0.99 при zero-shot, но изборът на модел, базиран на LLM, остава ненадежден, с преки последици за ИИ във финансовия одит.
CausalTAD: Каузално подреждане на колони за откриване на аномалии в таблични данни чрез LLM
CausalTAD подобрява откриването на аномалии в таблични данни чрез LLM, като пренарежда колоните на таблицата според каузалните зависимости преди сериализация, повишавайки средния AUC-ROC от 0.803 на 0.834 спрямо AnoLLM при бенчмаркове със смесен тип данни — с преки последици за откриването на аномалии в структурирани данни от счетоводни книги.
AnoLLM: Фина настройка на LLM за откриване на таблични аномалии във финансови данни
AnoLLM (ICLR 2025) преформулира откриването на таблични аномалии като оценка на плътността чрез LLM — фина настройка върху нормални редове и оценяване чрез отрицателна логаритмична вероятност (NLL). Той превъзхожда класическите методи при набори от данни за измами от смесен тип, но не предлага предимство при чисто числови данни, с реални последици за откриването на аномалии в записите на главната книга на Beancount.
LLM постигат 2,3% при генериране на Beancount DSL: Бенчмаркът LLMFinLiteracy
Бенчмаркът LLMFinLiteracy установява, че пет модела с отворени тегла от около 7B генерират напълно коректни Beancount транзакции само в 2,3% от случаите, като неуспехите са съсредоточени в счетоводната логика — не в синтаксиса — което посочва обратната връзка от компилатора в цикъла като критично липсваща съставка за надеждни агенти за обратен запис.
TableMaster: Адаптивно разсъждение за разбиране на таблици с LLMs
TableMaster е конвейер, базиран само на промптване, който достига 78,13% на WikiTQ с GPT-4o-mini — с 13 пункта над Chain-of-Table — чрез комбиниране на извличане на фокусна таблица, семантична вербализация и адаптивно превключване между текстово и символно разсъждение. Ето какво означава тази архитектура за AI агентите върху финансови леджъри като Beancount.
Откриване на аномалии без обучение (Zero-Shot) с LLM: Как се справя GPT-4 с таблични данни
GPT-4 постига 74,1 среден AUROC в бенчмарка ODDS без фина настройка — почти съвпадайки с класическия ECOD бейзлайн от 75,5 — но се проваля при многоизмерни аномалии и масиви от данни с висока вариативност; критичен преглед на zero-shot откриването на аномалии с LLM и неговото значение за автоматизирания одит на Beancount регистри.
DocFinQA: Финансови разсъждения в дълъг контекст върху пълни SEC отчети
DocFinQA заменя подбраните пасажи от 700 думи във FinQA с пълни SEC отчети от 123 000 думи, разкривайки 175-кратно увеличение на контекста, което почти наполовина намалява точността на GPT-4 при дълги документи. Пайплайните за извличане не успяват да изведат правилния сегмент в 45% от случаите при HR@3 — а моделите с дълъг контекст не са заместител.
TheAgentCompany: Тестване на LLM агенти върху реални корпоративни задачи
TheAgentCompany тества 175 реални работни задачи в симулирана интранет среда с GitLab, OwnCloud и RocketChat. Най-добрият модел (Gemini-2.5-Pro) изпълнява само 30% от задачите на цена от $4 всяка, разкривайки, че автономните агенти все още са далеч от приложимост за работни процеси в счетоводството и финансите.