Перейти до основного вмісту
Fintech

Все про Fintech

4 статті
Financial technology research, platforms, and infrastructure for modern accounting systems

FinMCP-Bench: Бенчмаркінг агентів LLM для реального використання фінансових інструментів під управлінням MCP

FinMCP-Bench оцінює шість моделей LLM на 613 реальних завданнях з використання фінансових інструментів на базі 65 серверів MCP — найкраща модель отримує 3,08% точних збігів у багатоходових завданнях, демонструючи 20-кратне падіння продуктивності при переході від одноінструментальних до багатоходових сценаріїв.

FinTrace: оцінка виклику інструментів LLM для фінансових завдань на рівні траєкторії

FinTrace тестує 13 LLM на 800 анотованих експертами траєкторіях фінансових завдань за 9 метриками, виявивши, що передові моделі демонструють якісний вибір інструментів (F1 ~0,9), але отримують лише 3,23/5 за використання інформації — етап, на якому агенти аналізують результати роботи інструментів.

FinToolBench: Оцінка агентів LLM на основі використання фінансових інструментів у реальних умовах

FinToolBench поєднує 760 активних фінансових інструментів API з 295 виконуваними запитами для тестування агентів LLM на реальних фінансових завданнях — виявивши, що консервативна частота викликів GPT-4o у 22,7% забезпечує вищу якість відповідей (CSS 0,670), ніж агресивна TIR Qwen3-8B у 87,1%, тоді як невідповідність намірів перевищує 50% у всіх протестованих моделях.

BloombergGPT та межі вузькоспеціалізованих LLM у фінансах

Bloomberg навчила LLM з 50 млрд параметрів на 569 млрд токенів фінансових даних і перевершила загальні моделі в бенчмарках аналізу настроїв та міркувань на основі таблиць — проте GPT-4 наздогнала її без жодного спеціалізованого фінансового донавчання. Що цей експеримент вартістю 10 млн доларів відкриває про компроміси претренінгу в конкретних доменах, токенізацію чисел та чому використання інструментів надійніше за внутрішню логіку моделі для бухгалтерських агентів.