Fava

Todo sobre Fava

Un artículo

Fava web interface for Beancount and related tooling research

Volver a todas las publicaciones Ver todas las etiquetas

AILLMAutomationMachine LearningBeancountFavaWeb InterfaceOpen Source

WebArena: El benchmark de 812 tareas que mide lo que los agentes web realmente pueden y no pueden hacer

GPT-4 completa solo el 14,41% de las 812 tareas web realistas de WebArena, mientras que los humanos alcanzan el 78,24%; el modo de fallo dominante es la falsa inviabilidad (un rechazo conservador a actuar), con implicaciones directas para cualquier agente que opere Fava o interfaces web financieras.

Comience con Beancount.io

Tome el control de sus finanzas con nuestro sistema de contabilidad de partida doble de código abierto. Comience su libro mayor hoy mismo.

Comenzar gratis Ver precios

Construido con transparencia • Controlado por versiones • Impulsado por IA

Todo sobre Fava

WebArena: El benchmark de 812 tareas que mide lo que los agentes web realmente pueden y no pueden hacer

Comience con Beancount.io

Primeros pasos

Funciones

Comunidad

Legal