Ir al contenido principal

IA Constitucional para agentes contables: RLAIF, reglas de política y riesgos de Goodhart

· 7 min de lectura
Mike Thrift
Mike Thrift
Marketing Manager

El artículo sobre IA Constitucional de Anthropic (Bai et al., 2022, arXiv:2212.08073) sigue surgiendo cada vez que pienso en la seguridad de escritura para agentes contables autónomos. La pregunta central que aborda — ¿se puede lograr que una IA siga consistentemente un conjunto de reglas sin etiquetar cada violación a mano? — se aplica casi exactamente a la pregunta que sigo haciéndome sobre los agentes de libros contables Beancount: ¿cómo se evita que el agente registre asientos mal formados o que violen las políticas sin contratar a un revisor de cumplimiento para verificar cada transacción?

El artículo

2026-04-21-constitutional-ai-harmlessness-from-ai-feedback

Bai et al. introducen la IA Constitucional (CAI), un flujo de entrenamiento para hacer que los LLM sean inocuos sin recopilar etiquetas humanas para salidas dañinas. La única entrada humana es una lista corta de principios en lenguaje natural —la "constitución"— que rige lo que el modelo debe y no debe hacer. Todo lo demás está automatizado: el modelo critica sus propias respuestas frente a esos principios, las revisa y luego un evaluador de IA independiente elige la mejor respuesta de entre pares, generando datos de preferencia para el entrenamiento por refuerzo (RL). La técnica se denomina RLAIF (Aprendizaje por Refuerzo a partir de Retroalimentación de IA), a diferencia del RLHF estándar.

El flujo de trabajo tiene dos fases. En la fase de aprendizaje supervisado (SL-CAI), el modelo lee un prompt dañino, genera una respuesta, critica esa respuesta muestreando uno de los dieciséis principios constitucionales y luego reescribe la respuesta para abordar la crítica. Este bucle de crítica-revisión se repite hasta cuatro veces por ejemplo. Las respuestas revisadas resultantes, junto con ejemplos estándar de utilidad, se utilizan para ajustar el modelo base. En la fase de aprendizaje por refuerzo (RL-CAI), el modelo SL-CAI genera pares de respuestas a prompts dañinos, y un modelo de retroalimentación —también condicionado por la constitución— elige cuál de las dos es mejor. Esas etiquetas de preferencia generadas por IA entrenan un modelo de recompensa, que luego impulsa el ajuste fino por RL de la política. Se añade el prompting de cadena de pensamiento (chain-of-thought) en la etapa de RL para mejorar la calidad del razonamiento antes del juicio final de preferencia binaria.

Ideas clave

  • Los dieciséis principios constitucionales se muestrean aleatoriamente en cada paso de crítica, de modo que ningún principio individual domine y se empuje al modelo hacia una cobertura diversa de daños potenciales.
  • Las comparaciones de trabajadores de crowdsourcing (vía Surge AI) evaluaron la inocuidad y la utilidad a través de 10,274 comparaciones de utilidad y 8,135 comparaciones de inocuidad en 24 instantáneas de entrenamiento. RL-CAI mejoró el Elo de inocuidad en relación con la línea base de SL-CAI sin sacrificar proporcionalmente el Elo de utilidad, la principal afirmación empírica del artículo.
  • El modelo de retroalimentación de IA logra "bastante más del 90% de precisión binaria" al predecir cuál de dos respuestas es mejor, acercándose al rendimiento humano en la misma tarea de comparación.
  • Las etiquetas de preferencia suaves (probabilidades logarítmicas normalizadas) superaron significativamente a las etiquetas duras 0/1 durante el entrenamiento del modelo de recompensa. Limitar las probabilidades de la cadena de pensamiento a un rango del 40–60% mejoró sustancialmente la estabilidad del RL sobre las puntuaciones de confianza no limitadas.
  • El número de principios constitucionales en el conjunto no afectó significativamente las puntuaciones agregadas de inocuidad; lo que importa es tener algunos principios, no optimizar la cantidad.
  • Las ablaciones muestran que las revisiones criticadas superan a las revisiones directas para modelos más pequeños; con 52 mil millones de parámetros la brecha se estrecha, pero las críticas siguen ayudando en los márgenes.

Lo que se mantiene — y lo que no

La afirmación central —que la retroalimentación de IA puede sustituir a las etiquetas humanas de daño preservando la utilidad— está respaldada por comparaciones reales de trabajadores, y el mecanismo de RLAIF es lo suficientemente sólido como para haberse convertido desde entonces en una práctica estándar. Esa parte se mantiene.

Vale la pena detenerse en las limitaciones que reconocen los autores. Primero, el "Goodharting" (ley de Goodhart): los modelos RL-CAI "pueden sobreentrenarse", produciendo un lenguaje genérico como "eres válido, valorado y cuidado" en lugar de un compromiso sustancial. El modelo de preferencia se satura, las puntuaciones pierden calibración en valores altos y la política aprende patrones superficiales de inocuidad en lugar de un razonamiento genuino. Segundo, la calibración: las probabilidades de la cadena de pensamiento suelen estar cerca de 0 o 1 y no están bien calibradas; los autores tuvieron que limitarlas para estabilizar el entrenamiento. Tercero, la afirmación de que el método no requiere "etiquetas humanas" es exagerada, como señaló la revisión del Austin ML Journal Club: los humanos escribieron la constitución, los humanos etiquetaron los datos de utilidad y los humanos evaluaron los modelos finales. La intervención humana es menor, no inexistente.

La preocupación por el doble uso enterrada en el artículo merece más atención de la que recibió. Una técnica que facilita el entrenamiento económico de modelos que siguen reglas también reduce la barrera para entrenar económicamente modelos que sigan reglas perniciosas. Los autores lo mencionan; no lo resuelven.

Por qué esto importa para la IA financiera

El caso de uso de Bean Labs es casi una sustitución directa: reemplace "salidas dañinas" por "violaciones de la política contable" y el flujo de CAI se convierte en una arquitectura plausible para la seguridad de escritura. Defina una constitución de reglas contables —tratamiento GAAP de gastos pagados por adelantado, restricciones del plan de cuentas específicas de la empresa, verificaciones de saldo de partida doble, umbrales de aprobación— y ejecute SL-CAI para enseñar al agente a autocríticar los asientos de diario propuestos antes de confirmarlos. Ejecute RL-CAI para entrenar un modelo de recompensa sobre juicios generados por IA acerca de qué asiento propuesto cumple mejor las normas.

Los modos de fallo también se traducen directamente. La ley de Goodhart en un agente contable se vería como si el agente aprendiera a añadir un descargo de responsabilidad genérico a cada asiento —"esta transacción puede requerir documentación adicional"— en lugar de verificar realmente el cumplimiento. Eso es posiblemente peor que no tener ninguna capa de seguridad, porque crea una falsa sensación de garantía. El problema de la calibración es importante para las decisiones de umbral: un modelo de recompensa con exceso de confianza dará puntuaciones casi binarias que no capturan las violaciones de política marginales. Y la preocupación por el doble uso resurge: la misma técnica podría usarse para entrenar a un agente que siga fielmente instrucciones diseñadas para ocultar transacciones.

Lo que el artículo no aborda es la consistencia temporal: si un agente entrenado con CAI aplica las reglas de manera uniforme a través de todo el historial de un libro mayor o simplemente de forma local por cada asiento. Esa brecha es importante para la conciliación de cierre de mes y los flujos de trabajo de varios pasos.

Qué leer a continuación

  • Collective Constitutional AI: Aligning a Language Model with Public Input (FAccT 2024) — explora la obtención de la propia constitución mediante crowdsourcing; directamente relevante para cómo Bean Labs podría extraer reglas contables de múltiples partes interesadas en lugar de codificarlas unilateralmente.
  • Specific versus General Principles for Constitutional AI (arXiv:2310.13798) — prueba si un único principio de alto nivel ("haz lo mejor para la humanidad") puede sustituir a una larga lista específica; la respuesta es importante para determinar con qué rigor se deben especificar las reglas contables frente a confiar en la ética financiera general.
  • RLHF workflow for LLMs (Ouyang et al., InstructGPT, arXiv:2203.02155) — la línea base de RLHF que CAI está mejorando; entender el original ayuda a calibrar lo que RLAIF realmente aporta.