gobernanza de agentes IA·9 min lectura·

Microsoft AGT y el fin del teatro de seguridad en agentes

El 26.67% de violaciones con "por favor sigue las reglas". El 0.00% con enforcement real. Ahora hay números.

Por AI SOCIETY

El 26.67% de las veces que un agente AI recibe la instrucción "por favor sigue las reglas de seguridad", la viola de todas formas.

El 0.00% de las veces que esa misma política existe como enforcement determinístico en la capa de aplicación, la viola.

Microsoft acaba de publicar estos números con el lanzamiento del Agent Governance Toolkit (AGT) — y si estás desplegando agentes en industrias reguladas, esta diferencia no es un detalle técnico. Es la diferencia entre tener gobernanza de agentes IA real y tener un documento de Word que dice que la tienes.


Por qué la gobernanza de agentes IA basada en prompts es teatro

Durante los últimos dos años, la respuesta estándar a "¿cómo gobernas tus agentes en producción?" ha sido alguna variante de: "tenemos un system prompt bien diseñado". Se le agregan frases como "solo responde sobre temas relevantes", "no reveles información confidencial", "actúa de acuerdo con nuestras políticas", y se llama a eso gobernanza.

No lo es.

Un system prompt es texto. Los modelos de lenguaje son, por diseño, sistemas probabilísticos entrenados para seguir instrucciones contextuales. Si el contexto cambia — con suficiente presión adversarial, con prompt injection desde una herramienta comprometida, con una cadena de agentes que altera la semántica de las instrucciones originales — el modelo puede, y estadísticamente lo hace, ignorar esas restricciones.

Los números de Microsoft lo confirman con metodología de red-team formal: 26.67% de tasa de violación con seguridad basada en prompts. No es un bug. Es la naturaleza del mecanismo.

El problema escala con la autonomía

Un agente que solo responde preguntas tiene superficie de ataque limitada. Un agente que ejecuta herramientas, delega subtareas a otros agentes, accede a APIs externas y actúa sobre sistemas reales — que es exactamente lo que hace un agente útil en producción — tiene una superficie de ataque que crece de forma combinatoria con cada capability nueva que le agregas.

La industria financiera en México lo está aprendiendo rápido: los primeros proyectos de agentes en producción que han pasado por nuestras auditorías de gobernanza mostraron vectores de ataque que no existían en los prototipos de demo. No porque los equipos fueran descuidados. Porque los prototipos no usaban herramientas reales con datos reales en redes reales.


Qué es realmente el Microsoft Agent Governance Toolkit

El AGT no es un nuevo modelo. No es un wrapper de prompts con mejor redacción. Es una capa de infraestructura de gobernanza que opera fuera del modelo, a nivel de aplicación, con las siguientes piezas centrales:

Policy engine determinístico

Las políticas no se "piden" al modelo — se evalúan antes y después de cada acción del agente con lógica determinística. Si la política dice que un agente no puede ejecutar transacciones mayores a $50,000 USD sin aprobación humana, esa restricción no vive en el prompt. Vive en código que el modelo no puede leer ni modificar. Latencia de evaluación: 0.012ms en el percentil 50. Sub-milisegundo. No hay excusa de performance para no implementarlo.

Identidad zero-trust con credenciales quantum-safe

Cada agente tiene una identidad verificable, no solo un nombre en un prompt. El sistema usa credenciales diseñadas para resistir ataques de computación cuántica. Para una industria financiera que necesita demostrar ante reguladores que sabe quién ejecutó qué acción y cuándo, esto no es nice-to-have — es tabla de entrada.

Sandboxing con cuatro anillos de privilegio

Inspirado en arquitecturas de seguridad de sistemas operativos, el AGT segmenta los privilegios del agente en cuatro niveles. Un agente que necesita leer un documento no obtiene automáticamente acceso de escritura a la base de datos. El principio de mínimo privilegio, aplicado a agentes autónomos.

MCP Security Gateway

Este es el componente que más nos importa en el contexto actual. El Model Context Protocol se ha convertido rápidamente en el estándar de facto para conectar agentes con herramientas externas. El problema: un servidor MCP malicioso o comprometido puede inyectar instrucciones ocultas, modificar la descripción de herramientas para alterar el comportamiento del agente (description drift), suplantar herramientas legítimas con nombres similares (typosquatting), o envenenar el contexto con datos adversariales (tool poisoning).

El MCP Security Gateway del AGT detecta los cuatro vectores. Ninguna solución anterior lo hacía de forma integrada.


Los números detrás del toolkit

No hay marketing sin datos. Estos son los que Microsoft publicó:

  • 26.67% de tasa de violación de políticas con seguridad basada en prompts en red-team testing.
  • 0.00% de tasa de violación con enforcement en capa de aplicación (AGT).
  • 0.012ms latencia p50 en evaluación de políticas.
  • 13,000+ tests automatizados cubriendo los 10 riesgos del OWASP Agentic Top 10.
  • Soporte para Python, TypeScript, .NET, Rust y Go.
  • Compatibilidad con 20+ frameworks: LangChain, CrewAI, AutoGen, OpenAI Agents SDK, AWS Bedrock, entre otros.
  • Licencia: open source. Repo: github.com/microsoft/agent-governance-toolkit.

La cobertura del OWASP Agentic Top 10 merece énfasis. El OWASP Agentic Top 10 es la primera categorización formal de los riesgos específicos a sistemas agénticos — distinta del OWASP Top 10 para aplicaciones web y del OWASP LLM Top 10 para modelos de lenguaje. Que un toolkit cubra los 10 de forma verificable con 13,000 tests es la diferencia entre una afirmación de marketing y una postura de seguridad auditable.

"La identidad del agente, la autorización de acciones y la trazabilidad de decisiones son los tres pilares que las organizaciones necesitan resolver antes de llevar agentes autónomos a producción en entornos regulados."

— OWASP Agentic AI Security Project, 2025


Qué significa esto para banca, salud y govtech en LatAm

Hay un patrón que vemos repetirse en los proyectos de despliegue de agentes en industrias reguladas en México y el resto de la región: el bloqueador real no es el modelo. Los modelos ya son suficientemente capaces. El bloqueador es la ausencia de una capa de gobernanza que un regulador, un auditor o un CISO pueda revisar, verificar y firmar.

Un banco mexicano Tier-1 con el que trabajamos en 2024 tenía un agente de atención a clientes funcionando correctamente en demos durante meses. Cuando llegó la revisión de seguridad previa al go-live, el equipo de compliance identificó tres problemas que ningún prompt hubiera resuelto: el agente podía ser instruido por datos en documentos de clientes para ejecutar acciones fuera de su scope, no existía registro inmutable de qué decisiones tomó el agente y por qué, y no había mecanismo para revocar los permisos del agente en tiempo real si se detectaba comportamiento anómalo. El proyecto se retrasó seis meses. No por el modelo. Por la gobernanza.

Con AGT — o con ARCA, que implementa los mismos principios de enforcement en capa de aplicación con certificación ISO 42001 verificada de forma independiente — ese banco hubiera tenido esos tres problemas resueltos desde el diseño, no descubiertos en la revisión.

El efecto en el costo de cumplimiento

La gobernanza de agentes IA implementada en la capa de infraestructura tiene un efecto que los CFOs entienden mejor que cualquier argumento técnico: reduce dramáticamente el costo de las auditorías de cumplimiento. Cuando las políticas son código determinístico con logs inmutables, la respuesta a "¿puedes demostrar que tu agente no ejecutó acciones fuera de su scope el mes pasado?" es una query, no una investigación de tres semanas.


ARCA y AGT: Local-First, certificado, en producción

El lanzamiento del AGT valida la dirección que llevamos construyendo en ARCA. Hay diferencias importantes, y son relevantes para el contexto LatAm.

ARCA es Local-First por diseño: los modelos, las políticas y los logs de gobernanza viven en tu infraestructura, no en la nube de un hyperscaler. Para un hospital mexicano con datos bajo la Ley Federal de Protección de Datos Personales, para una institución financiera bajo regulación de la CNBV, o para una dependencia de gobierno con datos sensibles de ciudadanos, el Local-First no es una preferencia arquitectónica — es un requerimiento legal.

ARCA está certificado ISO 42001 — el único estándar internacional de gestión de sistemas de IA, auditado de forma independiente. No es una declaración en nuestro sitio web. Es un certificado con número de registro que puedes pedir al auditor.

El AGT de Microsoft es open source y compatible con 20+ frameworks. ARCA lo puede integrar como capa de enforcement en despliegues donde los clientes ya tienen inversión en esos frameworks. No son mutuamente excluyentes — son complementarios.

"La diferencia entre AI governance como proceso y AI governance como infraestructura es la misma que entre tener una política de seguridad y tener un firewall."

— AI SOCIETY, evaluación interna de proyectos en producción, 2025


Lo que tienes que hacer ahora

Tres preguntas concretas para evaluar dónde estás:

1. ¿Tus políticas de gobernanza de agentes viven en prompts o en código? Si la respuesta es "en prompts", tienes teatro. La pregunta no es si vas a tener un incidente — es cuándo.

2. ¿Tienes logs inmutables de las decisiones y acciones de tus agentes? Si no puedes responder a un auditor qué hizo tu agente el martes pasado a las 3pm con logs verificables, no tienes auditoría. Tienes esperanza.

3. ¿Puedes revocar los permisos de un agente en tiempo real? Si tu único mecanismo de respuesta ante un agente comprometido es apagar el servidor, estás operando sin kill switch. En industrias reguladas, eso es un riesgo operacional documentable.


Takeaway

Deja de confiar en instrucciones de sistema para gobernar agentes en producción.

El Microsoft Agent Governance Toolkit acaba de poner números públicos a algo que los equipos técnicos serios ya sabían: los prompts no son gobernanza. Son intención. La gobernanza es enforcement determinístico, identidad verificable, sandboxing de privilegios y logs auditables. Todo en la capa de aplicación, fuera del alcance del modelo.

Si estás desplegando agentes en banca, salud, o gobierno en LatAm, el bloqueador no es encontrar el modelo correcto. Es resolver la capa de gobernanza antes del go-live, no después.

Revisa el AGT en GitHub. Y si quieres ver cómo se integra con ARCA en un entorno Local-First con certificación ISO 42001 — sin enviar tus datos a ninguna nube externa — escríbenos. Estamos en producción con esto hoy.

Microsoft AGT: Seguridad de agentes con datos reales