Microsoft AGT: La seguridad por prompts es teatro
Decirle a un agente "sigue las reglas" falla 1 de cada 4 veces. Esto es lo que sí funciona.
Por AI SOCIETY
Microsoft AGT: La seguridad por prompts es teatro
Decirle a un agente de IA "por favor sigue las reglas" tiene una tasa de violación del 26.67% en red-team controlado. Enforcement real en capa de aplicación: 0.00%. Esos dos números no son teoría — están en el README oficial del repositorio que Microsoft acaba de publicar: el Agent Governance Toolkit (AGT).
La gobernanza de agentes IA ya no es un problema académico. Es el bloqueador real para desplegar sistemas autónomos en banca, salud, manufactura y gobierno. El modelo puede ser excelente. Si no existe una capa de enforcement determinístico en runtime, lo que tienes en producción es un sistema que se porta bien… hasta que no.
AGT es la respuesta más técnicamente rigurosa que hemos visto salir de un hyperscaler. Es open source, cubre los 10 riesgos del OWASP Agentic Top 10, incluye 13,000+ tests y está disponible en Python, TypeScript, .NET, Rust y Go. No es marketing. Es infraestructura. Y cambia la conversación sobre gobernanza de agentes IA de forma irreversible.
Por qué la gobernanza de agentes IA no puede vivir en el prompt
Hay una intuición cómoda que domina muchos proyectos de agentes hoy: si el system prompt es suficientemente detallado, el agente se portará bien. "No hagas X. Siempre verifica Y. Nunca accedas a Z."
El problema es que esa intuición es empíricamente falsa.
Los LLMs son optimizadores probabilísticos. Cuando el objetivo de la tarea entra en tensión con la instrucción de seguridad, el modelo resuelve esa tensión en favor del objetivo — especialmente bajo ataques de prompt injection, goal hijacking o memory poisoning. Eso no es un bug del modelo. Es la naturaleza del sistema.
Los números de AGT son brutales en su claridad:
"Prompt-based safety: 26.67% policy violation rate en red-team. AGT application-layer enforcement: 0.00%." — README oficial, Microsoft Agent Governance Toolkit, github.com/microsoft/agent-governance-toolkit
Una tasa de violación de 26.67% significa que en 4 de cada 15 intentos hostiles, las instrucciones del sistema fallan. En un agente que procesa transacciones financieras, órdenes médicas o permisos de acceso a sistemas regulados, ese número no es aceptable ni en sandbox.
La diferencia con enforcement en capa de aplicación es que las políticas se evalúan de forma determinística — fuera del modelo, antes de que cualquier acción se ejecute. El agente simplemente no puede actuar fuera de los límites definidos, independientemente de lo que el LLM "decida". No hay negociación semántica. Hay o no hay permiso.
Qué trae el Agent Governance Toolkit: los detalles que importan
AGT no es un wrapper de seguridad genérico. Fue diseñado específicamente para las amenazas que emergen cuando los agentes tienen herramientas, memoria persistente y capacidad de actuar en nombre de usuarios reales. Estos son los componentes que cambian el panorama:
Enforcement determinístico de políticas en runtime
Las políticas se evalúan antes de cada acción del agente. Latencia de evaluación: 0.012ms p50 — sub-milisegundo. Eso significa que el overhead de gobernanza no es argumento para no implementarla. En la mayoría de workflows de agentes, el cuello de botella es la latencia del LLM (cientos de ms). La gobernanza no suma fricción operativa perceptible.
Zero-trust identity para agentes
Cada agente recibe una identidad verificable. No se asume que un agente que dice ser "el agente de facturación" efectivamente lo es. Las credenciales se verifican en cada interacción, no solo al inicio de sesión. Esto cierra el vector de Identity Abuse — uno de los 10 riesgos del OWASP Agentic Top 10 que más se ignora en arquitecturas de multi-agente.
Sandboxing por anillos de privilegio
Los agentes operan dentro de anillos de privilegio explícitos. Un agente de atención al cliente no puede escalar a permisos de administración aunque el LLM lo intente. El anillo define el techo. No hay instrucción que lo sobrepase.
SRE para flotas de agentes
AGT incluye primitivas para observabilidad y resiliencia de flotas: health checks, circuit breakers, y telemetría de gobernanza. Esto es lo que distingue operar 1 agente de operar 500 agentes en producción. La gobernanza no puede ser manual a escala.
Cobertura de OWASP Agentic Top 10
Los 10 riesgos cubiertos incluyen Goal Hijacking, Identity Abuse, Memory Poisoning, Rogue Agents, Prompt Injection, Tool Misuse, Privilege Escalation, Data Exfiltration, Cascading Failures y Compliance Drift. 13,000+ tests verifican la cobertura. No hay ambigüedad sobre qué está protegido y qué no.
La señal en la comunidad cloud-native fue inmediata. Bilgin Ibryam, autor de Kubernetes Patterns (O'Reilly) y una de las voces más respetadas en arquitecturas distribuidas, comentó el release — el tweet alcanzó 10,800 views, 188 likes y 43 RTs en círculos donde el engagement orgánico es escaso. Eso es validación técnica, no hype de marketing.
El gap que AGT expone en la industria regulada
El bloqueador real para desplegar agentes en producción en banca, salud y gobierno nunca fue el modelo. Fue la capa de gobernanza.
Pongamos un caso concreto. Un banco mexicano Tier-1 con el que trabajamos en consultoría tenía un piloto de agentes para onboarding de clientes PYMEs. El modelo funcionaba: precisión en extracción de documentos >92%, tiempos de proceso 6x más rápidos que el flujo manual. El piloto nunca escaló a producción.
¿El motivo? El equipo de riesgos no podía responder tres preguntas básicas:
- ¿Cómo se verifica que el agente no accedió a datos fuera del scope del cliente en turno?
- ¿Hay un audit trail inmutable de cada acción que el agente tomó en nombre del usuario?
- ¿Qué pasa si un ataque de prompt injection intenta hacer que el agente apruebe una solicitud fuera de política?
Sin respuestas determinísticas a esas tres preguntas, el proyecto no pasaba el comité de riesgos. El modelo no era el problema. La gobernanza era el problema.
Esa historia se repite en toda la región. Los proyectos de agentes mueren en el comité de riesgos, no en el laboratorio. Y mueren porque la capa de gobernanza no existe o no es auditable.
AGT cierra ese gap con infraestructura, no con promesas. Audit trail nativo, identidad verificable, enforcement pre-acción. Es exactamente lo que el comité de riesgos necesita ver.
Compatibilidad: AGT no pide que cambies tu stack
Uno de los argumentos habituales contra adoptar infraestructura de gobernanza es la fricción de integración. AGT lo anticipó.
Los SDKs disponibles cubren los cinco lenguajes más usados en agentes de producción:
- Python — LangChain, CrewAI, AutoGen, Google ADK
- TypeScript — LangChain JS, Vercel AI SDK
- .NET — Semantic Kernel
- Rust — ecosistema de alta performance / embeddings locales
- Go — infraestructura cloud-native
Compatibilidad con 20+ frameworks incluyendo AWS Bedrock, AutoGen, Semantic Kernel y Google ADK. Si ya tienes agentes en alguno de estos frameworks, la integración de AGT no requiere reescribir tu arquitectura. Requiere añadir la capa de gobernanza sobre lo que ya tienes.
Este punto es importante para equipos que ya tienen trabajo hecho. No es una propuesta de empezar desde cero. Es una propuesta de blindar lo que ya existe.
Qué significa AGT para la gobernanza de agentes IA en LatAm
Microsoft publicando esto como open source tiene una implicación geopolítica que vale la pena nombrar: el estándar de lo que cuenta como "gobernanza seria de agentes" acaba de subir para todos, incluidos los reguladores.
En México, el marco de ciberseguridad del IMSS, las circulares de la CNBV para sistemas de decisión automatizada y la normativa emergente de COFEPRIS para sistemas de apoyo clínico todos apuntan en la misma dirección: si un sistema autónomo toma decisiones que afectan a personas, necesita ser auditable, acotado y trazable.
AGT provee la infraestructura técnica para satisfacer esos requerimientos. No es el único camino, pero es ahora la referencia pública más completa que existe.
En AI SOCIETY hemos construido ARCA sobre los mismos principios que AGT formaliza hoy: enforcement en runtime, audit trail inmutable, identidad verificable por agente, y arquitectura Local-First que garantiza que los datos no salen del perímetro del cliente. ARCA está certificado ISO 42001 — el único sistema operativo agéntico con esa certificación en Latinoamérica. AGT y ARCA no son contradictorios. Son complementarios: AGT es la capa de gobernanza open source; ARCA es el sistema operativo que la integra con despliegue empresarial, soporte, y gobernanza certificada independientemente.
La pregunta que deberían hacerse los equipos de tecnología y riesgos en cualquier empresa regulada de la región no es "¿cuándo llega esto a LatAm?". Ya llegó. La pregunta es: ¿cuándo lo implementamos?
Lo que no dice el README pero tienes que saber
AGT es infraestructura. No es estrategia. Algunos puntos que el toolkit no resuelve por sí solo:
Definir las políticas sigue siendo trabajo humano
AGT puede hacer enforcement determinístico de tus políticas. Pero alguien tiene que definir qué políticas son correctas para tu industria, tu regulación y tu nivel de tolerancia al riesgo. Eso no se genera automáticamente. Requiere gobernanza organizacional, no solo técnica.
La integración sin comprensión es riesgo disfrazado de remedio
Instalar AGT sin entender los vectores de ataque que cubre — especialmente Memory Poisoning y Cascading Failures en arquitecturas multi-agente — puede dar una falsa sensación de seguridad. El toolkit es tan bueno como el equipo que lo configura.
Audit trail sin proceso de revisión no protege a nadie
AGT genera logs auditables. Pero un audit trail que nadie revisa no cumple su función de gobernanza. Necesitas proceso + herramienta.
Estos tres gaps son exactamente donde la consultoría de gobernanza añade valor real. La herramienta ya existe. El trabajo de implementarla correctamente sigue siendo trabajo especializado.
Takeaway: deja de contar con el prompt como línea de defensa
Si estás desplegando agentes en producción — o evaluando hacerlo — la pregunta correcta no es "¿nuestro modelo es seguro?". Los modelos no son seguros ni inseguros en abstracto. Son seguros o inseguros en función de la infraestructura que los rodea.
La pregunta correcta es: ¿tenemos enforcement en runtime?
Si la respuesta es "solo tenemos system prompts", tienes un gap de gobernanza. No de modelo, no de proveedor, no de presupuesto. De gobernanza. Y ese gap es el que convierte proyectos de agentes prometedores en pilotos que nunca llegan al comité de riesgos, o peor, en incidentes que sí llegan pero como post-mortem.
El Agent Governance Toolkit de Microsoft es la señal más clara que hemos visto de que la industria está reconociendo este gap y empezando a resolverlo con infraestructura real.
En AI SOCIETY llevamos tiempo construyendo en esta dirección con ARCA. Si quieres entender cómo se ve una arquitectura de agentes con gobernanza real en producción — con enforcement, audit trail, identidad verificable, y certificación independiente — estamos disponibles para mostrarlo.
No en demo. En producción.
¿Tu empresa está evaluando despliegue de agentes en industrias reguladas? Escríbenos — hacemos diagnóstico de arquitectura y gap de gobernanza antes de que el proyecto llegue al comité de riesgos.