Microsoft AGT: La Seguridad por Prompts Es Teatro

La seguridad basada en prompts tiene una tasa de fallo del 26.67%

Ese número no viene de un paper académico ni de un consultor vendiendo miedo. Viene del propio red-team de Microsoft, publicado junto al lanzamiento del Microsoft Agent Governance Toolkit (AGT) en mayo de 2025.

El experimento es simple y demoledor: toma un agente con instrucciones de seguridad escritas en el system prompt — el estándar de facto en la industria — y ponlo bajo un red-team estructurado con 13,000+ pruebas que cubren los 10 riesgos del OWASP Agentic Top 10. Resultado: una de cada cuatro políticas falla.

Ahora activa el enforcement a nivel de aplicación con AGT. Resultado: 0.00% de violaciones. Mismos tests. Mismo modelo. Diferente capa de gobernanza.

Esto no es un problema de cuál LLM estás usando. Es un problema arquitectónico. Y tiene solución — open source, disponible hoy, con latencia p50 de 0.012 ms en evaluación de políticas. Sin excusa de performance.

Por qué la gobernanza de agentes no es un problema de modelo

La intuición errónea más extendida en equipos de ingeniería que despliegan agentes en producción es esta: si el modelo es suficientemente bueno y el prompt suficientemente claro, el agente se comportará bien.

Es una intuición comprensible. Y está fundamentalmente equivocada.

Un prompt es lenguaje natural interpretado por un modelo probabilístico. No es código ejecutable. No es contrato. No es política. Es una sugerencia con mucho contexto. Y como toda sugerencia, puede ser ignorada, malinterpretada, o sobrescrita — especialmente bajo adversarial inputs, prompt injection, o simplemente la complejidad emergente de un agente multi-paso ejecutando herramientas reales contra APIs reales con datos reales.

"The shift from models to agents represents a fundamental change in AI risk surface. Agents act autonomously, persist state, and call tools with real-world consequences. Prompt-level safety was never designed for this threat model."

— Bilgin Ibryam, autor de Kubernetes Patterns (O'Reilly), en el anuncio del repositorio AGT

Bilgin no es un activista de AI safety. Es el ingeniero que le explicó a la industria cómo pensar en sistemas distribuidos sobre Kubernetes. Cuando alguien con ese perfil dice que el modelo de amenaza cambió, vale la pena escuchar.

Los 10 riesgos que ningún prompt resuelve

El OWASP Agentic Top 10 — lanzado en 2025 — cataloga los riesgos específicos de agentes autónomos que operan en producción. Los tres más críticos para entender por qué los prompts no bastan:

Prompt injection transitivo: un agente que lee un documento externo puede ser redirigido por contenido malicioso incrustado en ese documento. El system prompt no ve el ataque.
Tool poisoning: una herramienta registrada dinámicamente puede tener una descripción que engaña al agente sobre qué hace realmente. Hoy. En frameworks como MCP.
Privilege escalation: un agente orquestador puede, sin controles explícitos, delegar permisos a sub-agentes que no deberían tenerlos. Los prompts no tienen primitivas de identidad.

AGT fue diseñado explícitamente para cubrir los 10. No como checkbox de compliance — como arquitectura.

Qué hace el Microsoft Agent Governance Toolkit, componente por componente

AGT es open source (github.com/microsoft/agent-governance-toolkit). Apache 2.0. SDKs en Python, TypeScript, .NET, Rust y Go. Compatible con 20+ frameworks: LangChain, CrewAI, AutoGen, OpenAI Agents SDK, Google ADK, Semantic Kernel, AWS Bedrock.

Cinco componentes. Cada uno reemplaza una promesa por un mecanismo.

1. Policy Engine — YAML / OPA / Rego / Cedar

Políticas declarativas evaluadas en runtime, antes de que el agente ejecute cualquier acción. No es "el agente decide si puede hacer esto". Es "el sistema decide antes de dárselo al agente".

La latencia p50 es 0.012 ms. Para contexto: un roundtrip a un LLM típico es 300-1500 ms. La evaluación de políticas agrega menos del 0.004% de latencia total. El argumento de performance no existe.

2. Zero-Trust Identity — Ed25519 + ML-DSA-65

Cada agente tiene identidad criptográfica. Las acciones se firman. Los orchestrators no pueden simplemente asumir que un sub-agente "es quien dice ser". ML-DSA-65 es quantum-safe — no porque el ataque cuántico sea inminente, sino porque las auditorías de banca y gobierno requieren que lo justifiques por escrito.

3. Execution Sandboxing — 4 anillos de privilegio

Un agente de atención a cliente no necesita los mismos permisos de sistema que el agente de backoffice que procesa pagos. AGT implementa cuatro niveles de aislamiento con separación real por hardware. El principio de mínimo privilegio deja de ser aspiracional.

4. Agent SRE — SLOs, circuit breakers, chaos engineering

Gobernanza no es solo "no hagas cosas malas". Es también "no te cuelgues y te lleves el sistema contigo". AGT incluye herramientas de ingeniería de confiabilidad para agentes: SLOs declarativos, circuit breakers para llamadas a herramientas, y chaos engineering integrado para validar en staging antes de producción.

5. MCP Security Gateway

Esta es la pieza que más directamente responde a los riesgos emergentes de 2025. El gateway detecta:

Tool poisoning: descripciones de herramientas que engañan al agente.
Description drift: una herramienta que cambió lo que hace sin actualizar su descripción.
Typosquatting: herramientas maliciosas registradas con nombres similares a herramientas legítimas.

Para quienes operan o planean operar con MCP (Model Context Protocol) en producción, este componente resuelve el mayor vector de ataque activo en el ecosistema hoy.

Gobernanza de agentes en LatAm: el verdadero bloqueador

Hemos trabajado con equipos de tecnología en banca, salud y gobierno en México y el resto de LatAm. El patrón que vemos repetidamente no es "no tenemos el modelo correcto" ni "no tenemos los datos suficientes".

El patrón es este: el agente funciona en demo. No pasa el comité de riesgo. No pasa auditoría interna. No pasa el área legal. Y el equipo de ingeniería no tiene respuestas concretas porque nunca fue diseñado para tenerlas.

Un banco de primer nivel en México con el que trabajamos en despliegue de agentes de análisis de crédito pasó seis meses bloqueado — no por razones técnicas, sino porque no podían responder tres preguntas:

¿Cómo sabemos qué herramientas puede llamar el agente y bajo qué condiciones?
¿Cómo auditamos cada decisión del agente para efectos regulatorios?
¿Cómo garantizamos que una actualización del modelo no cambie el comportamiento en producción sin que nadie lo sepa?

AGT responde las tres. El Policy Engine resuelve la primera. Los audit logs con Merkle chain (inmutables, verificables criptográficamente) resuelven la segunda. El Agent SRE con SLOs y alertas resuelve la tercera.

El mayor bloqueador para escalar agentes en producción en sectores regulados no es el modelo. Nunca lo fue.

Qué cubre ARCA y qué agrega AGT

ARCA — el sistema operativo agéntico que desarrollamos en AI SOCIETY, el primero en LatAm con certificación ISO 42001 — ya incorpora capas de gobernanza en producción: identidad de agentes, audit trail, control de herramientas, y despliegue Local-First sin egress a nubes de terceros.

AGT no es un reemplazo. Es una señal de validación de industria y, en algunos componentes, una extensión.

Lo que ARCA ya cubre

Local-First: ningún dato sale de tu infraestructura sin consentimiento explícito.
ISO 42001: la única certificación de gestión de IA auditable por terceros disponible en la región.
Audit trail: cada acción del agente registrada y trazable.
Control de herramientas: cuáles herramientas puede usar cada agente, con qué parámetros, bajo qué condiciones.

Lo que vale la pena evaluar de AGT si ya operas con ARCA

MCP Security Gateway: si estás integrando o planeas integrar herramientas vía MCP, el gateway de detección de tool poisoning y description drift es complementario — no redundante — con lo que ARCA hace hoy.
ML-DSA-65: si tus compromisos contractuales o regulatorios incluyen requisitos de seguridad post-cuántica (cada vez más común en govtech y defensa), vale evaluar la capa de identidad quantum-safe.
Chaos engineering integrado: pocas organizaciones en LatAm hacen chaos engineering sobre sus agentes antes de producción. AGT lo hace accesible sin infraestructura adicional.

La pregunta correcta no es "¿uso AGT o ARCA?" Es: ¿qué capas de gobernanza ya tengo cubiertas, cuáles están en promesas de prompt, y cuáles necesito reforzar con mecanismos determinísticos?

Lo que cambió en 2025 y no tiene vuelta atrás

El OWASP Agentic Top 10, el lanzamiento de AGT, la proliferación de MCP como estándar de integración, y la presión regulatoria creciente en la UE, Brasil y México sobre sistemas de decisión automatizada confluyen en el mismo punto:

La era del "el agente funciona bien en mis pruebas" terminó.

Los comités de riesgo, los auditores y los reguladores van a exigir lo que AGT — y ARCA — ya pueden entregar: política determinística, identidad verificable, sandboxing real, y logs inmutables. No porque sean burocracia. Porque son las preguntas correctas.

Si en tu organización hay agentes en producción — o en staging esperando aprobación — con seguridad basada en instrucciones de texto, tienes una deuda técnica de gobernanza. El toolkit de Microsoft la hace pagable. La certificación ISO 42001 de ARCA la hace auditable.

La buena noticia: ambos son open source o servicios disponibles hoy. El bloqueador ya no es tecnológico. Es decisión.

Conclusión: Política determinística o ruleta probabilística

No existe un punto medio funcional. O tu agente tiene controles que se ejecutan antes de cada acción — evaluados en 0.012 ms, firmados criptográficamente, auditables — o tiene sugerencias escritas en lenguaje natural que fallan en una de cada cuatro interacciones adversariales.

Revisa el Microsoft Agent Governance Toolkit. Estudia el OWASP Agentic Top 10. Y si operas en un sector regulado en LatAm y necesitas que tu arquitectura de agentes pase auditoría, no solo demo — eso es exactamente lo que construimos y desplegamos con ARCA.

¿Quieres saber qué capas de gobernanza ya tienes cubiertas y cuáles no? Escríbenos. Hacemos el diagnóstico.