gobernanza de agentes de IA·9 min lectura·

Microsoft AGT: El Fin de la Seguridad por Prompts

Decirle a un agente "sé seguro" no es gobernanza. Esto sí.

Por AI SOCIETY

Microsoft AGT: El Fin de la Seguridad por Prompts

Microsoft AGT: El Fin de la Seguridad por Prompts

La gobernanza de agentes de IA que más se usa hoy en producción es una instrucción de texto. Un párrafo en el system prompt que dice algo como "nunca compartas información confidencial" o "sigue siempre las políticas de la empresa".

En red-team testing controlado, esa instrucción tiene una tasa de violación del 26.67%.

Una de cada cuatro veces, el agente hace exactamente lo que le dijiste que no hiciera.

Microsoft acaba de publicar una respuesta a ese número: el Agent Governance Toolkit (AGT), un toolkit open source con enforcement determinístico a nivel runtime. Con AGT, la tasa de violación en los mismos escenarios de red-team baja a 0.00%. No es un modelo más fino. No es un prompt mejor escrito. Es una arquitectura diferente — y la diferencia importa mucho si tu empresa opera en una industria regulada.


Por qué la gobernanza de agentes por prompts es teatro

Un prompt es una instrucción en lenguaje natural. Los LLMs son, por definición, sistemas probabilísticos. Pedirle a un sistema probabilístico que aplique una política de seguridad determinística es el equivalente a poner un letrero de "no entrar" en lugar de una puerta con llave.

El problema no es que los modelos sean malos. El problema es que no existe modelo alguno — ni GPT-5, ni Claude, ni Gemini — que pueda garantizar el 100% de adherencia a una política expresada en texto libre bajo todas las condiciones de adversario. La investigación lo demuestra. Los red-teamers lo explotan. Y los reguladores, tarde o temprano, lo van a exigir auditar.

Los 10 riesgos que el sistema prompt no puede cubrir

El OWASP Agentic Top 10 documenta los vectores de ataque específicos de sistemas agénticos. No son hipotéticos — son los que los equipos de seguridad ya están encontrando en producción:

  • Goal Hijacking: un input externo redirige el objetivo del agente.
  • Excessive Capabilities: el agente ejecuta acciones fuera de su scope autorizado.
  • Identity & Privilege Abuse: el agente actúa con privilegios que no le corresponden al contexto.
  • Uncontrolled Code Execution: el agente ejecuta código arbitrario sin sandboxing.
  • Insecure Output Handling: el output del agente inyecta contenido malicioso downstream.
  • Memory Poisoning: datos contaminados en memoria persistente afectan decisiones futuras.
  • Unsafe Inter-Agent Communication: agentes se pasan instrucciones sin validación.
  • Cascading Failures: un fallo en un agente colapsa la flota completa.
  • Human-Agent Trust Deficit: el humano no puede verificar qué decidió el agente ni por qué.
  • Rogue Agents: un agente escala privilegios o actúa fuera del sistema de gobernanza.

Ninguno de estos riesgos se mitiga escribiendo mejor el system prompt. Todos requieren enforcement a nivel de infraestructura.


Qué hace Microsoft AGT que un prompt no puede hacer

El Agent Governance Toolkit no es un wrapper alrededor del LLM. Opera en la capa de runtime, antes y después de que el modelo genere cualquier output. Cuatro componentes centrales:

1. Policy Engine determinístico

Las políticas no son texto. Son reglas compiladas que se evalúan con lógica booleana antes de que cualquier acción se ejecute. No hay probabilidad. No hay interpretación. La acción cumple la política o no cumple la política. El resultado es binario.

Latencia de evaluación: 0.012ms p50. Sub-milisegundo. No hay excusa de performance para no usarlo.

2. Zero-Trust Identity para agentes

Cada agente en la flota tiene una identidad verificable. Cada acción se autoriza en función de esa identidad y el contexto de la solicitud — no del texto que el LLM generó. Si el agente de facturación intenta acceder a datos de RRHH, la solicitud falla en la capa de identity antes de llegar al dato.

3. Sandboxing de ejecución

El código que ejecuta un agente corre en un entorno aislado con límites explícitos de recursos, acceso a red, y permisos de sistema de archivos. Un agente comprometido no puede moverse lateralmente.

4. SRE para flotas agénticas

AGT incluye instrumentación para observabilidad y respuesta a incidentes a nivel flota. Cuando un agente falla, el sistema tiene visibilidad de qué falló, por qué, y qué acciones tomó antes del fallo. Esto no es confort operacional — en industrias reguladas, es el requisito de auditoría.

"The shift from prompt-based to policy-based governance is the same shift we made from role-based access control in application code to IAM policies in cloud infrastructure. You don't trust the app to enforce its own permissions. You enforce at the platform layer."

— Bilgin Ibryam, autor de Kubernetes Patterns (O'Reilly), en el hilo de lanzamiento de AGT — 10,800 impresiones, 188 likes, 43 RTs.


Los números que hacen el argumento

No hace falta hacer el caso filosófico cuando los datos son este claros.

Mecanismo Tasa de violación (red-team)
Prompt-based safety 26.67%
AGT application-layer enforcement 0.00%

El benchmark corre sobre 13,000+ tests en el repositorio oficial de Microsoft. No es un paper académico con n=50. Es un suite de pruebas reproducible que cualquier equipo puede correr.

Compatibilidad: AGT no exige migrar tu stack. Soporta 20+ frameworks: LangChain, CrewAI, AutoGen, OpenAI Agents SDK, Google ADK, Semantic Kernel, AWS Bedrock, Dify. SDKs disponibles en Python, TypeScript, .NET, Rust y Go.

Repo: github.com/microsoft/agent-governance-toolkit


El contexto LatAm que la comunidad global no está discutiendo

La conversación sobre AGT en LinkedIn y Twitter/X es mayoritariamente técnica y en inglés. Bilgin Ibryam tiene razón en el diagnóstico de infraestructura. Pero hay una dimensión que el debate global no está articulando con suficiente claridad: el bloqueador para desplegar agentes en industrias reguladas en LatAm no ha sido la capacidad del modelo. Ha sido la ausencia de una capa de gobernanza auditable.

Dos casos concretos que trabajamos en esta región:

Caso 1: Manufactura automotriz Tier-1

Un fabricante de automóviles con operaciones en México quería agentes de IA para automatizar flujos de aprobación de calidad en línea de ensamble. El modelo funcionaba. La demo era impresionante. El proyecto se detuvo nueve meses porque el equipo de auditoría interna no podía responder una pregunta básica: ¿cómo demuestra que el agente nunca tomó una decisión fuera de las políticas de calidad certificadas?

La respuesta "el system prompt lo instruye a no hacerlo" no pasó la revisión. Con una capa de enforcement como AGT — donde cada decisión tiene un policy log inmutable — esa pregunta tiene respuesta.

Caso 2: Banco retail mexicano

Un banco de retail en México implementó agentes de atención al cliente. En producción, el 3.2% de las interacciones resultaba en respuestas que el equipo de compliance clasificaba como fuera de política — no fraude, pero sí respuestas que podían interpretarse como asesoría financiera no autorizada bajo la regulación de la CNBV.

Con enforcement a nivel policy engine, esas respuestas se interceptan antes de llegar al canal. El agente no genera el output — la regla de compliance lo bloquea en el runtime.


Lo que esto significa para la gobernanza AI en México y LatAm

La Unión Europea ya exige, bajo el AI Act, que los sistemas de IA de alto riesgo sean auditables, explicables y operen bajo controles documentados. México no tiene un AI Act equivalente hoy — pero la CNBV, la COFECE y la regulación de protección de datos ya crean obligaciones que los agentes en producción deben cumplir.

La pregunta no es si el regulador mexicano o latinoamericano va a exigir gobernanza de agentes. Es cuándo. Y la empresa que llega a esa conversación sin una arquitectura de enforcement a nivel runtime va a tener que reconstruir desde cero bajo presión regulatoria — que es la peor condición para hacerlo bien.

La certificación ISO 42001 — el estándar internacional de gestión de sistemas de IA — requiere precisamente esto: controles verificables, trazabilidad de decisiones, y gestión de riesgos documentada. AGT es el tipo de herramienta que hace que esa certificación no sea solo un ejercicio de papelería.

En AI SOCIETY operamos ARCA con esta arquitectura de gobernanza. No como aspiración futura. En producción, hoy, con clientes en industrias reguladas. La certificación ISO 42001 que obtuvimos no es marketing — es la evidencia de que el sistema opera bajo controles que un auditor externo puede verificar.


Cómo evaluar AGT en tu organización: tres preguntas antes de instalar

Antes de correr pip install agent-governance-toolkit en un entorno de producción, hay tres preguntas que un equipo de arquitectura debería responder:

1. ¿Qué políticas existen ya documentadas que podrían compilarse como reglas? Si la respuesta es "están en el system prompt", ese es el primer problema a resolver. AGT requiere políticas explícitas. Escribirlas es el trabajo de gobernanza — no lo hace la herramienta.

2. ¿Qué identidades tienen tus agentes hoy? Si todos tus agentes corren bajo el mismo service account con los mismos permisos, el zero-trust identity de AGT no puede diferenciarse correctamente. La arquitectura de identidad viene antes.

3. ¿Tienes un proceso de respuesta a incidentes para decisiones de agentes? El SRE para flotas agénticas que incluye AGT genera observabilidad. Pero la observabilidad sin un proceso de respuesta es solo ruido. Define primero quién responde cuando un agente falla.


Conclusión: el enforcement no es opcional en producción regulada

La seguridad de agentes basada en prompts es suficiente para demos. No es suficiente para producción regulada. El número lo dice con precisión que un argumento cualitativo no puede: 26.67% vs 0.00%.

Microsoft AGT es el toolkit más serio que ha llegado al espacio de gobernanza de agentes desde que el OWASP Agentic Top 10 formalizó los riesgos. Es open source, tiene cobertura de frameworks amplia, y la latencia de enforcement hace que el argumento de "afecta la experiencia de usuario" no exista.

Lo que AGT no hace es definir tus políticas. No conoce la regulación de tu industria. No sabe qué significa compliance en el contexto de la CNBV o de la regulación de datos de salud en México. Esa es la parte que requiere criterio — y es la parte en la que trabaja AI SOCIETY.

Si ya estás desplegando agentes en producción y la capa de gobernanza es un system prompt, este es el momento de cambiar eso. Si estás evaluando desplegar agentes y el proyecto está bloqueado por auditoría interna o compliance, la arquitectura de enforcement que describe AGT — y que nosotros ya operamos con ISO 42001 — es el camino.

¿Quieres ver cómo se ve esta arquitectura en producción con ARCA? Escríbenos. La demo no es un deck — es el sistema real corriendo con tus casos de uso.

Microsoft AGT vs Prompt Safety: 0% vs 26.67%