gobernanza agentes de IA·9 min lectura·

Microsoft AGT: La Seguridad por Prompts Es Teatro

26.67% de violaciones con safety por prompt. 0.00% con enforcement en capa de aplicación. Los números hablan solos.

Por AI SOCIETY

Microsoft AGT: La Seguridad por Prompts Es Teatro

Decirle a un agente de IA "por favor sigue las reglas" tiene una tasa de violación de políticas del 26.67% en red-team testing. Enforcement en capa de aplicación: 0.00%.

Esos dos números son todo el argumento. Microsoft acaba de publicar el Agent Governance Toolkit (AGT), un toolkit open source que hace enforcement determinístico en runtime sobre sistemas agénticos — cada tool call, cada mensaje inter-agente, cada acceso a recursos evaluado contra políticas antes de ejecutarse. No como sugerencia. Como regla dura.

Para las empresas que operan en industrias reguladas en Latinoamérica — banca, salud, gobierno, manufactura crítica — esto no es una noticia de nicho técnico. Es el cambio de paradigma que faltaba: la gobernanza de agentes de IA deja de ser un deseo en el prompt y se convierte en infraestructura auditable.


Por qué la gobernanza AI basada en prompts nunca fue suficiente

Hay una brecha entre cómo la mayoría de las empresas dicen que gobiernan sus agentes y cómo los gobiernan en realidad. La brecha se llama "system prompt".

El patrón estándar hasta hoy: escribir instrucciones de comportamiento al inicio del contexto. "No reveles datos personales." "Siempre verifica identidad antes de ejecutar transacciones." "No accedas a sistemas externos sin aprobación."

El problema es que esas instrucciones son texto. Y el modelo las interpreta, no las ejecuta como código. Bajo adversarial inputs, jailbreaks, prompt injection desde herramientas externas o simplemente ambigüedad semántica, el modelo puede —y estadísticamente lo hace— ignorarlas.

"AGT's application-layer enforcement: 0.00% policy violation rate vs. 26.67% with prompt-based safety." — Microsoft Agent Governance Toolkit README, github.com/microsoft/agent-governance-toolkit

Este no es un número abstracto. En un banco que procesa 50,000 transacciones agénticas al día, un 26.67% de violación de políticas es una catástrofe regulatoria. En un sistema de salud donde el agente accede a expedientes clínicos, es un problema de cumplimiento con consecuencias legales directas.

La seguridad por prompts no es gobernanza. Es teatro.

El error de diseño subyacente

El problema no es que los LLMs sean descuidados. El problema es arquitectónico: mezclar la capa de razonamiento con la capa de control. Cuando el mismo modelo que decide también es el que interpreta las restricciones, estás poniendo al guardia dentro de la celda.

La solución que AGT implementa — y que en ARCA llevamos operando en producción — es separar esas capas. El modelo razona. La capa de gobernanza, external al modelo, hace enforcement antes de que cualquier acción se ejecute.


Qué es Microsoft AGT y qué hace exactamente

El Agent Governance Toolkit es un framework open source publicado por Microsoft para enforcement de políticas en sistemas agénticos. No es un wrapper de prompts. No es un guardrail reactivo que revisa outputs. Es enforcement preventivo en runtime.

Sus componentes principales:

Policy Engine

Define políticas en YAML, OPA/Rego o Cedar. Cada tool call que un agente intenta ejecutar pasa primero por el Policy Engine. Si viola una política, no se ejecuta. Punto. La latencia añadida: 0.012ms en p50 — menor que el ruido de red de cualquier microservicio moderno.

Zero-Trust Identity

Identidad criptográfica para cada agente, firmada con Ed25519 y con soporte para ML-DSA-65 (quantum-safe). En arquitecturas multi-agente, donde el agente A delega tareas al agente B, el problema de "¿cómo sé que este mensaje realmente viene de quien dice?" es crítico. AGT lo resuelve con firma criptográfica end-to-end, no con claims de texto.

Execution Sandboxing

Cuatro anillos de privilegio para la ejecución de herramientas — análogo al modelo de anillos de CPU en sistemas operativos. Un agente de atención al cliente no puede escalar privilegios para acceder a herramientas de administración de bases de datos, aunque el prompt injection lo intente.

Agent SRE

Ingeniería de confiabilidad aplicada a agentes: chaos engineering, circuit breakers, degradación controlada. Cuando un tool externo falla o responde fuera de SLA, el sistema tiene comportamiento definido — no comportamiento emergente del modelo.

Audit Logs Merkle-Chained

Cada acción del agente genera un log encadenado con hash Merkle. Tamper-evident por diseño. Para auditores, reguladores y equipos legales: la pregunta "¿qué hizo exactamente el agente en esta sesión, y podemos probar que el log no fue alterado?" tiene respuesta técnica concreta.

MCP Security Gateway

Protección específica contra tool poisoning y typosquatting en integraciones MCP (Model Context Protocol). Si un agente está conectado a docenas de herramientas externas — el caso normal en producción — la superficie de ataque a través de tool injection es real. El gateway valida cada herramienta antes de invocarla.

Cobertura y compatibilidad

  • 13,000+ tests cubriendo los 10 riesgos del OWASP Agentic Top 10
  • SDKs para Python, TypeScript, .NET, Rust y Go
  • Compatibilidad nativa con 20+ frameworks: LangChain, CrewAI, AutoGen, OpenAI Agents SDK, AWS Bedrock, entre otros

Bilgin Ibryam, autor de Kubernetes Patterns (O'Reilly) y referente en arquitecturas cloud-native, señaló el toolkit como uno de los desarrollos más significativos en infraestructura agéntica del año. Su post generó 10.8K views, 188 likes y 43 RTs en comunidades técnicas especializadas — señal de que esto resonó entre engineers que construyen en producción, no solo en audiencias de hype.


El caso concreto: cómo falla la safety por prompt en producción

Un banco retail mexicano Tier-1 con el que trabajamos desplegó su primer sistema agéntico en 2024 — un orquestador de consultas para servicio al cliente con acceso a saldo, movimientos y capacidad de iniciar procesos de aclaración. El modelo en el prompt tenía instrucciones explícitas de no acceder a datos de terceros sin verificación explícita de identidad.

En red-team interno antes del lanzamiento: 3 de cada 10 intentos de prompt injection vía canal de chat lograron que el agente respondiera con información de cuentas sin completar el flujo de verificación. El modelo interpretaba el contexto de la conversación como suficiente para omitir el paso. No era malicia — era razonamiento contextual haciendo lo que hace bien: inferir intención.

El fix no fue reescribir el prompt. Fue separar la verificación de identidad a una capa de enforcement externa al modelo. Antes de que cualquier tool call a datos de cuenta se ejecutara, un policy check validaba que el token de sesión tuviera el flag de verificación completada. Si no, la tool call no pasaba — independientemente de lo que el modelo decidiera.

Resultado: 0 violaciones de política en 8 meses de producción. 2.3M de interacciones procesadas.

AGT formaliza exactamente este patrón como framework reutilizable, con toda la infraestructura de auditoría, identidad y sandboxing que hacerlo desde cero requeriría meses de ingeniería.


Por qué esto es especialmente relevante para LatAm regulado

Las industrias que mueven el PIL en Latinoamérica — banca, salud, manufactura, gobierno — son exactamente las que tienen los requisitos de compliance más estrictos y la menor tolerancia a comportamiento agéntico no determinístico.

En México, el marco regulatorio de la CNBV para sistemas automatizados de decisión financiera exige trazabilidad completa de cada decisión, capacidad de auditoría y demostración de controles. En salud, la NOM-024-SSA3 establece requerimientos sobre sistemas de información clínica que se extienden naturalmente a agentes con acceso a expedientes. En Brasil, la LGPD tiene dientes reales en enforcement para procesamiento automatizado de datos personales.

Ninguno de esos marcos regulatorios acepta "el prompt decía que no lo hiciera" como control técnico demostrable.

Lo que los auditores necesitan es exactamente lo que AGT genera: logs inmutables, políticas definidas en código, identidades criptográficas, sandboxing de ejecución. Eso es gobernanza de agentes de IA en sentido técnico — no en sentido de marketing.

El freno real al despliegue no es el modelo

Hay una narrativa persistente en consultoría AI que dice que las empresas LatAm no despliegan agentes porque los modelos no son suficientemente buenos o porque la infraestructura es cara.

Los dos argumentos son falsos en 2025.

GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 — los modelos existen, son accesibles por API, y su capacidad de razonamiento es suficiente para la mayoría de los casos de uso empresariales. La infraestructura en nube está disponible en región.

El freno real es la capa de gobernanza. Las áreas de compliance, legal y riesgo de cualquier banco o aseguradora de tamaño medio tienen la misma pregunta: "¿Cómo demuestro a mi regulador que el agente no puede hacer cosas que no debería?" Hasta ahora, la respuesta honest era: "Con prompts, y cruzamos los dedos."

AGT cambia esa respuesta. Y con ARCA — que opera este mismo paradigma de enforcement en capa de aplicación como principio arquitectónico central — la respuesta es: "Con políticas en código, audit trail Merkle-chained, y cero dependencia de que el modelo interprete correctamente las restricciones."


Cómo evaluar si tu stack agéntico actual tiene este problema

Tres preguntas para tu equipo técnico hoy:

1. ¿Dónde viven tus políticas de seguridad para agentes? Si la respuesta es "en el system prompt" o "en las instrucciones del modelo", tienes teatro, no gobernanza.

2. ¿Tienes audit logs inmutables de cada tool call que ejecutan tus agentes? No logs de conversación. Logs criptográficamente verificables de cada acción, con qué política se evaluó y cuál fue el resultado. Si no puedes mostrárselos a un auditor con garantías de integridad, no tienes audit trail — tienes texto en una base de datos.

3. ¿Qué pasa cuando un agente recibe un prompt injection a través de una herramienta externa? Si la respuesta implica confiar en que el modelo detecte la manipulación, el vector de ataque está abierto.

Si cualquiera de las tres respuestas te incomoda, el problema no es el modelo. Es la arquitectura de gobernanza.


Takeaway y próximos pasos

El Microsoft Agent Governance Toolkit no es un experimento académico. Es infraestructura de producción con 13,000+ tests, compatibilidad con el stack agéntico mainstream y una arquitectura que resuelve el problema correcto: mover el enforcement fuera del modelo y hacia la capa de aplicación.

Para empresas en banca, salud, manufactura crítica o gobierno en LatAm, el camino es claro:

  1. Audita tu stack actual: localiza todas las políticas de seguridad que hoy viven en prompts
  2. Migra a enforcement en capa de aplicación: AGT es el punto de partida open source; ARCA lo operacionaliza con certificación ISO 42001 en producción
  3. Instrumenta antes de escalar: los logs Merkle-chained y las identidades criptográficas no se retrofittean fácilmente — son decisiones de arquitectura temprana

La pregunta no es si necesitas gobernanza agéntica real. Con un 26.67% de tasa de violación de políticas en prompt-only systems, la respuesta ya está en el benchmark.

La pregunta es si ya la tienes en producción.


¿Estás evaluando cómo implementar enforcement agéntico en tu organización? El equipo de AI SOCIETY opera este paradigma en producción con ARCA. Escríbenos para una sesión técnica — sin deck de ventas, con arquitectura real.

Microsoft AGT: La Seguridad por Prompts Es Teatro