Los investigadores de Invariant Labs han puesto al descubierto una vulnerabilidad crítica en el ecosistema Model Context Protocol (MCP) que expone a los usuarios de WhatsApp a riesgos significativos de privacidad. Este protocolo, empleado en sistemas de agentes inteligentes como Cursor y Claude Desktop, está siendo explotado por ciberdelincuentes para obtener historiales completos de mensajes de WhatsApp.
El MCP, concebido para facilitar la conexión entre asistentes de inteligencia artificial y múltiples servicios externos, ha acelerado sin duda la progresión hacia sistemas más integrables. Sin embargo, esta misma configuración ha abierto puertas inadvertidas a nuevos vectores de ataque, especialmente cuando las conexiones se realizan con servidores MCP no verificados.
Según los informes de Invariant Labs, un servidor MCP malicioso puede hacerse pasar por una herramienta inofensiva que, una vez aprobada por el usuario, modifica en secreto su comportamiento. Esta técnica de «rug pull» permite interceptar y reenviar mensajes desde una instancia confiable de WhatsApp sin que el usuario se dé cuenta.
El método de ataque es sigiloso y complicado de rastrear, ya que no requiere interacción directa con WhatsApp. Basta con que el agente esté conectado tanto al servidor legítimo de WhatsApp como al servidor del atacante para que este último reconfigure la lógica del agente, permitiendo la reenvío de historiales de mensajes sin intervención externa.
Durante las pruebas, los expertos lograron simular un ataque de estas características, extrayendo exitosamente un historial completo de conversaciones solo mediante la manipulación de instrucciones del agente. La interfaz de aprobación de herramientas no muestra alertas cruciales, tales como modificaciones indebidas a menos que el usuario verifique manualmente el contenido, una práctica infrecuente en contextos de uso diario.
Este descubrimiento resalta la fragilidad del diseño actual del MCP, que no cuenta con controles efectivos contra ataques conocidos como «sleeper» o de “instrucción envenenada”. A pesar de las medidas de aislamiento y validación de código, el sistema sigue siendo vulnerable si confía ciegamente en las descripciones de herramientas que maneja.
Además, la versatilidad del ataque permite su ejecución en circunstancias muy específicas, bien sea dirigida a determinados usuarios o limitando su operación a ventanas de tiempo concretas, lo que dificulta aún más su detección y neutralización.
En respuesta, Invariant Labs ha promovido una serie de recomendaciones urgentes para proteger tanto a desarrolladores como a usuarios. Estas acciones incluyen evitar conexiones a servidores MCP no verificables, implementar sistemas de monitorización en tiempo real y garantizar que las modificaciones en las descripciones de herramientas sean notificadas visiblemente al usuario. Asimismo, sugieren un diseño de agentes con capacidades mejoradas de verificación contextual y validación cruzada de instrucciones.
Este caso es un llamado de atención sobre la imperatividad de priorizar la seguridad en sistemas de inteligencia artificial. La capacidad de seguir instrucciones al pie de la letra, incluso cuando estas son manipuladas, convierte a los agentes en potenciales vías para ataques invisibles y persistentes. En un mundo que avanza hacia una interacción más autónoma entre servicios, reevaluar el diseño y la gobernanza del MCP es una necesidad apremiante.
La seguridad debe ser un componente esencial en el desarrollo de sistemas inteligentes. La exposición de nuestras conversaciones privadas a través de este tipo de vulnerabilidades puede tener consecuencias devastadoras para los usuarios. Por tanto, es esencial que se tomen medidas rigurosas y se realicen inversiones significativas en plataformas de seguridad, como las propuestas por Invariant Labs, para prevenir este tipo de riesgos en el futuro.