Los investigadores de seguridad han demostrado una nueva forma de aprovechar las inyecciones indirectas de prompts para robar datos, modificar currículos y ejecutar código de forma remota en una máquina. Este tipo de ataques se considera la principal vulnerabilidad para aquellos que utilizan y gestionan modelos de lenguaje de aprendizaje automático (LLM, por sus siglas en inglés). El Centro Nacional de Ciberseguridad del Reino Unido ha alertado sobre el riesgo de estos ataques, señalando que se han reportado cientos de casos hasta la fecha.
La inyección indirecta de prompts es un área de investigación activa, y aunque se están desarrollando estrategias para dificultar estos ataques, aún no existen soluciones infalibles. Las empresas y desarrolladores que implementan LLM deben adoptar buenas prácticas de seguridad para reducir los riesgos de inyecciones indirectas.
Microsoft y Google están trabajando en mejorar la seguridad de sus sistemas. Microsoft ha tomado medidas para bloquear sitios web sospechosos y filtrar prompts maliciosos antes de que lleguen al modelo. Google emplea modelos especialmente entrenados para identificar entradas y salidas inseguras que violen sus políticas.
Es importante que los usuarios y organizaciones sitúen a los modelos de LLM fuera de los límites de confianza y los traten como si fueran usuarios aleatorios de la web. Esto implica aplicar el principio del mínimo privilegio en la conexión de sistemas a los LLM, otorgando al sistema el acceso y capacidad mínimos necesarios para realizar las tareas requeridas.
En conclusión, aunque los modelos de lenguaje de aprendizaje automático han introducido nuevas vulnerabilidades, también pueden contribuir a su solución. Es fundamental seguir prácticas de seguridad y adoptar medidas para reducir los riesgos de inyecciones indirectas de prompts.
Fuentes:
– WIRED UK