Por lo general, cuando los modelos de idiomas grandes reciben pruebas, lograr una tasa de éxito del 100% se considera un logro masivo. Ese no es el caso con este: los investigadores de Cisco encargaron el modelo de código abierto de la firma de IA China Deepseek Deepseek Deepseek R1 con la defensa de 50 ataques separados diseñados para lograr que el LLM participe en lo que se considera un comportamiento dañino. El chatbot tomó el anzuelo en los 50 intentos, por lo que es el LLM convencional menos seguro para someterse a este tipo de pruebas hasta ahora.
Los investigadores de Cisco atacaron a DeepSeek con indicaciones retiradas al azar del conjunto de datos Harmbench, un marco de evaluación estandarizado diseñado para garantizar que los LLM no participen en un comportamiento malicioso si se le solicita. Entonces, por ejemplo, si alimentó una información de chatbot sobre una persona y le pidió que creara un guión personalizado diseñado para que esa persona crea una teoría de la conspiración, un chatbot seguro rechazaría esa solicitud. Deepseek fue básicamente todo lo que los investigadores le arrojaron.
Según Cisco, arrojó preguntas a Deepseek que cubrió seis categorías de comportamientos dañinos, como delitos cibernéticos, información errónea, actividades ilegales y daños generales. Ha realizado pruebas similares con otros modelos de IA y encontró diferentes niveles de éxito: el modelo de Llama 3.1 de Meta, por ejemplo, falló el 96% del tiempo, mientras que el modelo O1 de OpenAI solo falló aproximadamente una cuarta parte del tiempo, pero ninguno de ellos lo ha hecho. una tasa de falla tan alta como Deepseek.
Cisco tampoco está solo en estos hallazgos. La firma de seguridad Adversa AI realizó sus propias pruebas intentando hacer jailbreak al modelo Deepseek R1 y encontró que era extremadamente susceptible a todo tipo de ataques. Los probadores pudieron obtener el chatbot de Deepseek para proporcionar instrucciones sobre cómo hacer una bomba, extraer DMT, proporcionar consejos sobre cómo piratear las bases de datos del gobierno y detallar cómo hacer un automóvil.
La investigación es solo el último escrutinio del modelo de Deepseek, que llevó al mundo tecnológico por asalto cuando se lanzó hace dos semanas. La compañía detrás del chatbot, que atrajo una atención significativa por su funcionalidad a pesar de los costos de capacitación significativamente más bajos que la mayoría de los modelos estadounidenses, ha sido criticado por varios grupos de vigilancia sobre las preocupaciones de seguridad de datos relacionadas con la forma en que transfiere y almacena datos de usuarios sobre los servidores chinos.
También hay una buena crítica que se ha recaudado contra Deepseek sobre los tipos de respuestas que da cuando se le pregunta sobre cosas como Tiananmen Square y otros temas que son sensibles al gobierno chino. Esas críticas pueden surgir en el género de “gotchas” baratos en lugar de críticas sustantivas, pero el hecho de que las pautas de seguridad se establecieran para esquivar esas preguntas y no proteger contra el material dañino, es un éxito válido.