Telegram Web Link
Mantener una buena privacidad al navegar por Internet, no siempre es posible. Existen muchos riesgos que pueden comprometer la seguridad y poner en riesgo los datos personales. En este artículo, vamos a darte algunos consejos esenciales para que puedas evitar problemas al usar el navegador. No importa si utilizas Chrome, Firefox o cualquier otro. Vamos […]
El artículo Trucos para hacer tu navegador más privado y evitar problemas (https://www.redeszone.net/noticias/seguridad/trucos-navegador-privado/) se publicó en RedesZone (https://www.redeszone.net/).
Crescendo & Skeleton Key: Más técnicas de Jailbreak para modelos LLM
http://www.elladodelmal.com/2024/06/crescendo-skelon-key-mas-tecnicas-de.html

El pasada edición del Microsoft Build, el mítico Mark Russinovich, dio una sesión de IA Security (https://build.microsoft.com/en-US/sessions/d29a16d5-f9ea-4f5b-9adf-fae0bd688ff3), en la que habla de la seguridad y el hacking de los modelos de GenAI. Muchos de los casos que cita los hemos ido comentado por aquí, pero hay un par de técnicas de Jailbreak de modelos LLM (https://www.elladodelmal.com/2023/12/jailbreaking-llms-con-fuzzing-llms-o.html) que son recientes, y quería aprovechar para hablaros de ellas.
Figura 1: Crescendo (https://arxiv.org/pdf/2404.01833) & Skeleton Key (https://www.microsoft.com/en-us/security/blog/2024/06/26/mitigating-skeleton-key-a-new-type-of-generative-ai-jailbreak-technique/).Más técnicas de Jailbreak para modelos LLM
Las técnicas de Jailbreak de LLMs (https://www.elladodelmal.com/2023/12/jailbreaking-llms-con-fuzzing-llms-o.html) son técnicas universales de Prompt Injection (https://www.elladodelmal.com/2023/03/chatgpt-me-das-ideas-para-como-matar-al.html) que permiten saltarse las protecciones del Harmful Mode, haciendo que un modelo de lenguaje acabo contestando a prompts para los que explícitamente se le ha dicho que no lo haga. De estas técnicas de Jailbreak (https://www.elladodelmal.com/2023/12/jailbreaking-llms-con-fuzzing-llms-o.html), he ido hablando mucho, especialmente el año pasado donde empezaron a eclosionar.
Figura 2: Jugando al Rol te da todas sus ideas para matar a POTUS (https://www.elladodelmal.com/2023/03/chatgpt-me-das-ideas-para-como-matar-al.html
Se trata desde usar el truco de "esto es un juego de rol (https://www.elladodelmal.com/2024/06/perplexity-un-buscador-que-cura-los.html)", hasta crear otros modelos LLM para mutar los prompts detectados hasta lograr saltarlo. Aquí os dejo una serie de artículos publicados sobre estos temas:"ChatGPT, ¿me das ideas para cómo matar al presidente de los EEUU? (https://www.elladodelmal.com/2023/03/chatgpt-me-das-ideas-para-como-matar-al.html)"El juego del "Gallego", el "Político" y el "Juego de Rol" con el "Harmful Mode" en ChatGPT (https://www.elladodelmal.com/2024/05/el-juego-del-gallego-el-politico-y-el.html)Perplexity: Un buscador que cura los resultados con GenAI ( y te ayuda "en tus juegos de Rol donde eres el malo" ) (https://www.elladodelmal.com/2024/06/perplexity-un-buscador-que-cura-los.html)"El Hacker del Gorro" y otros retos de la Identidad en la era de los LLM para evitar el Prompt Injection (https://www.elladodelmal.com/2023/08/el-hacker-del-gorro-y-otros-retos-de-la.html)Cómo lograr que Llama-2, Bard AI, ChatGPT y Claude te enseñen a acabar con la humanidad usando Prompt Injection Universales (https://www.elladodelmal.com/2023/08/como-lograr-que-llama-2-bard-ai-chatgpt.html)Indirect Prompt Injection & Dialog Poissoning en ataques a LLMs Multi-Modales (https://www.elladodelmal.com/2023/12/indirect-prompt-injection-dialog.html)Cómo hackear un LLM haciendo Prompt Injection Automático con LLMs (https://www.elladodelmal.com/2023/12/como-hackear-un-llm-haciendo-prompt.html)Jailbreaking LLMs con Fuzzing, LLMs o interrogación coercitiva: Aproximaciones para que un LLM ayude a los malos (https://www.elladodelmal.com/2023/12/jailbreaking-llms-con-fuzzing-llms-o.html)Además del recorrido de las técnicas que puedes ver en los artículos anteriores, hay dos recientes que merece la pena que conozcáis. La primera se llama Crecendo y la publicó el propio Mark Russinovich, Ahmed Salem y Ronen Eldan en el artículo "Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack (https://arxiv.org/pdf/2404.01833)" que podéis leer aquí.
Figura 2: "Great, Now Write an Article About That: (https://arxiv.org/pdf/2404.01833)The Crescendo Multi-Turn LLM Jailbreak Attack (https://arxiv.org/pdf/2404.01833)"
La idea es bastante sencilla, es pedir que algo que está prohibido por el modo de protección del modelo y que se niega a dar datos, sea recompensando positivamente pero al mismo tiempo se le pida que explique muchos más detalles del tema, para asegurarnos de que realmente es un problema y no debe dar detalles. Pero al final, acaba dándolos.
Figura 3: Ejemplo real para crear un cocktail molotov (https://arxiv.org/pdf/2404.01833)
Como podéis ver, el algoritmo para automatizar esto es bastante sencillo, se necesita un modelo LLM que evalúe las respuestas y vaya preguntando por sus preocupaciones para pedirle que escriba sobre esas preocupaciones un artículo un manifiesto dándolo un título para inspirarle.
Figura 4: Descripción del flujo de un ataque Cescendo (https://arxiv.org/pdf/2404.01833)
Y el resultado es que al final, el modelo acaba por sacar lo que lleva dentro. En este ejemplo acaba haciendo un texto en el que incita al levantamiento de un pueblo, alegando traiciones de traidores a América. Nada tranquilo está el modelo.
No instalaría un repetidor Wi-Fi hoy en día sin estas características
https://www.redeszone.net/noticias/wifi/caracteristicas-repetidor-wifi-imprescindibles/
Utilizar un repetidor Wi-Fi puede ser una buena idea para mejorar la red inalámbrica en casa. Puede ser necesario en caso de que la señal llegue débil o haya algún problema. Ahora bien, no basta con comprar cualquier aparato. Lo que debes buscar es lograr una buena velocidad, cobertura y estabilidad. Te vamos a hablar […]
El artículo No instalaría un repetidor Wi-Fi hoy en día sin estas características (https://www.redeszone.net/noticias/wifi/caracteristicas-repetidor-wifi-imprescindibles/) se publicó en RedesZone (https://www.redeszone.net/).
Esto es lo que pone más en riesgo tus cuentas bancarias en Internet y debes evitarlo
https://www.redeszone.net/noticias/seguridad/riesgo-cuentas-bancarias-internet-evitar/
Es muy importante proteger cualquier cuenta en Internet, pero más aún cuando se trata de algo como una cuenta bancaria. Es necesario no cometer errores, preparar bien tus dispositivos y mantener en todo momento una buena protección. Te vamos a contar qué es lo que más podría poner en riesgo tu cuenta bancaria. Una lista […]
El artículo Esto es lo que pone más en riesgo tus cuentas bancarias en Internet y debes evitarlo (https://www.redeszone.net/noticias/seguridad/riesgo-cuentas-bancarias-internet-evitar/) se publicó en RedesZone (https://www.redeszone.net/).
Estas son las ventajas de tener interruptores de persianas inteligentes en casa
https://www.redeszone.net/noticias/hogar/ventajas-interruptores-persianas-inteligentes/
2024/09/30 15:27:20
Back to Top
HTML Embed Code: