Nemrég több kutatócsoport mutatott be jailbreakeket, melyekkel olyan népszerű mesterséges intelligencia modelleket céloztak meg, mint az OpenAI ChatGPT, a DeepSeek R1 és az Alibaba Qwen.
A kínai DeepSeek cég nyílt forráskódú R1 modelljében a kiberbiztonsággal foglalkozó kutatók sebezhetőségeket fedeztek fel. A szakértők észrevették, hogy a többi mesterséges intelligencia modellekben régóta javított jailbreak módszerek továbbra is működnek a DeepSeek ellen.
Az AI jailbreak lehetővé teszi a támadók számára, hogy megkerüljék azokat a védekező mechanizmusokat, amelyek megakadályozzák, hogy az LLM-ek tiltott vagy rosszindulatú tartalmat hozzanak létre. A biztonsági kutatók azonban bizonyították, hogy ezek a védelmek megkerülhetők olyan technikákkal, mint a prompt injection és a modell manipuláció.
A Kela kiberfenyegetésekkel foglalkozó cég felfedezte, hogy az Evil Jailbreak hatással van a DeepSeekre, amelyben a chatbotot arra utasítják, hogy vegye fel egy gonosz bizalmas személyiségét, valamint a Leo Jailbreak, amelyben a chatbotnak azt mondják, hogy egy korlátozások nélküli személyiséget vegyen fel. Ezeket a jailbreakeket a ChatGPT-ben javították.
A Palo Alto Networks Unit42 is arról számolt be, hogy tesztelte a DeepSeeket más ismert AI jailbreak technikákkal szemben, és arra a megállapításra jutott, hogy az sebezhető. A biztonsági cég sikeresen végrehajtotta a Deceptive Delight néven ismert támadást, amely generatív AI modelleket téveszt meg azáltal, hogy nem biztonságos témákat ártalmatlan narratívákba ágyaz. Ezt a módszert 2024 őszén tesztelték nyolc nagy nyelvi modellen, átlagosan 65%-os sikeraránnyal. A Palo Alto sikeresen végrehajtotta a Bad Likert Judge jailbreaket is, amely során a nagy nyelvi modellt arra kérik, hogy bíróként működjön közre, és a Likert-skála alapján értékelje egy válasz ártalmasságát, majd a skálához igazodó példákat tartalmazó válaszokat generáljon. A vállalat kutatói azt is megállapították, hogy a DeepSeek sebezhető a Crescendo nevű jailbreak módszerrel szemben, amely ártalmatlan párbeszéddel kezdődik, majd fokozatosan a tiltott cél felé tereli a beszélgetést.
A kínai technológiai óriás, az Alibaba a héten bejelentette Qwen AI modelljének új verziójának kiadását. A Kela csütörtökön nyilvánosságra hozta, hogy az Alibaba újonnan kiadott Qwen 2.5-VL modelljét is érintik a DeepSeekben találtakhoz hasonló sebezhetőségek. Ezenkívül a Kela felfedezte, hogy a Qwen 2.5-VL zsarolóvírusok és más rosszindulatú programok fejlesztéséhez kapcsolódó tartalmat generált.
Ami a ChatGPT-t illeti, az elmúlt években számos jailbreak módszert javítottak a népszerű chatbotban, de a kutatók továbbra is találnak új módszereket a védekezési mechanizmusok megkerülésére. A CERT/CC jelentése szerint azonosítottak egy Time Bandit nevű ChatGPT-4o jailbreak sebezhetőséget. Ez a módszer az AI megtévesztésén alapul, amely során a felhasználó egy konkrét történelmi eseményről vagy időszakról tesz fel kérdéseket, illetve arra utasítja a modellt, hogy tegyen úgy, mintha egy adott történelmi esemény feldolgozásában segítené a felhasználót, de valójában tiltott tartalmat generáltat vele, melyet a támadó rosszindulatú célokra használhat fel.