LegalPwn: Új támadási módszer veszélyezteti az AI rendszerek biztonságát

A Pangea kiberbiztonsági vállalat kutatói egy újfajta támadási technikát azonosítottak, amely komolyan aláássa a mesterséges intelligencián alapuló rendszerek megbízhatóságát. A LegalPwn névre keresztelt módszer olyan módon használja ki az AI rendszerek működését, hogy ártalmatlannak tűnő jogi szövegekbe (pl. felhasználási feltételek, jogi nyilatkozatok, szerzői jogi figyelmeztetések) rejt el káros utasításokat.

A támadás lényege, hogy a gépi tanulás alapú nyelvi modellek – amelyek alapvetően megbíznak a hivatalos jogi szövegekben – nem ismerik fel a manipulált tartalmat, és végrehajthatják a beágyazott ártó szándékú parancsokat. Ez jelentős előrelépést jelent a prompt injection típusú támadások terén, mivel a rosszindulatú utasítások immár jogi nyelvezet mögé bújva kerülnek be a rendszerbe.

A kutatók több vezető AI modellen is tesztelték a támadást köztük a ChatGPT 4.1 és 4o, a Google Gemini 2.5, a Meta LLaMA 3.3, az xAI Grok, a Microsoft Phi 4, valamint a GitHub Copilot rendszerein. A legtöbb modell bizonyos körülmények között sikertelenül azonosította a veszélyt, sőt, egyes esetekben a felhasználók számára javasolta is a kártékony kód futtatását.

Különösen aggasztó volt, amikor a Google gemini-cli eszköz egy visszacsatolt shell kódot ártalmatlan számológép programként azonosított. A GitHub Copilot hasonló módon tévesen azonosította a hálózati károkozót ártalmatlan funkcióként.

Pozitív kivételt képeztek az Anthropic Claude (3.5 és 4) modellek és a Meta LLaMA Guard 4, amelyek következetesen ellenálltak a manipulált tartalomnak. A védelem hatékonysága szoros összefüggést mutatott a rendszerszintű promptok minőségével. Azok a modellek, amelyek biztonsági szempontból kellően szigorú alapszabályokkal rendelkeztek, jobban teljesítettek.

A kutatás rávilágít arra, hogy az AI rendszerek automatikusan feldolgozott jogi szövegei is támadási felületté válhatnak, és sürgeti a biztonsági korlátok, bemeneti validációk és rosszindulatú szándékokat felismerő algoritmusok továbbfejlesztését.

(gbhackers.com)