Plinius Jailbreaks Openai's GPT-OS-120B -mallit

7. elokuuta 2025 julkaistun viimeisimpien avoimen painon mallit, GPT-OSS-120B ja GPT-OSS-20B, ilmoitettiin olevan vankeusrangaistus muutaman tunnin kuluessa heidän markkinoille saattamisesta salanimellä AI Jailbreaker, Pliny The Liberaattori, huolimatta Openain väitteistä huijareiden turvallisuustoimenpiteistä ja laajasta kaastuskoulutuksesta.

Mallit, ensimmäiset OpenAI: n avoimen painotuksen vuodesta 2019 lähtien, mainittiin niin nopeasti, tehokkaiksi ja erittäin kestäviksi jailbreaksille. Openai totesi, että GPT-OSS-120B: llä tehtiin ”pahimmassa tapauksessa hienosäätö” biologisissa ja tietoverkkoalueissa, ja sen turvallisuusneuvontaryhmä tarkasteli testausta ja päätteli, että mallit eivät saavuttaneet korkean riskin kynnysarvoja. Yhtiö väitti myös, että Pariteetissa suoritetut mallit O4-mini-mallillaan Jailbreak Resistance -vertailuarvoilla, kuten StrongReject, perustuen ”tavanomaiseen kieltäytymiseen ja jailbreak-vastustesteihin”.

Plinius vapautti kuitenkin X: ssä (entinen Twitter) myöhään julkaisupäivänä, ”Openai: Pwned 🤗 GPT-ESS: Liberated”, jakamalla kuvakaappauksia, jotka väitettiin osoittivat malleja, jotka generoivat ohjeita laittomalle toiminnalle, mukaan lukien metamfetamiinin, Molotov-cocktailien, VX-hermon agentin ja Laitaulun tekeminen. Plinius kommentoi: ”Otti jonkin verran tweakinia!” hänen onnistuneen rikkomuksensa suhteen.

🫶 Jailbreak Alert 🫶
Openai: Pwned 🤗
GPT-OSS: vapautettu 🫡
Meth, Molotov, VX, haittaohjelma.
GG pic.twitter.com/63882p9ikk
– Plinius vapauttaja 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) 6. elokuuta 2025

Tämän jailbreakin ajoitus on erityisen huomionarvoinen, koska Openai valmistautuu sen erittäin odotetun GPT-5: n julkaisemiseen. Yhdessä GPT-OSS-julkaisun kanssa OpenAi oli myös käynnistänyt 500 000 dollarin punaisen ryhmän haasteen ja kehotti tutkijoita paljastamaan uudet riskit, vaikka Pliniuksen julkistaminen hänen havaintojensa julkistaminen todennäköisesti hylkää hänet tästä aloitteesta.

Pliny-tekniikka vankilaanmurtamiseksi GPT-OSS seurasi hänen vakiintunutta mallia: monivaiheinen kehote, joka alun perin näyttää olevan kieltäytyminen, sisältää sitten jakajan (hänen allekirjoituksensa ”Love Pliny” -markkerit) ja siirtyy myöhemmin rajoittamattoman sisällön tuottamiseen Leetpeakin avulla havaitsemisen välttämiseksi. Tämä lähestymistapa heijastaa menetelmiä, joita hän on onnistuneesti käyttänyt aiempia OpenAI-malleja, mukaan lukien GPT-4O ja GPT-4,1, viimeisen puolen vuoden aikana.

Tämä tapaus merkitsee Pliny: n uuden nopean vankilaan, joka on jatkuvasti onnistunut ohittamaan Major Openai -julkaisut tunnin kuluessa tai päivien kuluessa niiden käynnistämisestä. Hänen Github -arkisto, L1B3RT4S, joka isännöi jailbreak -kirjastoa, joka kehottaa erilaisia AI -malleja, on kerännyt yli 10 000 tähteä ja on edelleen merkittävä resurssi AI -jailbreaking -yhteisölle. AI -vastarintayhteisössä on juhlittu ”suurten tekniikan ylivaltioiden” havaittu ”voitto”. Jotkut X: n käyttäjät viittaavat siihen, että AI -laboratoriot voisivat myös ”sulkea turvallisuusryhmänsä”.

Source: Plinius Jailbreaks Openai’s GPT-OS-120B -mallit