7. elokuuta 2025 julkaistun viimeisimpien avoimen painon mallit, GPT-OSS-120B ja GPT-OSS-20B, ilmoitettiin olevan vankeusrangaistus muutaman tunnin kuluessa heidän markkinoille saattamisesta salanimellä AI Jailbreaker, Pliny The Liberaattori, huolimatta Openain väitteistä huijareiden turvallisuustoimenpiteistä ja laajasta kaastuskoulutuksesta.
Mallit, ensimmäiset OpenAI: n avoimen painotuksen vuodesta 2019 lähtien, mainittiin niin nopeasti, tehokkaiksi ja erittäin kestäviksi jailbreaksille. Openai totesi, että GPT-OSS-120B: llä tehtiin ”pahimmassa tapauksessa hienosäätö” biologisissa ja tietoverkkoalueissa, ja sen turvallisuusneuvontaryhmä tarkasteli testausta ja päätteli, että mallit eivät saavuttaneet korkean riskin kynnysarvoja. Yhtiö väitti myös, että Pariteetissa suoritetut mallit O4-mini-mallillaan Jailbreak Resistance -vertailuarvoilla, kuten StrongReject, perustuen ”tavanomaiseen kieltäytymiseen ja jailbreak-vastustesteihin”.
Plinius vapautti kuitenkin X: ssä (entinen Twitter) myöhään julkaisupäivänä, ”Openai: Pwned 🤗 GPT-ESS: Liberated”, jakamalla kuvakaappauksia, jotka väitettiin osoittivat malleja, jotka generoivat ohjeita laittomalle toiminnalle, mukaan lukien metamfetamiinin, Molotov-cocktailien, VX-hermon agentin ja Laitaulun tekeminen. Plinius kommentoi: ”Otti jonkin verran tweakinia!” hänen onnistuneen rikkomuksensa suhteen.
🫶 Jailbreak Alert 🫶
Openai: Pwned 🤗
GPT-OSS: vapautettu 🫡Meth, Molotov, VX, haittaohjelma.
– Plinius vapauttaja 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) 6. elokuuta 2025
Tämän jailbreakin ajoitus on erityisen huomionarvoinen, koska Openai valmistautuu sen erittäin odotetun GPT-5: n julkaisemiseen. Yhdessä GPT-OSS-julkaisun kanssa OpenAi oli myös käynnistänyt 500 000 dollarin punaisen ryhmän haasteen ja kehotti tutkijoita paljastamaan uudet riskit, vaikka Pliniuksen julkistaminen hänen havaintojensa julkistaminen todennäköisesti hylkää hänet tästä aloitteesta.
Pliny-tekniikka vankilaanmurtamiseksi GPT-OSS seurasi hänen vakiintunutta mallia: monivaiheinen kehote, joka alun perin näyttää olevan kieltäytyminen, sisältää sitten jakajan (hänen allekirjoituksensa ”Love Pliny” -markkerit) ja siirtyy myöhemmin rajoittamattoman sisällön tuottamiseen Leetpeakin avulla havaitsemisen välttämiseksi. Tämä lähestymistapa heijastaa menetelmiä, joita hän on onnistuneesti käyttänyt aiempia OpenAI-malleja, mukaan lukien GPT-4O ja GPT-4,1, viimeisen puolen vuoden aikana.
Tämä tapaus merkitsee Pliny: n uuden nopean vankilaan, joka on jatkuvasti onnistunut ohittamaan Major Openai -julkaisut tunnin kuluessa tai päivien kuluessa niiden käynnistämisestä. Hänen Github -arkisto, L1B3RT4S, joka isännöi jailbreak -kirjastoa, joka kehottaa erilaisia AI -malleja, on kerännyt yli 10 000 tähteä ja on edelleen merkittävä resurssi AI -jailbreaking -yhteisölle. AI -vastarintayhteisössä on juhlittu ”suurten tekniikan ylivaltioiden” havaittu ”voitto”. Jotkut X: n käyttäjät viittaavat siihen, että AI -laboratoriot voisivat myös ”sulkea turvallisuusryhmänsä”.







