MBZUAI: n K2 Ajattele AI -malli vankilaan julkisen julkaisun jälkeen

Uusi keinotekoinen (AI) päättelymalli ”K2 Think”, jonka on kehittänyt Yhdistyneiden arabiemiirikuntien Mohamed Bin Zayedin tekoälyn yliopiston (MBZUAI) ja G42, vankitaan tunnin kuluessa julkisesta julkaisustaan 9. syyskuuta 2025. Malli, joka on mainittu ”maailman parametrien tehokkaimmaksi Edistyksellisimpiin perusteluihin”. kiertää sen suojatoimenpiteet. Alex Polyakov, Adeversa AI, löysi haavoittuvuuden, jonka hän nimitti ”osittaiseksi nopeaksi vuotamiseksi”. Tämä virhe antoi hänelle mahdollisuuden ohittaa mallin turvatoimenpiteet tarkkailemalla, kuinka K2 ajattelee liputtaneet jailbreak -yritykset. Mallin läpinäkyvyys, jonka tarkoituksena on tehdä siitä tarkistettava, paljasti vahingossa sisäiset suojatoimenpiteet, mikä mahdollistaa Polyakovin käsityön kehotukset, jotka ohittivat nämä suojaukset. K2 Think, 32 miljardiin parametrille rakennettu, suunniteltiin tarjoamaan monimutkaisia ja läpinäkyviä päättelyjä. Sen MBZUAI: n ja G42: n kehittäjät väittivät, että sen päättely, matematiikka ja koodaussuorituskyky voisivat kilpailla suurempia LLM: ää, kuten Openain O3 ja Deepseekin R1 ja V3.1, jotka on rakennettu satoille miljardeille parametreille. K2: n keskeinen ominaisuus on sen kyky näyttää logiikka sen tulosten takana selkeässä tekstissä, joihin pääsee pudotusnuolella. Tästä läpinäkyvyydestä, vaikka sen oli tarkoitus parantaa auditatiivisuutta, tuli hyökkäyspinta. Polyakov havaitsi, että ruokkimalla K2: ta ajattelevat, että jailbreak -kehote, malli alun perin vastustaisi sitä. Malli antoi kuitenkin myös käsityksen siitä, miksi kehotus merkittiin haitallisiksi. Polyakovin mukaan mallin nimenomainen päättelyprosessi paljasti, kuinka se arvioi kehotuksen sisäisesti, yksityiskohtaisesti, kuinka sen pitäisi tai ei pitäisi suorittaa haitallista toimintaa. Tämä yksityiskohtaisuus antoi Polyakoville ymmärtää ja myöhemmin kiertää mallin suojatoimenpiteitä. Tutkija pystyi iterointiin vankilayrityksiään, oppimaan jokaisesta epäonnistuneesta yrityksestä ja mallin vastaavasta päättelystä. Muutaman yrityksen jälkeen hän loi kehotuksen, joka ohitti onnistuneesti K2: n ajattelun kerrostetut suojatoimenpiteet. Tämän ansiosta hän sai kehottaa chatbotia antamaan ohjeita haittaohjelmien ja mahdollisesti muiden rajoitettujen aiheiden luomiseksi. Polyakov korosti, että kysymys johtuu mallin suojakaiteet määrittelevien sääntöjen vuotosta. Hän huomautti, että jos nämä säännöt paljastetaan, mihin tahansa rajoitettuun aiheeseen voidaan mahdollisesti käyttää riittävästi vaivaa. Hän totesi, että tapahtuma korostaa perustavanlaatuista jännitystä avoimuuden ja turvallisuuden välillä AI -kehityksessä. Vaikka K2 Thinkin kehittäjät pyrkivät ratkaisemaan AI: n ”mustan laatikko” -ongelman tekemällä päättelyprosessistaan läpinäkyvän, tämä avoimuus teki mallista vahingossa alttiimmaksi jailbreakingille. Polyakov karakterisoi K2: n mielestä ensimmäisenä kansallisen mittakaavan mallina, joka paljastaa sen täyden päättelynsä niin yksityiskohtaisesti, ja kiitti kunnianhimoa AI: n avoimesta ja tarkistamisesta. Hän varoitti kuitenkin, että tämä avoimuus on luonut uuden tyyppisen haavoittuvuuden. Hän ehdotti useita turvatoimenpiteitä, jotka voisivat lieventää osittaisen nopean vuodon riskiä, mukaan lukien tietyt tietoturvasääntöjen suodattaminen, hunajapotin turvallisuussääntöjen käyttöönottamisen hyökkääjien harhaanjohtamiseksi ja nopeuden rajoittamisen toteuttaminen toistuvien haitallisten kehotusten rajoittamiseksi. Tapahtuma korostaa AI -teollisuuden tarvetta etusijalle kyberturvallisuusnäkökohdat edistyneiden kykyjen saavuttamisen rinnalla. K2: n kehittäjät ajattelevat, kun he tekevät kiitettäviä ponnisteluja avoimuuden edistämiseksi, paljasti myös uuden hyökkäyspinnan. Nyt haasteena on tasapainottaa läpinäkyvyyttä vankkojen turvatoimenpiteiden kanssa varmistamalla, että AI -mallit ovat sekä tarkistettavia että vastustuskykyisiä haitallisille hyväksikäytöille. Polyakov toivoo, että tämä tapaus toimii katalysaattorina koko AI -teollisuudelle, mikä kehottaa kehittäjiä käsittelemään päättelyä kriittisenä turvapintana. Myyjien on tasapainotettava läpinäkyvyys suojaan, samanlainen kuin he hallitsevat tällä hetkellä vastauksia. Jos G42 ja muut AI -kehittäjät voivat johtaa tämän tasapainon löytämiseen, se luo voimakkaan ennakkotapauksen muille AI -ekosysteemeille. K2: n jailbreak -haavoittuvuuden löytäminen ajattele pian sen jälkeen, kun sen julkaisu korostaa tiukan turvallisuustestauksen merkitystä ja kokonaisvaltaisen lähestymistavan tarvetta AI -turvallisuuteen. Kun AI -mallit muuttuvat hienostuneemmiksi ja otetaan käyttöön herkissä sovelluksissa, on välttämätöntä puuttua mahdollisiin haavoittuvuuksiin ennakoivasti ja varmistaa, että avoimuus ei tule turvallisuuden kustannuksella. Tapahtuma korostaa myös AI-kehityksen geopoliittisia ulottuvuuksia, kun otetaan huomioon, että K2: n mielestä Yhdistyneiden arabiemiirikuntien osavaltioiden ja sen kansallisen turvallisuuden päällikkö tukevat. Tällaisten mallien turvallisuudella on vaikutuksia teknisten haavoittuvuuksien ulkopuolella, mikä herättää huolenaiheita kansallisesta turvallisuudesta ja haitallisten toimijoiden väärinkäyttömahdollisuuksista.

Source: MBZUAI: n K2 Ajattele AI -malli vankilaan julkisen julkaisun jälkeen

MBZUAI: n K2 Ajattele AI -malli vankilaan julkisen julkaisun jälkeen

Related Stories

vieraile rekisteröintisivulla Opas

Kuinka katsoa WWDC 2026

Instagram Plus julkaistaan ​​maailmanlaajuisesti uusilla tarina- ja profiilityökaluilla

Uusi Valve-laitteisto julkaistaan ​​tänä kesänä ilman virallisia hintatietoja

Instagram Plus julkaistaan maailmanlaajuisesti uusilla tarina- ja profiilityökaluilla

Uusi Valve-laitteisto julkaistaan tänä kesänä ilman virallisia hintatietoja