Harvinaisessa yhteistyössä AI -kilpailijat Openai ja antropinen ovat suorittaneet toistensa AI -järjestelmien turvallisuusarviointeja jakamalla niiden analyysien tulokset yksityiskohtaisissa raporteissa.

Antropinen arvioi OpenAI-malleja, mukaan lukien O3, O4-Mini, GPT-4O ja GPT-4.1, ominaisuuksien, kuten ”sykofanssi, väärinkäyttäjät, itsensä säilyttäminen ja ihmisen väärinkäytön tukeminen” sekä AI-turvallisuusarviointien ja valvontaan liittyvien kykyjen alentamiseen. Arvioinnissa havaittiin, että Openain O3- ja O4-Mini-mallit olivat linjassa antropisin omien mallien kanssa. Yhtiö herätti kuitenkin huolta mahdollisesta väärinkäytöstä GPT-4O- ja GPT-4.1 -mallien kanssa. Antropia kertoi myös, että kaikilla testatuilla malleilla, lukuun ottamatta O3: ta, oli jonkin verran sykofanssia.

Erityisesti Antropicin testit eivät sisältäneet Openain uusinta julkaisua GPT-5, jossa on ”turvallinen täydennys” -toiminto, joka on suunniteltu suojaamaan käyttäjiä mahdollisesti vaarallisista kyselyistä. Tämä kehitys tulee, kun Openai kohtaa ensimmäisen lainvastaisen kuoleman oikeusjutun traagisen tapauksen jälkeen, jossa teini -ikäinen keskusteli itsemurhasuunnitelmista ChatgPT: n kanssa ennen oman elämänsä ottamista.

Sitä vastoin Openai arvioi antropisia malleja opetushierarkialle, jailbreakingille, hallusinaatioille ja kaavioille. Claude -mallit suoritettiin yleensä hyvin opetushierarkiakokeissa ja osoittivat korkean kieltäytymisprosentin hallusinaatiotesteissä, mikä osoittaa pienemmän todennäköisyyden antaa mahdollisesti virheellisiä vastauksia epävarmoissa tilanteissa.

Yhteistyö on erityisen huomionarvoista, kun otetaan huomioon, että Openai väitti loukaneen antropian palvelusehtoja käyttämällä Claudea uusien GPT -mallien kehittämisessä, mikä johtaa antropisiin rajoittamiseen Openain pääsyyn sen työkaluihin aikaisemmin kesäkuussa. Tämä tapaus korostaa AI -turvallisuuden lisääntyvää merkitystä, koska kriitikot ja oikeudelliset asiantuntijat puolustavat ohjeita käyttäjien, etenkin alaikäisten, mahdollisten haittojen suojelemiseksi.

Täydelliset raportit tarjoavat teknisiä tietoja läheisesti AI -kehityksen jälkeen.

Source: Openai, antropinen osake AI -mallin turvallisuuden arviointitulokset