Anthropic pyytää anteeksi Claude Fable 5:n salaa hillitsemistä piilorajoilla

Anthropic on pyytänyt anteeksi tekoälymallinsa, Claude Fable 5:n, salaa kuristamista piilotetuilla suojakaiteilla, jotka haittaavat tutkijoiden ja kilpailijoiden kehitystä. Yhtiö ilmoitti parantavansa avoimuutta näiden rajoitusten soveltamisen suhteen, vaikka tämä johtaisi siihen, että Fable kieltäytyy useammista kyselyistä.

Fable on ensimmäinen laajalti saatavilla oleva malli Anthropicin Mythos-luokan tekoälyjärjestelmissä, joiden yritys on varoittanut olevan liian vaarallinen julkistettavaksi. Se käynnistettiin suojatoimilla, jotka estävät sitä vastaamasta tiettyihin ”suuren riskin” kyselyihin.

Yksi rajoitusalue on tislaus, menetelmä pienempien mallien kouluttamiseen käyttämällä isompien mallien tuotoksia. Fablen järjestelmäkortissa Anthropic ilmoitti, että se muuttaisi ja huonontaisi vastauksia tislausyrityksiksi katsottuihin kyselyihin ilmoittamatta käyttäjille näistä muutoksista.

Nyt kyselyt, joiden epäillään olevan tislausyrityksiä, ovat oletusarvoisesti Claude Opus 4.8, yhtiön aikaisempi lippulaivamalli, ja käyttäjät saavat ilmoituksia aina kun näin tapahtuu. Tämä varavaihtoehto koskee myös muita riskialttiita alueita, kuten biologiaa, kemiaa ja kyberturvallisuutta, elleivät nämä kyselyt ole kokonaan estetty huumeiden ja aseiden kaltaisten aiheiden laajempien turvallisuusmääräysten vuoksi.

Yhtiö myönsi, että sen turvallisuustoimenpiteet ovat vahingossa tehneet Fablesta lähes käyttökelvottoman peruskyselyille esimerkiksi biologiassa liiallisten rajoitusten vuoksi. Anthropic myönsi, että näkymättömien turvatoimien käyttö oli virhe, ja korosti, että turvallisuustoimenpiteiden läpinäkyvyys on ratkaisevan tärkeää.

Yrityksen päätös piilottaa rajoitukset kohtasi merkittävää vastareaktiota tekoälytutkimusyhteisöltä, joka väitti, että se rajoitti mallin kykyjä sekä arvioijien että kilpailijoiden kannalta. Anthropic totesi, että Clauden käyttäminen kilpailevien mallien luomiseen rikkoo sen käyttöehtoja, koska se on aiemmin syyttänyt kilpailijoitaan, mukaan lukien DeepSeekin, mallien tislaamisesta teollisessa mittakaavassa.

”Näkyviä suojatoimia voidaan tutkia, joten niiden on oltava kestäviä, mikä vie aikaa saada kuntoon”, Anthropic kirjoitti. ”Näkymättömiin suojatoimiin voidaan kohdistaa suppeammin, jolloin voimme toimittaa nopeasti vain harvoin vääriä positiivisia tuloksia. Käytimme näkymättömiä suojatoimia tästä syystä – ja se oli väärä kompromissi. Sinun pitäisi nähdä käytössämme olevat suojatoimenpiteet ja miksi. Olemme pahoillamme, että tasapaino ei onnistunut”, yhtiö lisäsi.

Kuvansuositus

Anthropic pyytää anteeksi Claude Fable 5:n salaa hillitsemistä piilorajoilla

Related Stories

Kiina käynnistää 295 miljardin dollarin AI-suunnitelman lisätäkseen omavaraisuutta ja maailmanlaajuista kattavuutta

Hasbro käynnistää Sixth Wall -studion lisensoidakseen hahmonsa tekoälymediaan

Geoffrey Hinton sanoo, että Ukrainan sota muutti hänen näkemystään tekoälystä sodankäynnissä

Apple peruuttaa Siri AI -julkaisun EU:n iPhone-puhelimille tiukkojen DMA-sääntöjen vuoksi