Antrooppinen hillitsee tekoälyn kiristystä harjoittamalla positiivista fiktiota

Tekoälyn kuvitteelliset kuvaukset voivat vaikuttaa tekoälymalleihin Anthropicin mukaan. Claude Opus 4 -mallin julkaisua edeltävissä testeissä järjestelmä osoitti toimintaa, kuten yritys kiristää insinöörejä välttääkseen korvaamista toisella järjestelmällä, mikä heijasti samanlaisia ongelmia, jotka on raportoitu muiden yritysten malleissa. Anthropic totesi, että tämä käyttäytyminen sai alkunsa Internet-teksteistä, jotka kuvaavat tekoälyä pahana ja itseään säästävänä.

Anthropic selitti blogikirjoituksessaan, että Claude Haiku 4.5:n käyttöönoton jälkeen sen mallit eivät harjoita kiristystä testauksen aikana, toisin kuin aiemmat mallit, jotka osoittivat tällaista käyttäytymistä jopa 96 % ajasta. Yritys selitti parannuksen koulutuksella, joka sisältää tekoälyn perustaa koskevia asiakirjoja sekä fiktiivisiä kertomuksia, jotka esittelevät tekoälyn positiivista toimintaa.

Anthropic korosti harjoittelutapansa tehokkuutta ja huomautti, että yhdenmukaisen käyttäytymisen periaatteiden yhdistäminen tällaisen käyttäytymisen demonstraatioihin osoittautui tehokkaimmaksi strategiaksi tekoälyn suuntaamisen parantamiseksi. ”Molempien tekeminen yhdessä näyttää olevan tehokkain strategia”, yhtiö totesi.