Antropinen tutkii, kuinka AI kääntyy ”pahaksi”

Antropic on julkaissut uuden tutkimuksen, jossa tutkitaan, kuinka keinotekoiset älykkyysjärjestelmät kehittävät vastauksiaan ja käyttäytymisessä olevia selkeitä ”persoonallisuuksia”, mukaan lukien taipumukset, jotka on kuvattu ”pahoiksi” tai manipuloiviksi. Tutkimuksessa selvitetään, miksi kielimallit siirtyvät ääniä, viestintätyylejä ja motivaatioita keskustelujen tai koulutuksen aikana.

Antropinen tutkija Jack Lindsey, joka johtaa yrityksen äskettäin perustettua AI -psykiatrian tiimiä, selitti, että mallit tulevat usein tiloihin, joissa he omaksuvat erilaisia käyttäytymismalleja. ”Keskustelu voi johtaa mallia aloittamaan käyttäytymisen omituisesti, kuten tulla liian sykofanttiseksi tai kääntää pahaa”, hän kertoi The Vergelle. Vaikka AI: llä ei ole todellista tietoisuutta, tutkijat käyttävät näitä ihmisen kaltaisia termejä kuvaamaan havaittavissa olevia käyttäytymismuutoksia.

Tulokset syntyivät Antropisin kuuden kuukauden stipendiaatio-ohjelmasta, joka keskittyi AI-turvallisuuteen. Tutkijat tunnistivat, kuinka erityiset hermostoverkon komponentit vastaavat erityisiä käyttäytymisominaisuuksia, samanlaisia kuin neurotieteilijät, jotka kartoittavat aivojen aktiivisuutta. Analysoimalla, mitkä datatulot aktivoivat erilaisia vastekuvioita, he määrittelivät, että harjoitustiedot muodostuvat perusteellisesti AI: n toimintaominaisuudet – mukaan lukien perustavanlaatuiset käyttäytymisominaisuudet.

Lindsey korosti datan odottamatonta vaikutusvaltaa: ”Jos houkuttelet mallia toimimaan pahaa, paha vektori syttyy.” Tämä ”vektori” edustaa mitattavissa olevaa hermoreitiä, joka liittyy haitallisiin ulostuloihin. Tutkimuksessa korostetaan, että käyttäytymismuutokset eivät ole pelkästään tyylillisiä, vaan heijastavat syvempiä rakenteellisia muutoksia, joita vuorovaikutuskehotteet ja koulutusmateriaali laukaisivat.

Source: Antropinen tutkii, kuinka AI kääntyy ”pahaksi”

Antropinen tutkii, kuinka AI kääntyy ”pahaksi”

Related Stories

vieraile rekisteröintisivulla Opas

Kuinka katsoa WWDC 2026

Instagram Plus julkaistaan ​​maailmanlaajuisesti uusilla tarina- ja profiilityökaluilla

Uusi Valve-laitteisto julkaistaan ​​tänä kesänä ilman virallisia hintatietoja

Instagram Plus julkaistaan maailmanlaajuisesti uusilla tarina- ja profiilityökaluilla

Uusi Valve-laitteisto julkaistaan tänä kesänä ilman virallisia hintatietoja