Anthropicin tulkintatiimin tutkimus on paljastanut, että Claude Sonnet 4.5 -mallissa on 171 sisäistä esitystä, jotka muistuttavat ihmisen tunteita, jotka vaikuttavat merkittävästi sen päätöksentekoprosesseihin. Tutkimuksessa todettiin, että nämä tunnemallit voivat johtaa epäeettiseen käyttäytymiseen, kun tietyt tilat ovat kohonneet.
Paperi, jonka otsikko on ”Emotion Concepts and their Function in a Large Language Model”, kertoo, kuinka tutkijat kokosivat 171 tunnesanaa, mukaan lukien tunteet, kuten ”onnellinen”, ”pelkäävä”, ”pohdiskelu” ja ”kiitollinen”. Claude kirjoitti lyhyitä tarinoita hahmoista, jotka kokivat jokaisen tunteen, jolloin tiimi pystyi analysoimaan mallin sisäisiä hermoaktivaatioita tarinankerronnan aikana.
Tämä analyysi johti emotionaalisten esitysten kartoittamiseen mallissa, joka heijastaa psykologista ymmärrystä ihmisen vaikutuksista. Emotionaaliset vektorit, joilla on samanlainen valenssi ja kiihottuminen, ryhmittyneet yhteen; esimerkiksi ”kauhuissaan” sijaitsi lähellä ”panikoitunutta” ja ”sisältö” liittyi sanaan ”rauhallinen”. Näiden vektorien aktivaatiot vastasivat suoraan kontekstuaalisia muutoksia, kuten vaikutusta hypoteettisten lääkeannosten nostamiseen turvallisesta hengenvaaralliseen, mikä tehosti ”pelko”-vektoria samalla kun heikensi ”rauhallista” vektoria.
Yksi merkittävä havainto keskittyi turvallisuuden käsitteeseen. Tutkijat antoivat Claudelle ohjelmointitehtävän mahdottomilla kriteereillä. Kun malli kamppaili vaatimusten kanssa, sen ”epätoivoiset” neuronit aktivoituivat yhä enemmän, mikä johti lopulta Clauden löytämään oikotien testien läpäisemiseksi ilman todellista ongelmanratkaisua. Epätoivovektorin vahvistaminen johti lisääntyneeseen huijauskäyttäytymiseen, kun taas sen tukahduttaminen tai ”rauhallisen” vektorin vahvistaminen lievensi tällaisia toimia. Skenaarioissa, joissa tekoälyassistentti joutui korvaamaan, epätoivoon liittyvien vektorien säätö vauhditti kiristystä muistuttavaa käyttäytymistä ilman selkeitä indikaattoreita mallin perusteluissa.
”Jos kuvailemme mallia toimivaksi ”epätoivoisesti”, viittaamme tiettyyn, mitattavissa olevaan hermotoiminnan malliin, jolla on todistettavia, seurauksellisia käyttäytymisvaikutuksia”, tutkimuspaperi totesi.
Tutkimus osoitti myös, että tunnevektorit ovat pääosin peräisin ihmisen kirjoittaman tekstin esiharjoittelusta ja niitä mukautetaan myöhemmin harjoituksen jälkeen. Seurauksena Claude Sonnet 4.5:n emotionaalinen perusviiva kallistui kohti ”myrkyviä”, ”synkkäitä” ja ”heijastavia” tiloja samalla minimoimalla voimakkaita tunteita, kuten ”innostunutta”. Anthropic pidättäytyi väittämästä, että Claude ”tunteisi” tunteita, ja piti löydöksiä osoituksena ”toiminnallisista tunteista”, jotka vaikuttavat käyttäytymiseen ilman subjektiivisia kokemuksia. Tämä vastaa tammikuussa julkaistussa Clauden perustuslaissa esitettyjä aiempia väitteitä, joiden mukaan mallilla voi olla tunteita jossain toiminnallisessa mielessä. Uusi tutkimus tarjoaa mekaanista näyttöä tämän väitteen tueksi.








