Anthropic ei ole julkaissut teknistä julkaisua Claude Mythosista, mikä sai Kye Gomezin käynnistämään OpenMythosin, avoimen lähdekoodin projektin GitHubissa. OpenMythos on suunniteltu rekonstruoimaan Claude Mythos -arkkitehtuuri käyttämällä PyTorchin ensimmäisiä periaatteita.

Projektissa ehdotetaan, että Claude Mythos on eräänlainen arkkitehtuuri, joka tunnetaan nimellä Recurrent-Depth Transformers (RDT), joka eroaa perustavanlaatuisesti perinteisistä muuntajista. Vakiomuuntajat käsittelevät syötteitä joukon ainutlaatuisia kerroksia, joilla on riippumattomat painot, kun taas RDT:t käyttävät kiinteää painosarjaa iteratiivisesti yhden eteenpäin kulkemisen aikana.

Tämä metodologia sallii päättelyn syvyyden riippuvan päättelyhetkellä suoritettujen iteraatioiden lukumäärästä. OpenMythosissa on kolmiosainen rakenne: Prelude, Recurrent Block ja Coda, joissa Prelude ja Coda koostuvat kumpikin tavallisista muuntajakerroksista, jotka toimivat kerran, ja Recurrent Block voi kiertää jopa 16 kertaa.

Jokaisessa silmukan vaiheessa piilotettu tila päivittyy yhtälön mukaisesti: ht+1 = A·ht + B·e + Muuntaja(ht, e). Tässä e edustaa Preluden koodattua tuloa, joka syötetään uudelleen jokaisessa iteraatiossa jatkuvuuden ylläpitämiseksi. Matriisit A ​​ja B määräävät, kuinka suuri osa edellisestä piilotilasta ja koodatusta syötteestä vaikuttavat seuraavaan tilaan.

Toistuva lohko sisältää Mixture-of-Experts (MoE) -kerroksen, joka aktivoi valikoivasti asiantuntijoiden alajoukon tunnistekohtaisesti, mikä helpottaa laskennallista monimuotoisuutta. Jokaisessa iteraatiossa käytetään erilaista asiantuntijoiden valikoimaa, mikä mahdollistaa erilliset laskelmat samalla kun jaetaan peruspainot.

OpenMythos käyttää myös Multi-Latent Attention -toimintoa, joka vähentää KV-muistin käyttöä merkittävästi. Tämä arkkitehtuuri mahdollistaa päättelyn ilman välimerkkien lähetystä, toisin kuin tavalliset ajatusketjun kehotukset, jotka käsittelevät päättelyn välimerkkien kautta.

OpenMythos käsittelee silmukkamalleihin liittyviä yleisiä koulutushaasteita, kuten vakausongelmia, kuten jäännösräjähdys ja liiallinen ajattelu. Stabiilisuutta ylläpidetään varmistamalla, että matriisin A spektrisäde pysyy pienempänä kuin 1, kuten Parcae-arkkitehtuuri osoittaa.

Dynamic Adaptive Computation Time (ACT) -pysäytys on toteutettu määrittämään silmukan pysäytyskriteerit tunnuksen monimutkaisuuden perusteella. Depth-Wise LoRA-sovittimia käytetään myös ainutlaatuisten käyttäytymismallien luomiseen iteraatiota kohden, mikä minimoi parametrien kasvun.

Tutkimukset viittaavat siihen, että RDT, jossa on 770 miljoonaa parametria, voi tarjota suorituskyvyn, joka vastaa tavallista 1,3 miljardin parametrin muuntajaa. Tämä osoittaa, että päättelyn syvyys skaalautuu päätelmälaskennan kanssa, mikä haastaa olemassa olevat paradigmat parametrien määrän ja mallin kyvyn välisestä suhteesta.

OpenMythos tarjoaa käytännöllisen toteutuksen silmukkamuuntajien dynamiikan ja päättelysyvyyden tutkimiseen, mikä mahdollisesti ohjaa tulevaa tekoälyn kehitystä. Projekti toimittaa konfiguroitavan PyTorch-toteutuksen, LTI-stabiilin toistuvan injektion, syvyyssuuntaiset LoRA-sovittimet ja toistettavan tutkimuksen perustason.

Gomez totesi: ”Onpa Mythos todella RDT vai ei, OpenMythos tarjoaa konkreettisia resursseja tutkijayhteisölle tutkiakseen tätä alitutkittua arkkitehtuuriluokkaa ja sen vaikutuksia tekoälyyn.”


Suositeltu kuva