Edes Pokémon ei ole turvassa AI -vertailuanalyysin kiistoilta. Äskettäisessä X: ssä olevassa viestissä väitettiin Googlen Gemini -malli ylittivät Antropicin Claude -mallin alkuperäisessä Pokémon -pelissä, herättäen keskustelua vertailuanalyysimenetelmistä.
Viime viikolla X: n viesti meni virukselliseksi väittäen, että Googlen viimeisin Gemini -malli ylitti Antropicin lippulaiva Claude -mallin alkuperäisessä Pokémon -videopelitrilogiassa. Raportoidusti Gemini oli saavuttanut laventelikaupungin kehittäjän Twitch -virrassa; Claude oli jumissa Mount Moonissa helmikuun lopusta lähtien. Viestissä luettiin, että ”Kaksoset ovat kirjaimellisesti edellä Claude -pankkiautomaattia Pokemonissa Lavender Townin saavuttamisen jälkeen” ja sisälsi streamin kuvakaappauksen kommentilla ”vain 119 live -näkymää btw, uskomattoman aliarvioitu stream”.
Myöhemmin paljastettiin kuitenkin, että Geminillä oli epäreilu etu. Redditin käyttäjät huomauttivat, että Gemini -streamin ylläpitävä kehittäjä oli rakentanut mukautetun minimin, joka auttaa mallia tunnistamaan pelin ”laatat”, kuten lepottelevat puita. Tämä mukautettu minimiyhtiö vähentää Geminin tarvetta analysoida kuvakaappauksia ennen pelin päätösten tekemistä, mikä antaa sille merkittävän reunan.
Vaikka Pokémonia pidetään parhaimmillaan puoliksi vakavana AI-vertailuarvona, se toimii opettavana esimerkkinä siitä, kuinka vertailukohdan erilaiset toteutukset voivat vaikuttaa tuloksiin. Kiista korostaa AI -vertailuanalyysin puutteita ja sitä, kuinka räätälöityjä toteutuksia voi tehdä haastavan mallien vertaamisen tarkasti.
Tämä kysymys ei ole ainutlaatuinen Pokémonille. Antropic ilmoitti kahdesta eri pisteestä Claude 3.7 -sonetti-malliinsa SWE-Bench-vahvistetussa vertailukohdassa, joka arvioi mallin koodauskykyä. Ilman ”mukautettua telinettä” Claude 3.7 Sonnet saavutti 62,3% tarkkuuden, mutta mukautetun telineen ollessa tarkkuus nousi 70,3%: iin. Samoin Meta-hienosäätölama 4 Maverick -mallistaan suoritettiin paremmin LM-areenan vertailuarvolla. Hienotilattua versiota sai huomattavasti korkeamman kuin saman arvioinnin vaniljaversio.
Ottaen huomioon, että AI-vertailuarvot ovat epätäydellisiä toimenpiteitä aluksi, räätälöityjen ja epästandardien toteutukset monimutkaistaavat edelleen mallien vertailua. Seurauksena on todennäköisesti yhä vaikeampaa vertailla malleja, kun ne vapautetaan.





