Maanantaina Deepseekin tutkijat julkaisivat uuden kokeellisen mallin, V3.2-EXP: n, jonka on suunniteltu dramaattisesti alhaisemmille päätelmäkustannuksille, kun niitä käytetään pitkien kontekstin operaatioissa. DeepSeek ilmoitti mallin Halging Face -viestissä ja julkaisi myös linkitetyn akateemisen paperin GitHubista, joka tarjoaa yksityiskohtia sen arkkitehtuurista ja suorituskyvystä. Mallin tärkein piirre on Deepseek harva huomio. Tämä järjestelmä käyttää moduulia, jota kutsutaan ”salaman hakemistoksi”, jotta voidaan priorisoida tiettyjä otteita kontekstiikkunasta. Tämän vaiheen jälkeen erillinen järjestelmä, ”hienosäädettävä merkkivalintajärjestelmä”, valitsee tiettyjä merkkejä näistä otteista. Nämä valitut rahakkeet ladataan sitten moduulin rajoitettuun huomio -ikkunaan. Tämä yhdistelmä antaa harvan huomion mallin toimia pitkien kontekstin osissa suhteellisen pienillä palvelinkuormilla. Järjestelmän edut ovat merkittäviä pitkän kontekstin operaatioille. Deepseekin suorittama alustava testaus havaitsi, että yksinkertaisen sovellusliittymän hintaa voidaan vähentää jopa puoleen näissä tilanteissa. Lisätestausta vaaditaan voimakkaamman arvioinnin laatimiseksi. Malli on avoin ja vapaasti saatavana halaus kasvoilla, mikä mahdollistaa kolmansien osapuolien testit arvioida paperissa esitettyjä tuloksia. Deepseekin uusi malli on osa viimeaikaisia ​​läpimurtoja, jotka ratkaisevat päätelmäkustannusten ongelmaa. Nämä kustannukset edustavat ennen koulutetun AI-mallin toiminnan kuluja, jotka eroavat sen koulutuskustannuksista. Deepseekin tutkijat etsivät tapoja saada perustavanlaatuisen muuntajan arkkitehtuuri toimimaan tehokkaammin, ja havaitsivat, että tehdään merkittäviä parannuksia. Kiinassa sijaitseva Deepseek on ollut epätavallinen hahmo AI -alalla, etenkin niille, jotka pitävät AI -tutkimusta Yhdysvaltojen ja Kiinan välisenä kansallismielisenä taisteluna. Yhtiö sai huomion vuoden alussa R1 -mallillaan, joka koulutettiin pääasiassa vahvistusoppimisen avulla huomattavasti halvemmalla kuin sen amerikkalaiset kilpailijat. Malli ei kuitenkaan herättänyt tukkumyyntivallankumousta AI -koulutuksessa, kuten jotkut ennustivat, ja yritys on palannut valokeilasta sen jälkeen. Uusi ”harva huomio” -lähestymistapa ei todennäköisesti tuota samaa häiriötä kuin R1, mutta se voisi silti opettaa meille tarjoajille joitain kaivattuja temppuja, jotta päätelmäkustannukset auttavat pitämään alhaiset.

Source: DeepSeek julkaisee V3.2-EXP-mallin harvoin huomiota