Kiinalainen AI-käynnistysyritys DeepSeek paljasti uuden mallin ”MODEL1” GitHubin FlashMLA-koodivarastossaan, joka esiintyy 28 kertaa 114 tiedostossa. Paljastus osuu samaan aikaan DeepSeekin R1-julkaisun ensimmäisen vuosipäivän kanssa. MODEL1 edustaa erillistä arkkitehtuuria DeepSeek-V3.2:sta, jonka sisäinen koodinimi on ”V32”. Kehittäjien koodianalyysi osoittaa muutoksia avainarvovälimuistin asetteluun, harvaan käsittelyyn ja FP8-tietomuodon dekoodaukseen. Nämä muutokset viittaavat kohdennettuun uudelleenjärjestelyyn muistin optimointia ja laskennan tehokkuutta varten. Paljastus tapahtui DeepSeekin FlashMLA-arkiston kautta, joka sisältää yrityksen Multi-Head Latent Attention -dekoodausytimen Nvidia Hopper -grafiikkasuorittimille. FlashMLA-lähdekoodin päivitykset lisäsivät tukea MODEL1:lle, mukaan lukien yhteensopivuus Nvidian tulevan Blackwell-arkkitehtuurin (SM100) kanssa Redditin LocalLLaMA-yhteisön viestien mukaan. Koodimuutokset osoittavat, että MODEL1 palaa yhtenäiseen 512-standardin mittaan ja sisältää ”Value Vector Position Awarenessiksi” kuvatut ominaisuudet ja DeepSeekin ”Engram” ehdollisen muistijärjestelmän mahdolliset toteutukset. DeepSeek aikoo julkaista seuraavan sukupolven V4-mallinsa helmikuun 2026 puolivälissä, mikä osuu samaan aikaan Kuukauden 17. helmikuuta. Tiedotkuten lainasi Reuters. DeepSeekin työntekijöiden sisäiset testit viittaavat siihen, että V4 voisi ylittää kilpailevat Anthropicin ja OpenAI:n mallit koodauksen vertailuarvoissa, erityisesti pitkien koodikehotteiden kanssa. V4-mallin odotetaan integroivan DeepSeekin Engram-arkkitehtuurin, joka mahdollistaa tehokkaan haun yli miljoonan tunnuksen yhteyksistä käyttämällä perustietojen hakujärjestelmää. MODEL1-paljastus tulee vuosi DeepSeekin R1-debyytin jälkeen tammikuussa 2025. Tämä tapahtuma, jota pääomasijoittaja Marc Andreessen kutsui ”AI Sputnik -hetkeksi”, johti 593 miljardin dollarin laskuun Nvidian markkina-arvoon yhdessä päivässä. ITPro raportoitu. DeepSeekin R1-mallin kerrotaan maksoineen alle 6 miljoonaa dollaria kouluttamisesta, mutta se vastasi tai ylitti OpenAI:n o1-mallin matematiikan ja koodauksen vertailuarvoissa. Myöhemmin yritys julkaisi V3.1:n elokuussa ja V3.2:n joulukuussa, ja V3.2:n kuvattiin tarjoavan OpenAI:n GPT-5:tä vastaavan suorituskyvyn.


Suositeltu kuvan luotto

Source: DeepSeek paljastaa MODEL1-tunnisteen ennen V4:n julkaisua