Maanantaina Deepseekin tutkijat julkaisivat uuden kokeellisen mallin, V3.2-EXP: n, jonka on suunniteltu dramaattisesti alhaisemmille päätelmäkustannuksille, kun niitä käytetään pitkien kontekstin operaatioissa. DeepSeek ilmoitti mallin Halging Face -viestissä ja julkaisi myös linkitetyn akateemisen paperin GitHubista, joka tarjoaa yksityiskohtia sen arkkitehtuurista ja suorituskyvystä. Mallin tärkein piirre on Deepseek harva huomio. Tämä järjestelmä käyttää moduulia, jota kutsutaan ”salaman hakemistoksi”, jotta voidaan priorisoida tiettyjä otteita kontekstiikkunasta. Tämän vaiheen jälkeen erillinen järjestelmä, ”hienosäädettävä merkkivalintajärjestelmä”, valitsee tiettyjä merkkejä näistä otteista. Nämä valitut rahakkeet ladataan sitten moduulin rajoitettuun huomio -ikkunaan. Tämä yhdistelmä antaa harvan huomion mallin toimia pitkien kontekstin osissa suhteellisen pienillä palvelinkuormilla. Järjestelmän edut ovat merkittäviä pitkän kontekstin operaatioille. Deepseekin suorittama alustava testaus havaitsi, että yksinkertaisen sovellusliittymän hintaa voidaan vähentää jopa puoleen näissä tilanteissa. Lisätestausta vaaditaan voimakkaamman arvioinnin laatimiseksi. Malli on avoin ja vapaasti saatavana halaus kasvoilla, mikä mahdollistaa kolmansien osapuolien testit arvioida paperissa esitettyjä tuloksia. Deepseekin uusi malli on osa viimeaikaisia läpimurtoja, jotka ratkaisevat päätelmäkustannusten ongelmaa. Nämä kustannukset edustavat ennen koulutetun AI-mallin toiminnan kuluja, jotka eroavat sen koulutuskustannuksista. Deepseekin tutkijat etsivät tapoja saada perustavanlaatuisen muuntajan arkkitehtuuri toimimaan tehokkaammin, ja havaitsivat, että tehdään merkittäviä parannuksia. Kiinassa sijaitseva Deepseek on ollut epätavallinen hahmo AI -alalla, etenkin niille, jotka pitävät AI -tutkimusta Yhdysvaltojen ja Kiinan välisenä kansallismielisenä taisteluna. Yhtiö sai huomion vuoden alussa R1 -mallillaan, joka koulutettiin pääasiassa vahvistusoppimisen avulla huomattavasti halvemmalla kuin sen amerikkalaiset kilpailijat. Malli ei kuitenkaan herättänyt tukkumyyntivallankumousta AI -koulutuksessa, kuten jotkut ennustivat, ja yritys on palannut valokeilasta sen jälkeen. Uusi ”harva huomio” -lähestymistapa ei todennäköisesti tuota samaa häiriötä kuin R1, mutta se voisi silti opettaa meille tarjoajille joitain kaivattuja temppuja, jotta päätelmäkustannukset auttavat pitämään alhaiset.

DeepSeek julkaisee V3.2-EXP-mallin harvoin huomiota
Written by
Kerem from Turkey has an insatiable curiosity for the latest advancements in tech gadgets and a knack for innovative thinking. With 3 years of experience in editorship and a childhood dream of becoming a journalist, Kerem has always been curious about the latest tech gadgets and is constantly seeking new ways to create. As a Master's student in Strategic Communications, Kerem is eager to learn more about the ever-evolving world of technology. His primary focuses are artificial intelligence and digital inclusion, and he delves into the most current and accurate information on these topics.
View all posts →Related Stories
NVIDIA paljastaa Isaac Gr00t avoimen humanoidirobottialustan Computexissa
Toimitusjohtaja Jensen Huang paljasti, että alustassa on kuusi jalkaa korkea robottirunko, jossa on 31 vapausastetta ja jota tukee...
Mitä odottaa WWDC 2026:lta
Applen odotetaan julkistavan WWDC 2026:ssa suuren Siri-uudistuksen, joka perustuu edistyneeseen tekoälyyn, sekä tärkeimmät iOS-, macOS- ja muiden päivitysten...
Meta eyes AI-riipus julkaistaan uusien älylasien rinnalla
Metan kerrotaan kehittävän tekoälyriipusta ja jopa neljää uutta älylasimallia laajentaakseen puettavia teknisiä tavoitteitaan tänä vuonna.
Radeon RX 9070 GRE tulee maailmanlaajuisesti hintaan 549 dollaria Kiinan debyytin jälkeen
AMD:n Radeon RX 9070 GRE -näytönohjain julkaistaan maailmanlaajuisesti hintaan 549 dollaria, ja se tarjoaa 1440p-pelitehon, RDNA 4 -tehokkuuden...




