Deepseekin uraauurtava suuri kielimalli, R1, on jo pitkään kiinnostunut AI -yhteisöstä kyvystä kilpailla teollisuus jättiläisten kanssa huomattavan alhaisella budjetilla. Äskettäin julkaistu paperi lehdessä Luonto Deepseek AI -joukkue valaisee erityispiirteitä: malli koulutettiin vain 294 000 dollarilla käyttämällä 512 NVIDIA H800 -sirua. Tämä ilmoitus korostaa kustannustehokasta lähestymistapaa, joka haastaa Openain kaltaisten kilpailijoiden korkean panoksen menot ja korostaa Deepseekin innovatiivista käyttöä ja virhepohjaista vahvistusoppimista vaikuttavien tulosten saavuttamiseksi. Ydininnovaatio on ohittamalla perinteinen riippuvuus kalliista ihmisen välittämistä koskevista tiedoista ja demonstraatioista, jotka ovat työvoimavaltaisia ​​ja mittakaavia huonosti monimutkaisten päättelytehtävien suhteen. Sen sijaan Deepseek käytti vahvistusoppimistekniikoita, jotka jäljittelevät palkitsemis-penalty-järjestelmää. Kuten Carnegie Mellonin yliopiston apulaisprofessori Daphne Ippolito ja tohtoriopiskelija Yiming Zhang selitti mukana olevassa artikkelissa, tämä menetelmä muistuttaa videopelien kautta oppivaa lasta: ”Kun lapsi navigoi heidän avatarinsa pelimaailman kautta, he oppivat oikeudenkäynnin ja virheen kautta, että jotkut toimet (esimerkiksi keräävät kultakolikoiden keräämistä) ansaitsee, että toiset (esimerkiksi viholliset) asettuvat takaisin. Deepseek-R1 sai korkean pistemäärän, kun se vastasi kysymyksiin oikein ja matala pistemäärä, kun se antoi vääriä vastauksia. ” Tämä vahvistusstrategia osoittautui erityisen tehokkaaksi tehtävissä, joissa on todennettavissa olevia oikeita vastauksia, kuten matematiikka ja ohjelmointiongelmat. Toisin kuin aikaisemmat menetelmät, jotka saivat mallit tuottamaan vaiheittaisia ​​selityksiä parannettuun tarkkuutta varten, DeepSeek määräsi tulokset suoraan tuotoksille, rohkaisemalla mallia iterointiin, kunnes oikeat tulokset saavuttavat itsenäisesti. Tulos? Parannettu tarkkuus ilman ihmisen ohjaamaa päättelyä, jolloin DeepSeek voi ylläpitää kilpailukykyä vaatimattomista resursseistaan ​​huolimatta. Lähestymistapa ei kuitenkaan ole ilman rajoituksia. Vaikka tuotokset ovat usein tarkempia, mallin sisäinen päättelyprosessi muuttuu vähemmän läpinäkyväksi ihmisen tarkkailijoille. Esimerkiksi, kun sitä kehotettiin selittämään ajatusprosessiaan, DeepSeek-R1 tuotti joskus pitkiä vastauksia, jotka ylittävät 10 000 sanaa, vaihtaen arvaamattomasti englannin ja kiinan välillä. Tekniikka on erinomainen binaarisissa oikeistolaisissa tai -kirjoissa, mutta horjuu vivahteisilla tai subjektiivisilla kyselyillä, joissa puuttuvat selkeät pisteytysmittarit. Deepseekin saavutukset tulevat laajemman tarkastelun keskellä yrityksen siteitä Kiinan hallitukseen herättäen kysymyksiä sen tekniikan mahdollisista puolueellisuuksista. Viimeaikaiset mielenosoitukset Washington Post Käyttäytymistä koskeva paljastettu: Malli kieltäytyi tuottamasta koodia merkittävillä turvallisuushaavoilla, kun kehotukset ilmoittivat osallistumisensa Kiinan viranomaisten mielestä arkaluonteisiin ryhmiin. Päinvastoin, se tuotti vähemmän turvallista koodia Tiibetiin, Taiwaniin, Falun Gongin uskonnolliseen liikkeeseen tai jopa islamilaiseen valtioon liittyvistä aiheista, mikä viittaa upotettuihin geopoliittisiin vaikutuksiin, jotka voivat vaikuttaa sen globaaliin käyttöönottoon. Tämä artikkeli ei vain demystifioi Deepseekin tehokasta koulutusparadigmaa, vaan myös herättää keskusteluja AI -kehityksen tulevaisuudesta. Hyödyntämällä vahvistusoppimista pienemmät pelaajat, kuten Deepseek, voivat mahdollisesti tasoittaa toimintaedellytyksiä resurssien raskaita vakiintuneita operaattoreita vastaan. Kansallisten herkkyyden infuusio toimii kuitenkin varovaisena huomautuksena, jossa korostetaan AI -innovaatioiden läpinäkyvyyden ja eettisen valvonnan tarvetta. Teollisuuden kehittyessä tällaiset paljastukset voivat inspiroida kustannussäästömenetelmiä maailmanlaajuisesti, mikäli ne käsittelevät taustalla olevia riskejä.

Source: DeepSeek kouluttaa R1 -mallin 294 000 dollarilla käyttämällä 512 NVIDIA H800 -siruja