Piilaakso on tekemässä huomattavia vetoja vahvistusoppimisympäristöihin (RL) keskeisesti työkaluna AI -agenttien edistämiseksi, jotka kykenevät käsittelemään itsenäisesti monimutkaisia ohjelmistotehtäviä. Suurten teknologiayritysten johtajat ovat vuosien ajan hypänneet näiden edustajien mahdollisuudet mullistaa tuottavuutta vuorovaikutuksessa sovellusten kanssa käyttäjien puolesta. Kuitenkin nykyiset kuluttajalle kohdistuvat esimerkit, kuten Openain ChatgPT-agentti ja hämmenteen komeetta, paljastavat kuitenkin merkittäviä rajoituksia heidän kyvystään suorittaa monivaiheinen prosessit luotettavasti. Tämä aukko on vauhdittanut innovatiivisia tekniikoita, ja RL -ympäristö on noussut lupaavana ratkaisuna. Nämä simuloidut koulutusalueet jäljittelevät reaalimaailman ohjelmistojen vuorovaikutusta, jolloin AI-mallit voivat oppia kokeilun ja virheen kautta, aivan kuten kuinka merkityt tietojoukot ruokkivat generatiivisten AI-läpimurtojen edellistä aikakautta. RL -ympäristöt toimivat hallittuina simulaatioina, joissa AI -agentit harjoittavat tehtäviä virtuaalisessa ympäristössä, saavat palkkioita tai rangaistuksia niiden suorituskyvyn perusteella. Kuvittele digitaalinen työtila, joka toistaa Chrome -selaimen, jossa agentin tehtävänä on navigoida Amazonissa ostaaksesi sukkia. Menestys voi sisältää kohteiden oikein valitsemista, kassalle suorittamista ja virheiden välttämistä, kuten väärän määrän ostamista tai juuttumista valikoihin. Kuten yksi perustaja kuvasi äskettäisessä haastattelussa, näiden ympäristöjen rakentaminen on samanlainen kuin ”erittäin tylsän videopelin luominen”. Toisin kuin staattiset tietojoukot, jotka tarjoavat kiinteitä tuloja ja lähtöjä, RL -ympäristöjen on ennakoidaan ja käsitellään ennakoimattomia agenttitoimintoja, toimittaen johdonmukaisen palautteen oppimisen ohjaamiseksi. Tämä monimutkaisuus vaatii vankkaa suunnittelua sen varmistamiseksi Tällaisten ympäristöjen kysyntä on noussut voimakkaasti johtavien AI -laboratorioiden keskuudessa, mukaan lukien OpenAi, Google Deepmind, Antropic ja Meta. Andreessen Horowitzin pääkumppani Jennifer Li korostettiin TechCrunchin haastattelussa, että ”kaikki suuret AI-laboratoriot rakentavat RL-ympäristöjä talossa”. Kehityksen monimutkainen luonne on kuitenkin saanut nämä organisaatiot etsimään kumppanuuksia kolmansien osapuolien myyjien kanssa korkealaatuisissa ympäristöissä ja arviointityökaluissa. Tämä suuntaus on sytyttänyt sijoitus- ja yrittäjyyden aallon. Startup-yritykset ja vakiintuneet yritykset kilpailevat osuuden siitä, mistä voisi tulla monen miljardin dollarin markkinoita. Tietojen raporttien mukaan Antropisin johto on jopa keskustellut tulevana vuonna RL -ympäristöille yli miljardin dollarin jakamisesta RL -ympäristöille korostaen tämän tekniikan strategista prioriteettia. Historialliset ennakkotapaukset kuvaavat RL: n perustavanlaatuista roolia AI -kehityksessä. Vuonna 2016 Openai esitteli ”RL -kuntosalit”, varhaiset kehykset koulutusasiamiehille simuloiduissa skenaarioissa. Samana vuonna Google Deepmindin alfago saavutti maamerkin voiton voittamalla maailmanmestarin GO-pelissä hyödyntämällä RL: ää simuloidussa ympäristössä strategisen päätöksenteon hallitsemiseksi. Nämä ponnistelut esittivät pohjatyön, mutta nykypäivän sovellukset merkitsevät merkittävää kehitystä. Nykyaikaiset RL-ympäristöt kohdistuvat suuriin muuntajapohjaisiin malleihin, jotka on suunniteltu yleiskäyttöisille tehtäville erilaisissa ohjelmistotyökaluissa, vastakohtana erikoistuneille, suljetun maailman järjestelmille, kuten Alphago. Tutkijat alkavat nyt edistyneemmillä perusmalleilla, mutta pyrkimys luoda laajasti kykeneviä agentteja esittelee uusia haasteita, kuten luotettavuuden varmistaminen avoimissa vuorovaikutuksissa. Perustetut tiedonsiirto jättiläiset kääntyvät aggressiivisesti vastaamaan tätä vaatimusta hyödyntäen nykyistä infrastruktuuriaan ja asiakassuhteitaan. Surge, jonka ilmoitettiin tuottavan viime vuonna 1,2 miljardia dollaria tuloja AI -laboratorioiden, kuten Openain, Googlen, Antropicin ja Meta: n, kanssa RL -ympäristöjen pyynnöissä ”merkittävän lisäyksen”, toimitusjohtajan Edwin Chenin mukaan. Vastauksena yritys on perustanut omistautuneen sisäisen organisaation keskittymään luomiseen. Tämä siirto asettaa nousun siirtymiseen perinteisestä tietojen merkinnästä dynaamisiin simulaatioihin ja hyödyntää sen todistettuja kokemuksia Frontier AI -tutkimuksen tukemisessa. Mercor, jonka arvo on 10 miljardia dollaria, on toinen avainpelaaja, joka korostaa verkkotunnuskohtaisia RL-ympäristöjä, jotka on räätälöity sektoreille, kuten koodaus, terveydenhuolto ja laki. Startup on varmistanut kumppanuudet Openain, Meta: n ja antropian kanssa, ja sen toimitusjohtaja Brendan Foodyn kanssa korostivat TechCrunch -haastattelussa, jossa ”harvat ymmärtävät, kuinka suuri mahdollisuus RL -ympäristöjen ympärillä todella on”. Mercorin lähestymistapaan sisältyy erikoistuneiden simulaatioiden laatiminen, jotka vastaavat niche -haasteisiin, kuten laillisten tietokantojen navigoimiseen tai lääketieteellisten tietojen analysointiin, mikä mahdollisesti nopeuttaa AI: n käyttöönottoa säännellyillä toimialoilla. Asteikko AI, kun kiistaton johtaja tietojen merkinnöissä 29 miljardin dollarin arvostuksella, on joutunut viimeaikaisten takaiskujen kohdalla. Meta: n 14 miljardin dollarin sijoitus kilpailevaan hankkeeseen ja ScAcen entisen toimitusjohtajan salametsästys johti menetettyihin sopimuksiin Googlen ja Openain kanssa META: n sisäisen kilpailun rinnalla. Siitä huolimatta mittakaava sopeutuu laajentumalla RL -ympäristöihin. Chetan Rane, Scale -tuotteen päällikkö edustajien ja RL -ympäristöjen päällikkö, huomautti: ”Tämä on vain liiketoiminnan luonne [Scale AI] on sisään. Asteikko on osoittanut kykynsä sopeutua nopeasti. Teimme tämän autonomisten ajoneuvojen alkuaikoina, ensimmäisen liiketoimintayksikön. Kun chatgpt ilmestyi, mittakaava AI mukautettiin siihen. Ja nyt, jälleen kerran sopeudumme uusiin rajatilaan, kuten edustajiin ja ympäristöihin. ”Tämä kääntö heijastaa Scale-asteikon keksintöhistoriaa, itse ajavista autoista chatbot-puomiin, asettamalla sen palauttamaan merkitys agentin aikakaudella. Tämän konsolidaation keskellä, ketterän startup-startup-startup-ryhmän kohorttien, joka on kuusi kuukausi, Kunnianhimoinen visio ”Automatisoi kaikki työpaikat” aloittamalla AI-koodausasiamiehet. on jo yhteistyössä antropin kanssa RL-kehityksessä, vaikka molemmat osapuolet kieltäytyivät kommentoimasta. Tämä varhainen veto ehdottaa, että Startup-laatustrategia määrän yli voi saada markkinaraon toimittamalla premium-koulutustyökaluja eliittilaboratorioihin. Rahasto ja Menlo Ventures käynnisti RL-ympäristökeskuksen viime kuussa. Osa tekemästämme on vain yrittää rakentaa sen ympärille hyvää avoimen lähdekoodin infrastruktuuria. Myymämämme palvelu on laskenta, joten GPU: n käyttämiseen on kätevä onramp, mutta ajattelemme tätä enemmän pitkällä aikavälillä. ”Helpottamalla GPU-pääsyä, Prime Intetect ei vain edistä yhteisöllinen kehitystä, vaan hyödyntää myös kasvavaa tarvetta Scalable-laitteistoratkaisuihin AI-koulutuksessa. Sijoittajat näkevät tämän kalusto-sektorin valinnan. Ympäristöt ” – hallitseva voima, joka muistuttaa generatiivista AI -aaltoa, rahoituksen virta heijastaa optimismia siitä, että RL -ympäristöt voisivat avata seuraavan agentisen AI: n harppauksen, mahdollistaa järjestelmät, jotka integroituvat saumattomasti työkaluihin, selaavat verkkoa ja suorittavat yrityksen työnkulkuja, mutta kentän kilpailu on intensiivinen, aukko, joka ilmaista apaalin, aukkoa, joka ilmaista apaalin, apaalin apa -yrityksen. ”Lyhyt” -asema RL -ympäristön startup -yrityksille. Palautukset. Nämä edistysaskeleet johtuvat RL: n investoinnista yhdistettynä testiajan laskenta, kuten O1 Monen miljardin dollarin pyrkimys-nämä simulaatiot voisivat ajaa jatkuvaa edistystä yleisen AI-agenttien suhteen. Skeptikot VAROITUS RL-ympäristöihin. Haasteet sisältävät: varoitti: ”Luulen, että ihmiset aliarvioivat, kuinka vaikeaa on skaalata ympäristöjä. Jopa paras julkisesti saatavilla [RL environments] Tyypillisesti ei toimi ilman vakavaa muutosta. ”Skaalaus ei edellytä vain enemmän ympäristöjä, vaan myös tarkennuksia tällaisten kysymysten lieventämiseksi, simulaatioiden varmistaminen on uskollisia todellisille sovelluksille. Jopa julkiset viitearvot vaativat usein laajoja säätöjä, korostaen kuilua prototyypin ja tuotantovalmiiden työkalujen välillä. Andrej Karpathy, kun taas sijoittaja päämiehen ja puolustajalle ja agenttien vuorovaikutukselle. totesi, että ”olen nouseva ympäristöissä ja agenttisissa vuorovaikutuksissa, mutta olen karhunomaisesti vahvistusoppimisessa.”
Source: Asteikko AI laajenee RL -ympäristöihin AI -agentteille




