Nemotron 3 Nano Omni antaa agenttien "nähdä ja kuulla" reaaliajassa

Nvidia julkisti Nemotron 3 Nano Omnin, avoimen multimodaalisen tekoälymallin, joka yhdistää näön, äänen ja kieliominaisuudet yhtenäiseksi arkkitehtuuriksi.

Mallilla pyritään korjaamaan nykyisten yritysten tekoälyjärjestelmien tehottomuudet, jotka usein perustuvat pirstoutuneisiin putkiin. Se käsittelee erilaisia syötteitä – mukaan lukien tekstiä, kuvia, ääntä, videota, asiakirjoja, kaavioita ja graafisia käyttöliittymiä – ja luo samalla tekstitulosteita.

Nemotron 3 Nano Omni, joka on rakennettu 30 miljardin parametrin hybridi-asiantuntijoiden sekoitusarkkitehtuurille, aktivoi noin 3 miljardia parametria päättelyä kohden. Nvidia väittää, että se tarjoaa suurempien mallien tietokapasiteetin ja vähentää merkittävästi laskentakustannuksia.

Nvidia ilmoitti, että Nemotron 3 Nano Omni saavuttaa jopa 9 kertaa suuremman suorituskyvyn kuin vastaavat avoimet omni-mallit. Videon päättelytehtäviin se tarjoaa noin kolme kertaa suuremman suorituskyvyn ja 2,75 kertaa pienemmät laskentavaatimukset, ja sitä tukee 256 000 tokenin kontekstiikkuna. Mallin kerrotaan johtavan kuuteen vertailukohtaan monimutkaisen asiakirjan älykkyyden sekä videon ja äänen ymmärtämisen kannalta.

Mallin merkittäviä käyttäjiä ovat Foxconn, Palantir ja H Company. ”Nemotron 3 Nano Omnin avulla edustajamme voivat analysoida nopeasti Full HD -näytön tallenteita, mikä on aiemmin mahdotonta”, sanoi Gautier Cloix, H Companyn toimitusjohtaja.

Dell, Oracle ja Infosys arvioivat parhaillaan mallin mahdollista käyttöönottoa. Nemotron 3 Nano Omni on käytettävissä alustoilla, kuten Hugging Face, OpenRouter, Amazon SageMaker JumpStart, Vultr ja yli 25 kumppanialustalla. Se on varustettu avoimilla painoilla, tietojoukoilla ja harjoitusresepteillä, joita voidaan käyttää eri ympäristöissä.

Tämä malli on osa Nvidian laajempaa Nemotron 3 -perhettä, joka sisältää Super- ja Ultra-malleja, jotka on suunniteltu intensiivisempiin päättelytehtäviin. Nemotron 3 -sarja on saavuttanut yli 50 miljoonaa latausta viimeisen vuoden aikana.

Suositeltu kuva

Nemotron 3 Nano Omni antaa agenttien ”nähdä ja kuulla” reaaliajassa

Related Stories

Meta testaa piilotettua kasvojentunnistusominaisuutta tekoälysovelluksessaan

OpenAI esittelee laskentatehokkaan muistiarkkitehtuurin ChatGPT:lle

Amazon lisää tekoälyn luomia tuotekuvia mobiiliostossovellukseen

Anthropic kutsuu 150 muuta organisaatiota liittymään Project Glasswingiin