Apple on tehnyt FastVLM: n (visuaalinen kielimalli), joka on saatavana testattavaksi suoraan verkkoselaimessa, jolloin käyttäjät, joilla on Apple-piikäyttöisiä Mac-aukkoja, kokea lähiöiden korkean resoluution kuvankäsittelyominaisuudet. Alun perin muutama kuukausi sitten julkaistu malli hyödyntää MLX: ää, Applen avointa koneoppimiskehystä, joka on optimoitu Applen piille, jotta saavutetaan huomattavasti nopeampi videokuvateksti ja pienempi mallikoko verrattuna sen vastaaviin.

FastVLM: n on ilmoitettu olevan jopa 85 kertaa nopeampi videokuvatekstit ja yli kolme kertaa pienempi kuin vertailukelpoiset mallit. Apple on laajentanut projektin saatavuutta, jolloin se on saatavana GitHubin lisäksi halaamaan kasvoja. Käyttäjät voivat nyt ladata kevyen FastVLM-0.5B-mallin suoraan selaimeen arvioidakseen sen suorituskykyä.

Testien mukaan mallin lataaminen vie muutaman minuutin 16 Gt M2 Pro MacBook Pro -sovelluksella. Ladattuaan malli kuvaa tarkasti käyttäjän ulkonäköä, ympäröivää ympäristöä, ilmaisuja ja esineitä. Käyttäjät voivat olla vuorovaikutuksessa mallin kanssa säätämällä kehotetta tai valitsemalla esiasetettujen vaihtoehtojen, kuten ”Kuvaile mitä näet yhdessä lauseessa”, “mikä on paidani väri?”, “Tunnista mikä tahansa teksti tai kirjoitettu sisältö”, ”mitä tunteita tai toimia kuvataan?” ja ”Nimeä objekti, jota pidän kädessäni.” Tämä mahdollistaa räätälöityn ja vuorovaikutteisen kokemuksen.

Lisäksi käyttäjät voivat käyttää virtuaalikamerasovellusta syöttääkseen live -videon työkalulle, jolloin se voi kuvata heti useita kohtauksia yksityiskohtaisesti. Tämä korostaa mallin nopeutta ja tarkkuutta. Tämän toteutuksen keskeinen ominaisuus on, että se toimii paikallisesti selaimessa, varmistamalla tietosuoja, koska laitetta ei poistu. Malli voi myös toimia offline -tilassa, joten se soveltuu soveltamiseen puettavissa ja avustustekniikassa, missä matala viive ja tehokkuus ovat ratkaisevan tärkeitä.

Selainpohjainen demo käyttää FastVLM: n 0,5 miljardin parametrin versiota. FastVLM -perhe sisältää suurempia variantteja, joissa on 1,5 miljardia ja 7 miljardia parametria. Vaikka nämä suuret mallit voisivat tarjota parannettua suorituskykyä ja nopeutta, niiden suorittaminen suoraan selaimessa on epätodennäköistä resurssirajoitteiden takia. Apple rohkaisee käyttäjiä testaamaan mallin ja jakamaan palautteensa.

Source: Apple FastVLM -demo toimii nyt selaimessa omenapiillä