Voxtraalilla on käynnistetty Uusi avoimen lähdekoodin puheen ymmärtäminen mallit, joiden tavoitteena on mullistaa ihmisen ja tietokoneen vuorovaikutus tekemällä äänirajapinnoista luotettavampia ja helposti saavutettavissa. Nämä huipputekniset mallit, jotka ovat saatavana 24B- ja 3B-variantteina Apache 2.0 -lisenssin alla, tarjoavat poikkeuksellisen transkription ja syvän ymmärryksen ominaisuudet, jotka koskevat nykyisten omistus- ja avoimen lähdekoodin järjestelmien rajoituksia.

Voxtraal siltaa rako korkeiden, suljettujen sovellusliittymien ja vähemmän tarkkojen avoimen lähdekoodin vaihtoehtojen välillä. Se tarjoaa huipputeknisen tarkkuuden ja alkuperäisen semanttisen ymmärryksen alle puolet vertailukelpoisten sovellusliittymien hinnasta. Mallit tukevat pitkämuotoista ääntä jopa 30 minuuttia transkriptioon ja 40 minuuttia ymmärrykseen, ja siinä on 32K: n tunnuskontekstin pituus. Ne sisältävät myös sisäänrakennetut kysymykset ja vastaukset ja yhteenveto, automaattisen kielen havaitsemisen laajasti käytetyille kielille (englanti, espanja, ranska, portugalilainen, hindi, saksa, hollantilainen, italia) ja äänikomennoista suoran toiminnan soittamisen.

Mistral-julkaisut-vokstraali-avoin lähteen puhe-ymmärrysmallit
Kuva: Mistral

Vertailuarvoissa voxtraal ylittää merkittävästi avoimen lähdekoodin malleja, kuten Whisper Large-V3, ja kilpailee voimakkaasti GPT-4O-mini-transkribtiivien ja Gemini 2.5 Flashin kanssa puheen transkriptiossa ja äänen ymmärtämisessä. Esimerkiksi voxtraal mini-transkriptio on kustannustehokkaampaa kuin Openai Whisper, kun taas voxtraaliset pienet ottelut ElevenLabs-kirjoituksen suorituskyky alhaisempaan hintaan. Mallit säilyttävät myös vahvat tekstin ymmärtämisominaisuudet Mistral Small 3.1 -rungosta.

Voxtraal -malleja on saatavana paikalliselle lataamiseksi halaus kasvoilla ja sovellusliittymällä, hinnoittelu alkaa 0,001 dollaria minuutissa. Yritysominaisuuksiin kuuluvat yksityinen käyttöönotto, verkkotunnuskohtainen hienosäätö ja edistyneet kontekstiominaisuudet, kuten puhujien tunnistaminen ja tunteiden havaitseminen. Tuleviin päivityksiin sisältyy puhujan segmentointi, äänimerkit ja sanatason aikaleimat, mikä parantaa niiden hyödyllisyyttä edelleen.

Source: Mistral käynnistää voxtraalin: avoimen lähdekoodin puheen ymmärtämisen mallit