Ranskalainen tekoälyyritys Mistral lanseerasi avoimen lähdekoodin tekstistä puheeksi -mallin nimeltä Voxtral TTS, joka on suunniteltu puheäly-avustajille ja yrityssovelluksille, kuten asiakastuelle. Tämä kehitys asettaa Mistralin suoraan kilpailijoita vastaan, mukaan lukien ElevenLabs, Deepgram ja OpenAI.
Voxtral TTS tukee yhdeksää kieltä: englanti, ranska, saksa, espanja, hollanti, portugali, italia, hindi ja arabia. Mallin tavoitteena on vastata asiakkaiden vaatimuksiin joustavasta puhemallista, joka soveltuu erilaisiin reunalaitteisiin ja tarjoaa kustannustehokkaan ratkaisun, joka säilyttää korkean suorituskyvyn.
Pierre Stock, Mistral AI:n tiedetoimintojen johtaja, sanoi: ”Asiakkaamme ovat pyytäneet puhemallia. Joten rakensimme pienikokoisen puhemallin, joka mahtuu älykelloon, älypuhelimeen, kannettavaan tietokoneeseen tai muihin reunalaitteisiin.” Hän korosti, että vaikka malli on hinnoiteltu kilpailukykyiseen hintaan, se tarjoaa huippuluokan suorituskyvyn.
Malli mahdollistaa mukautettujen äänien mukauttamisen alle viiden sekunnin näytteillä. Se vangitsee hienovaraisia piirteitä, kuten aksentteja ja puheen epäsäännöllisyyksiä. Lisäksi Voxtral TTS, joka perustuu Ministral 3B:hen, voi vaihtaa kieltä heikentämättä äänenlaatua, mikä tekee siitä sopivan reaaliaikaiseen käännökseen ja kopiointiin.
Mallin suorituskykymittarit ovat merkittäviä. Sen time-to-first-audio (TTFA) on 90 millisekuntia 10 sekunnin 500 merkin näytteelle ja reaaliaikainen kerroin (RTF) 6x, mikä tarkoittaa, että se pystyy renderöimään leikkeen noin 1,6 sekunnissa.
Tämä lanseeraus seuraa Mistralin aiemmin vuonna 2023 julkaisemaa kahta transkriptiomallia, jotka on tarkoitettu suuriin eräkäsittelyyn ja matalan latenssin reaaliaikaisiin käyttötapauksiin. Voxtral TTS on osa Mistralin strategiaa tarjota kattava valikoima puhetuotteita yrityksille.
Stock hahmotteli tulevaisuuden suunnitelmia ja totesi: ”Aiomme saada päästä päähän -alustan, joka pystyy käsittelemään multimodaalisia syötteitä, mukaan lukien ääntä, tekstiä ja kuvia.” Tämän alustan tarkoituksena on parantaa järjestelmien käsittelemiä tietoja, joihin se integroituu.








