OpenAI julkisti API:lleen uusia puheälyominaisuuksia, jotka on suunniteltu auttamaan kehittäjiä luomaan interaktiivisia sovelluksia, jotka pystyvät keskustelemaan, transkriptoimaan ja kääntämään reaaliajassa. Äskettäin julkaistu GPT-Realtime-2-malli, joka perustuu GPT-5-luokan päättelyyn, pyrkii käsittelemään monimutkaisempia käyttäjien pyyntöjä verrattuna edeltäjäänsä GPT-Realtime-1.5.

Lisäksi OpenAI esitteli GPT-Realtime-Translaten, joka tarjoaa reaaliaikaisia ​​käännöspalveluita yli 70 syöttökielelle ja 13 tulostuskielelle. Tämä ominaisuus on suunniteltu pysymään käyttäjien tahdissa keskustelujen aikana.

Toinen tärkeä päivitys on GPT-Realtime-Whisper-ominaisuus, joka tarjoaa suoran puheen tekstiksi transkription reaaliaikaista vuorovaikutusta varten. ”Yhdessä lanseeraamamme mallit siirtävät reaaliaikaista ääntä yksinkertaisesta soittamisesta ja vastaamisesta kohti äänirajapintoja, jotka voivat todella toimia: kuunnella, perustella, kääntää, litteroida ja ryhtyä toimiin keskustelun edetessä”, OpenAI totesi.

Nämä päivitykset kohdistuvat useille toimialoille, mukaan lukien asiakaspalvelu, koulutus, media ja tapahtumat, OpenAI:n mukaan. Yhtiö huomautti, että uudet ominaisuudet voivat sisältää myös väärinkäytön, kuten roskapostin tai petoksen, riskiä. Tämän lieventämiseksi OpenAI on ottanut käyttöön suojakaiteet, jotka on suunniteltu pysäyttämään haitallisen sisällön sääntöjä rikkovat keskustelut.

Kaikki uudet äänimallit ovat osa OpenAI:n Realtime API:ta. Laskutusrakenne vaihtelee: GPT-Realtime-Translate ja GPT-Realtime-Whisper laskutetaan minuuttikohtaisesti, kun taas GPT-Realtime-2 laskutetaan tunnuksen kulutuksen perusteella.


Suositeltu kuva