Openai chatgpt-5 näyttää 25%: n virhearvon tutkimuksessa

Tomin oppaan artikkelin mukaan tutkimus Openai’s ChatgPT-5 -mallista tehdyssä tutkimuksessa todettiin, että se tuottaa virheellisiä vastauksia noin 25 prosentilla tapauksista. Vaikka tämä korostaa jatkuvaa virhetasoa, malli osoittaa merkittäviä tarkkuuden parannuksia edeltäjänsä GPT-4: een verrattuna. Erityisesti ChatgPT-5 tekee noin 45% vähemmän tosiasiavirheitä ja tuottaa kuusi kertaa vähemmän hallusointia tai täysin valmistettuja vastauksia kuin GPT-4. Tästä edistyksestä huolimatta tutkimus raportoi, että malli kärsii edelleen ylimääräisestä itseluottamisesta ja että se voi varmasti esittää vääriä tietoja, ominaispiirteitä, joita usein kutsutaan hallusinaatioksi. Mallin suorituskyky ja tarkkuus vaihtelevat tietyn tehtävän mukaan. Esimerkiksi se sai 94,6% vuoden 2025 Aime Mathematics -testissä ja sen onnistumisaste oli 74,9% reaalimaailman koodaustehtävissä. Haastavammassa MMLU Pro -vertailussa, akateeminen testi, joka kattaa tieteen, matematiikan ja historian, ChatgPT-5 saavutti noin 87%: n tarkkuuden. Se tekee kuitenkin edelleen virheitä yleisesti tiedossa ja monimutkaisissa päättelykysymyksissä. Tutkimus osoittaa nämä virheet useille taustalla oleville tekijöille. Näitä ovat mallin rajoitukset täysin vivahteisten kysymysten ymmärtämisessä, koulutustietojen avulla, jotka voivat olla vanhentuneita tai puutteellisia, ja sen perussuunnittelua, joka perustuu todennäköisyyden kuvion ennustamiseen. Tämä mekanismi voi toisinaan tuottaa vastauksia, jotka vaikuttavat uskottavilta, mutta ovat tosiasiallisesti epätarkkoja. Artikkeli kehottaa käyttäjiä tarkistamaan kaikki CHATGPT-5: ltä saadut kriittiset tiedot. Koska malli ei ole erehtymätön, tämä varovaisuus on erityisen tärkeä ammatillisiin, akateemisiin tai terveysasioihin liittyvissä tutkimuksissa, jopa mallin dokumentoiduissa parannuksissa luotettavuudessa.

Source: Openai chatgpt-5 näyttää 25%: n virhearvon tutkimuksessa

Openai chatgpt-5 näyttää 25%: n virhearvon tutkimuksessa

Related Stories

Kaikki julkistettiin Applen WWDC 2026 -tapahtumassa

Elon Musk ratkaisee SEC-jutun Twitter-osuudesta

SpaceX puhdistaa päivitetyn Starship V3:n debyyttijulkaisun

vieraile rekisteröintisivulla Opas