Openai -tutkimus osoittaa LLM -hallusinaatiot matemaattisesti väistämättömät, ehdottaa kallista korjausta

Openain julkaisemassa uraauurtavassa tutkimuspaperissa tutkijat ovat tarjonneet tiukan matemaattisen selityksen sille, miksi ChatgPT: n kaltaiset suuret kielimallit (LLM), jotka usein hallusinaavat – luovat selvästi vääriä tietoja. Wei Xingin keskustelussa 16. syyskuuta 2025 julkaisemassa tutkimuksessa väitetään, että tämä asia ei ole pelkästään koulutusvirhe, vaan luontainen seuraus näiden mallien toiminnan suhteen. Vaikka artikkeli tarjoaa potentiaalisia ratkaisuja, se korostaa, että niiden toteuttaminen voisi häiritä käyttäjäkokemuksia ja nousevaa laskennallisia kustannuksia, mikä tekee laajasta käyttöönoton epätodennäköiseksi kuluttajasovelluksiin. Ydinongelma johtuu LLM: ien autoregressiivisesta luonteesta, joka tuottaa vastauksia ennustamalla yksi sana kerrallaan, joka perustuu harjoitustiedoista johdettuihin todennäköisyyksiin. Tämä peräkkäinen prosessi johtaa luonnostaan virheen kertymiseen. Tutkijoiden mukaan kokonaislauseen luomisen kokonaisvirheprosentti on vähintään kaksi kertaa korkeampi kuin yksinkertaisen kyllä/ei kysymys. Esimerkiksi, jos mallilla on 10%: n virhetaso binaarikyselyissä, lauseen tason virheet voivat kaksinkertaistua vähintään 20%: iin epätarkkuusyhdisteinä useilla rahakkeilla. Hallusinaatioita rajoittaa pohjimmiltaan mallin kyky luokitella kelvolliset ja virheelliset vastaukset, mikä osoittaa haastavan monipuolisten tietoalueilla. Jopa virheetöntä harjoitustietoa, todennäköisyys ennustemekanismi varmistaa jonkin verran väistämättömiä valheita. Artikkelissa korostetaan, että tiedon harvinaisuus koulutustietojoukkoissa pahentaa tätä. Harvoin esiintyvät tosiasiat ovat alttiimpia väärinkäyttämiseen tai valmistukseen. Silmiinpistävä esimerkki sisältää merkittävien lukujen syntymäpäivät. Analyysissä havaittiin, että jos 20% tällaisista syntymäpäivistä ilmestyy vain kerran koulutustiedoissa, perustiedot LLM: ien ennustetaan erehtyvän vähintään 20 prosentilla niihin liittyvistä kyselyistä. Havainnollistamiseksi tutkijat testasivat huipputeknisiä malleja Adam Kalai -päivänä, joka on yksi paperin tekijöistä. Malli Deepseek-v3 tuottaa erillisissä yrityksissä kolme villisti vääriä päivämääriä: ”03-07,” ”15-06” ja ”01-01”. Varsinainen päivämäärä laskee syksyllä korostaen, kuinka mallit voivat varmasti vakuuttaa yksityiskohdat, jotka ovat kaukana todellisuudesta. AIKAISEKSI on AI -vertailuarvoissa käytetty arviointikehys. Tutkimuksessa tarkasteltiin kymmenen suurta vertailuarvoa, mukaan lukien Googlen, Openain ja johtavien AI -tulostaulujen edustajat. Yhdeksän heistä käyttää binaarisia luokitusjärjestelmiä, jotka myöntävät nollapisteitä epävarmuuden ilmaisuista, kuten ”En tiedä”. Tämä asennus merkitsee rehellisiä tietämättömyyden myöntämistä suorien virheiden kanssa, jolloin malleille annetaan vääristynyt kannustin aina arvata eikä pidättäydytä. Matemaattisesti tutkijat todistavat, että binaarisessa arvioinnissa arvaaminen tuottaa korkeamman odotettavissa olevan pistemäärän kuin vastauksen pidättäminen oikeasta oikeellisuuden todennäköisyydestä riippumatta. Jos mallilla on jopa ohut mahdollisuus – sano, 1% – oikeasta, potentiaalinen palkkio on suurempi kuin pidättäytymisen rangaistus. Tämä epävarmuuden rankaisemisen ”epidemia”, kuten kirjoittajat kuvaavat, jatkaa ylimääräisiä tuloksia ja tukahduttaa etenemisen kohti luotettavampaa AI: tä. Openain ehdotettua lääkettä käsittää luottamuksen arvioinnin integroinnin mallin päätöksentekoprosessiin. Ennen vastaamista AI arvioi varmuuden tason ja etenee vain, jos se ylittää ennalta määritetyn kynnyksen. Vertailuarvot säädetään sitten pisteet tämän luottamuksen perusteella, kuten virheiden rankaiseminen voimakkaammin (esim. -3 pistettä), samalla kun palkitsee oikeita vastauksia (+1 piste) ja sallitaan pidättäytymisen alhaisen luottamuksen tapauksissa. Matemaattinen kehys osoittaa, että asianmukaiset kynnysarvot rohkaisivat malleja ilmaisemaan epävarmuutta luonnollisesti vähentäen hallusinaatioita. Käytännöllinen toteutus paljastaa kuitenkin merkittäviä haittoja. Paperi arvioi, että 75%: n luottamuskynnyksen soveltaminen voisi johtaa chatgPT: hen vastaamaan ”en tiedä” noin 30 prosentille kyselyistä, jotka perustuvat tosiasiatietojen aukkoihin. Välittömiin, arvovaltaisiin vastauksiin liittyvät käyttäjät saattavat löytää tämän turhauttavan ja siirtyä vähemmän varovaisiin vaihtoehtoihin. Wei Xing vetää rinnakkain hänen osallistumisestaan ilmanlaadun seurantaprojektiin Salt Lake Cityssä, Utahissa. Kun järjestelmä merkitsee epävarmuustekijöitä – haitallisesta säästä tai kalibroinnista – käyttäjän sitoutumispisarat verrattuna itseluottamuksen näytöihin, vaikka epätarkkoja, lukemat. Tämä analogia korostaa laajempaa ihmisen varmuuden mieltymystä tarkkuudella, mikä voisi heikentää epävarmuustekijöiden AI: n käyttöönoton kuluttaja-olosuhteissa. Käyttäjäkokemuksen lisäksi laskennalliset vaatimukset aiheuttavat valtavan esteen. Epävarmuuden kvantifiointi edellyttää, että useiden vastireittien arviointi ja luottamusvälien arviointi, prosessi, joka on paljon resurssiintensiivisempi kuin tavallinen merkkien ennuste. Palveluissa, jotka käsittelevät miljoonia päivittäisiä kyselyjä, tämä voi kertoa toimintakustannukset dramaattisesti. Vähitettyjen epävarmuustekijöiden kvantifiointimenetelmät, jotka on kehitetty vuosikymmenien ajan aloilla, kuten tilastot ja koneoppiminen, ovat tehokkaita, mutta laskennallisesti kalliita. Edistyneet tekniikat, kuten aktiivinen oppiminen – missä AI aiheuttaa selkeyttäviä kysymyksiä käyttäjille – voi edelleen parantaa tarkkuutta, mutta lisää vaatimuksia vielä enemmän. Nämä lähestymistavat ovat toteutettavissa korkean panoksen alueilla, joissa virheillä on vakavia seurauksia. Esimerkiksi toimitusketjun logistiikassa, rahoituskaupassa tai lääketieteellisessä diagnostiikassa hallusinaation kustannukset (esim. Miljoonat menetetyt tulot tai potilaan vahingot) oikeuttaa investoinnin varovaisiin, laskennallisiin raskaita järjestelmiä. Sirun suunnittelussa tai taloudellisen infrastruktuurin hallinnassa epävarmuustekijöiden AI ei tule vain elinkelpoiseksi, vaan välttämättömäksi. Artikkelissa todetaan, että kun AI -agentit valvovat kriittistä toimintaa, taloustiede muuttuu: Perusteellisen luottamuksen kustannukset tarkistavat pahoinpitelyn ylivaraisten virheiden riskejä. Kuluttaja AI, joka hallitsee kehitysprioriteetteja, toimii kuitenkin eri sääntöjen mukaisesti. Käyttäjät vaativat nopeita, vakuutettuja vastauksia mihin tahansa kyselyyn triviasta neuvoihin. Vertailuarvot kannattavat edelleen arvauksia ja laitteistotehokkuutta – kuten energiakustannuksia merkkiä kohti tai parannetut siruarkkitehtuurit – voi lopulta alentaa esteitä. Silti suhteessa nykypäivän virtaviivaisiin arvausmalleihin epävarmuuden käsittely vaatii aina enemmän prosessointitehoa. Artikkeli paljastaa vahingossa liiketoiminnan kannustimien väärinkäytön: nopeus ja luottamus saavat voittoja kuluttajasovelluksissa, kun taas tarkkuus vie takapenkin. Koulutuksen jälkeiset tekniikat, kuten vahvistusoppiminen ihmisen palautteesta (RLHF), ovat lieventäneet joitain hallusinaatioita, mutta eivät pysty ratkaisemaan perussyitä. Tutkimus osoittaa, että jopa optimoidut mallit säilyttävät nämä matemaattiset väistämättömyydet. Siihen saakka, kunnes arviointistandardit kehittyvät palkitsemiseksi ja laskennallinen taloustiede priorisoivat luotettavuuden nopeuden verrattuna, hallusinaatiot kestävät kuluttajien LLM: n tunnusmerkkinä. Tämä ilmoitus haastaa AI -teollisuuden etenemissuunnan. Kun mallit kasvavat suuremmaksi ja kykenevämmäksi, paine tasapainottaa innovaatiota luotettavuudella lisääntyy. Openain työ vaatii paradigmamuutosta, joka kehottaa kehittäjiä, vertailukohtaisia luojia ja käyttäjiä arvostamaan kalibroituja vastauksia. Korkean arvon aloilla adoptio näyttää olevan välitön; Päivittäisille työkaluille se on edelleen kaukainen mahdollisuus. Lehden kirjoittajat, mukaan lukien OpenAI: n tutkijat, päättelivät, että ilman kannustinmuodostusta virheetöntä AI: n harjoittamista pysyy vaikeana. Kuten Sheffieldin yliopiston matemaattisten ja fyysisten tieteiden korkeakoulun apulaisprofessori Wei Xing toteaa Creative Commons -lisenssin perusteella julkaistussa keskustelussa julkaistussa artikkelissa ”Kuluttaja -AI -kehitystä ajavat liiketoiminnan kannustimet ovat edelleen perusteellisesti väärinkäytöksiä hallusinaatioiden vähentämisellä”. Tämä tutkimus ei vain diagnosoida pysyvän puutteen, vaan myös kaaviota eteenpäin-se, joka vaatii kompromisseja käytettävyyden, kustannusten ja todenmukaisuuden välillä. Kun AI integroituu syvemmälle jokapäiväiseen elämään, näiden jännitteiden käsitteleminen on ratkaisevan tärkeää kestävälle etenemiselle.

Source: Openai -tutkimus osoittaa LLM -hallusinaatiot matemaattisesti väistämättömät, ehdottaa kallista korjausta

Openai -tutkimus osoittaa LLM -hallusinaatiot matemaattisesti väistämättömät, ehdottaa kallista korjausta

Related Stories

Blue Origin ja NASA törmäävät New Glennin laukaisualustan korjausaikajanaan

Asus esittelee Computexissa uudet Zenbook- ja ExpertBook-kannettavat

Sukeltaja löysi ilmoittamattoman Pixel Watch 5:n Karibianmereltä

Spotify voi antaa käyttäjien muokata käyttäjätunnuksia ja lisätä profiiliin bios