MIT Sloan -yrityksen uusi tutkimus osoittaa, että generatiivisen tekoälyn (AI) suorituskyvyn parannukset eivät johdu pelkästään suurten kielimallien (LLM) edistyksestä. Laajamittainen koe paljasti, että vain puolet suorituskyvyn saavuttamista havainnoinnista siirtymisen jälkeen edistyneemmälle AI-mallille johtui mallista. Jäljellä oleva puoli johtui käyttäjistä, jotka mukauttivat kehotuksensa – AI: lle annettujen kirjallisten ohjeiden – hyödyntääksesi uutta järjestelmää tehokkaasti.
Tämä havainto korostaa yrityksille tärkeätä todellisuutta: uusiin AI -työkaluihin sijoittaminen ei tuota odotettua arvoaan, ellei työntekijät myöskään tarkenta käyttöä. Tutkimus viittaa siihen, että kehotus on opittava taito, jota yksilöt voivat parantaa nopeasti, jopa ilman muodollista ohjeita.
David Holtz, SM ’18, PhD ’21, Columbian yliopiston apulaisprofessori ja digitaalitalouden MIT-aloitteen tutkimushaltija ja tutkimuksen yhteiskirjailija, totesivat: ”Ihmiset olettavat usein, että paremmat tulokset johtuvat enimmäkseen paremmista malleista. Se, että lähes puolet parannuksesta tuli käyttäjän käyttäytymistä todella haasteita, että uskovat.”
Kokeessa oli lähes 1 900 osallistujaa, jotka oli satunnaisesti osoitettu yhteen Openain Dall-E-kuvan luomisjärjestelmän kolmesta versiosta: Dall-E 2, edistyneempi Dall-E 3 tai Dall-E 3 käyttäjien kehotukset, jotka GPT-4 LLM automaattisesti kirjoitti automaattisesti ilman heidän tietämystä. Osallistujille annettiin tehtäväksi referenssikuva, kuten valokuva, graafinen suunnittelu tai taideteos, kirjoittamalla ohjeet AI: hen. Heillä oli 25 minuuttia toimittaa vähintään 10 kehotusta, ja heidät kannustettiin bonusmaksulla 20%: n parhaan prosentin kanssa, jotka rohkaisivat heitä testaamaan ja tarkentamaan ohjeita.
Tutkijat kertoivat useita keskeisiä havaintoja:
- Osallistujat, jotka käyttävät Dall-E 3: n perusversiota, tuottivat kuvat, jotka olivat samankaltaisia kuin kohdekuva verrattuna Dall-E 2 -käyttäjien luomiin.
- Osallistujat, jotka käyttivät Dall-E 3: n lähtötasoa, kirjoittivat kehotuksia, jotka olivat 24% pidempiä kuin Dall-E 2 -käyttäjät. Näillä kehoteilla oli myös suurempi samankaltaisuus toisiinsa ja sisälsi suuremman osan kuvaavista sanoista.
- Noin puolet kuvan samankaltaisuuden paranemisesta johtui parannetusta mallista, kun taas toinen puoli johtui käyttäjistä, jotka säätävät kehotuksiaan hyödyntämään parannettujen mallien ominaisuuksia.
Vaikka tämä tutkimus keskittyi kuvan luomiseen, tutkijat uskovat, että sama malli todennäköisesti koskee muita tehtäviä, mukaan lukien kirjoittaminen ja koodaus.
Tutkimus osoitti, että kyky mukauttaa kehotuksia ajan myötä ei ollut yksinoikeudella tekniikan taitaville käyttäjille. Holtz kommentoi: ”Ihmiset ajattelevat usein, että sinun on oltava ohjelmistosuunnittelija kehottaakseen hyvin ja hyötymään AI: sta. Mutta osallistujamme tulivat monista työpaikoista, koulutustasoista ja ikäryhmistä – ja jopa ne, joilla ei ollut teknistä taustaa, pystyivät hyödyntämään uuden mallin ominaisuuksia.”
Tiedot viittaavat siihen, että tehokas kehotus koskee enemmän selkeää viestintää kuin koodausta. Holtz totesi: ”Parhaat prompterit eivät olleet ohjelmistosuunnittelijoita. He olivat ihmisiä, jotka tiesivät kuinka ilmaista ideoita selvästi jokapäiväisellä kielellä, ei välttämättä koodissa.”
Tämä saavutettavuus voi myös vaikuttaa käyttäjien suorituskykyerojen vähentämiseen vaihtelevilla taitotasoilla ja kokemuksella. Eamman Jahani, PhD ’22, Marylandin yliopiston apulaisprofessori ja digitaalinen stipendiaatti Digitaalitalouden MIT-aloitteessa ja tutkimuksen yhteiskirjailija, havaitsi, että generatiivisella AI: lla on potentiaalia kaventaa käyttäjien välisiä suorituskykyä. ”Ihmiset, jotka alkavat [performance] Asteikko hyötyi eniten, mikä tarkoittaa, että tulosten erot pienenivät ”, Jahani sanoi.” Malli -edistykset voivat todella auttaa vähentämään tuotannon eriarvoisuutta. ”
Jahani selitti, että joukkueen havainnot ovat sovellettavissa tehtäviin, joilla on selkeät, mitattavissa olevat tulokset ja tunnistettavissa oleva yläraja hyvälle tulokselle. Hän huomautti, että ei ole vielä selvää, pitäisikö sama malli avoimempiin tehtäviin ilman yhtä oikeaa vastausta ja mahdollisesti merkittäviä voittoja, kuten muuntavien uusien ideoiden tuottaminen.
Yksi odottamattomimmista havainnoista oli se, että generatiivisen AI: n käyttäminen johti suorituskyvyn merkittävään vähentymiseen. Ryhmä, joka käytti Dall-E 3: ta generatiivisella AI: llä, kehotteensa automaattisesti uudelleenkirjoittamisessa oli 58%: n hajoaminen suorituskyvyssä verrattuna Dall-E 3 -ryhmään. Tutkijat havaitsivat, että automaattiset uudelleenkirjoitukset otettiin usein käyttöön vieraiden yksityiskohtien tai muuttivat käyttäjän syötteen aiottua merkitystä aiheuttaen AI: n virheellisen kuvan tuottamisen.
Holtz selitti: ”[Automatic prompt rewriting] Ei vain toimi tällaisessa tehtävässä, jossa tavoitteena on sovittaa kohdekuva mahdollisimman tarkasti. Vielä tärkeämpää on, että se osoittaa, kuinka AI -järjestelmät voivat hajottaa, kun suunnittelijat tekevät oletuksia siitä, kuinka ihmiset käyttävät niitä. Jos työkaluun on piilotettuja ohjeita, ne voivat helposti ristiriidassa sen kanssa, mitä käyttäjä todella yrittää tehdä. ”
Tutkimuksen vaikutukset yrityksiin ovat selviä: ”Oikean” AI -mallin valitsemisen lisäksi johtajien on priorisoitava tehokkaan käyttäjän oppimisen ja kokeilun mahdollistaminen. Jahani korosti, että kehotus ei ole plug-and-play-taito. ”Yritysten on jatkuvasti investoitava henkilöstöresursseihinsa”, hän sanoi. ”Ihmisten on oltava kiinni näistä tekniikoista ja tiedettävä kuinka käyttää niitä hyvin.”
Generatiivisen AI: n edut maksimoimaan tutkijat tarjoavat useita tärkeimpiä prioriteetteja yritysjohtajille, joiden tarkoituksena on parantaa AI-järjestelmän tehokkuutta reaalimaailman ympäristöissä:
- Sijoita koulutukseen ja kokeiluun: Pelkästään tekniset päivitykset eivät ole riittämättömiä. Työntekijöiden tarjoaminen aikaa ja tukea heidän vuorovaikutuksensa parantamiseksi AI -järjestelmien kanssa on ratkaisevan tärkeää täydellisen suorituskyvyn saavuttamiseksi.
- Suunnittelu iteraatiolle: Käyttöliittymät, jotka rohkaisevat testausta, tarkistamista ja oppimista – ja näyttävät tulokset selvästi – edistävät parempia tuloksia ajan myötä.
- Ole varovainen automaatiolla: Vaikka automaattinen nopea uudelleenkirjoittaminen voi tuntua kätevältä, se voi estää suorituskykyä sen sijaan, että parantaa sitä, jos se hämärtää tai ohittaa käyttäjän aikomuksen.
Paperi on kirjoittanut MIT Sloan PhD -opiskelijat Benjamin S. Manning, SM ’24; Hong-yi Tuye, SM ’23; ja Mohammed myösBay, ’16, SM ’24; Stanfordin yliopiston tohtoriopiskelija Joe Zhang, Microsoftin laskennallinen yhteiskuntatieteilijä Siddharth Suri ja Kyproksen yliopiston apulaisprofessori Christos Nicolaides, SM ’11, PhD ’14.







