Äskettäinen Apple-tutkijoiden yhdessä kirjoittama tutkimus osoittaa, että suuret kielimallit (LLMS) voivat parantaa niiden suorituskykyä merkittävästi käyttämällä yksinkertaista tuottavuustekniikkaa: itsensä tarkistamalla heidän työnsä.

Tutkimus pyrkii parantamaan LLM-laadun jälkiharjoituksen kautta, joka tyypillisesti saavutetaan vahvistusoppimisen avulla ihmisen palautteesta (RLHF). RLHF sisältää ihmisen merkinnät, jotka arvioivat mallivasteita, tarjoamalla ”peukalot” positiivisille vastauksille ja negatiivisten vasteiden ”peukaloon”. Tämä palautesilmukka auttaa mallia oppimaan tuottamaan tuloksia, jotka todennäköisemmin saavat positiivista palautetta parantaen sen yleistä hyödyllisyyttä.

Tämä koulutuksen jälkeinen vaihe on läheisesti yhteydessä laajempaan ”kohdistuskenttään”, joka keskittyy menetelmien kehittämiseen varmistaakseen, että LLM: t ovat sekä hyödyllisiä että turvallisia. Väärin kohdistettu malli saattaa oppia manipuloimaan ihmisen palautetta tuottamalla pinnallisesti oikeita, mutta lopulta vääriä lähtöjä.

Vaikka mallin luotettavuuden ja yhdenmukaistamisen parantamiseksi on olemassa erilaisia ​​menetelmiä harjoittelun, koulutuksen ja koulutuksen jälkeen, tämä tutkimus keskittyy RLHF: ään. Apple-tutkimus, jonka otsikko on ”Tarkistuslistat ovat parempia kuin palkkiomallit kielimallien kohdistamiseksi”, esittelee tarkistuslistapohjaisen vahvistusoppimisjärjestelmän, nimeltään vahvistusoppiminen tarkistuslistan palautteesta (RLCF).

RLCF arvioi vastauksia asteikolla 0–100 sen perusteella, kuinka hyvin ne tyydyttävät jokaisen kohteen tarkistusluettelossa. Alkuperäiset tulokset ovat lupaavia. Tutkijoiden mukaan ”vertaamme RLCF: ää muihin kohdistusmenetelmiin, joita sovelletaan vahvaan malliin (Qwen2.5-7b-instruktio) viidellä laajalti tutkittuun vertailuarvoon-RLCF on ainoa menetelmä jokaisen vertailukohdan suorituskyvyn parantamiseksi, mukaan lukien 4-pisteinen korotus kovan tyytyväisyyden määrän seurannassa, joka on kuuden pisteen lisäys. Tärkein työkalu kielimallien tukemiseksi kyselyille, jotka ilmaisevat monia tarpeita. ”

Tämä on erityisen merkityksellistä AI-moottorien avustajille, joista on tulossa vakiorajapinta laitteidensa kanssa vuorovaikutuksessa oleville käyttäjille. Tutkijat väittävät, että ”kielimallien on noudatettava käyttäjän ohjeita hyödyksi. Kun suuri yleisö integroi kielimallipohjaiset avustajat päivittäisten tehtävien suorittamiseen, on odotettavissa, että kielimallit voivat uskollisesti noudattaa käyttäjien pyyntöjä. Kun käyttäjät kehittävät enemmän luottamusta malleihin, jotka vaativat monimutkaisia ​​pyyntöjä”, näille malleille annetaan yhä rikkaampia, monivaiheisia ohjeita, jotka vaativat huolellista huomiota eritelmiin. ”

Tutkimuksen keskeinen näkökohta on tarkistuslistojen luominen ja merkityspainojen osoittaminen jokaiselle kohteelle. Tämä suoritetaan LLM: llä. Applen tutkijat tuottivat aiemman tutkimuksen perusteella tarkistuslistoja 130 000 ohjeita luomalla uuden tietojoukon nimeltä WildChecklist. ”Jotta voitaisiin tuottaa ehdokasvastauksia menetelmällemme, käytämme Qwen2.5-0.5b, Qwen2.5-1.5b, Qwen2.5-3b ja Qwen2.5-7b. Qwen2.5-72B-insernit ovat tarkistuslista-generaattorimalli (…).”

Pohjimmiltaan kutakin käyttäjä -ohjeita täydennetään automaattisesti betonista kyllä/ei vaatimuksia (esim. ”Onko tämä käännetty espanjaksi?”). Suurempi opettajamalli saa sitten ehdokasvastaukset kutakin tarkistuslista-kohdetta vastaan, ja näistä painotetuista pisteistä tulee palkkiosignaali, jota käytetään opiskelijamallin hienosäätöön.

Tutkijat havaitsivat jopa 8,2%: n voiton yhdessä vertailukohdassa testattaessa menetelmää, kun oikeat järjestelmät ovat paikoillaan luodaksesi parhaan mahdollisen tarkistusluettelon jokaiselle kehotukselle. Lisäksi tämä ratkaisu ylitti vaihtoehtoiset menetelmät useissa muissa vertailuarvoissa.

Tutkijat korostavat, että heidän tutkimuksensa keskittyi ”monimutkaiseen ohjeeseen” ja että RLCF ei välttämättä ole optimaalinen vahvistusoppimistekniikka kaikissa käyttötapauksissa. He tunnustavat myös, että heidän menetelmänsä riippuu tehokkaammasta mallista arvioida ja virittää pienempi malli, joka edustaa merkittävää rajoitusta. Tärkeää on, että he toteavat, että ”RLCF parantaa kompleksin ohjeita seuraavan jälkeen, mutta sitä ei ole suunniteltu turvallisuuden linjaamiseen”.

Näistä rajoituksista huolimatta tutkimuksessa on uusi ja suoraviivainen lähestymistapa ihmisen ja LILM-vuorovaikutusten luotettavuuden parantamiseksi, mikä on yhä tärkeämpää, koska nämä avustajat saavat agenttisia kykyjä, joissa ohjeet ja kohdistaminen ovat ensiarvoisen tärkeitä.

Yhteenvetona voidaan todeta, että Apple-tutkimus esittelee RLCF: n, tarkistuslistapohjaisen vahvistusoppimisjärjestelmän, joka parantaa merkittävästi LLM: n suorituskykyä monimutkaisessa opetuksessa tehtävien jälkeen. Kehottamalla LLM: ää tarkistamaan oman työnsä ennalta määritettyjä tarkistuslistoja vastaan, RLCF-menetelmä parantaa LLM-vastausten luotettavuutta ja tarkkuutta, etenkin skenaarioissa, joissa on monivaiheinen ohjeet ja monipuoliset käyttäjän tarpeet. Vaikka RLCF ei ole suunniteltu turvallisuuden linjaamiseen, se tarjoaa arvokkaan työkalun LLM-pohjaisten avustajien yleisen hyödyllisyyden ja luotettavuuden parantamiseksi.

Source: Apple käyttää RLCF: n parantamaan LLM -ohjeita seuraavasti