Oppdager GPT-4-feil med CriticGPT

OpenAI har utviklet en innovativ modell kalt CriticGPT, som hjelper til med å oppdage feil i GPT-4s kodeutgang. Artikkelen utforsker hvordan CriticGPT forbedrer nøyaktigheten ved å hjelpe trenere i deres arbeid med Reinforcement Learning from Human Feedback (RLHF).

Forbedret kodegjennomgang

CriticGPT ble opplært til å oppdage feil i ChatGPTs kodeutgang. Resultatene viser at brukere assistert av CriticGPT presterer 60 % bedre enn de uten assistanse. CriticGPT hjelper til med å identifisere subtile feil som ellers kan være vanskelig å oppdage.

Apple iPhone

Apple iPads

Apple Macbook

Apple AirPods

Apple Watch

Integrasjon i RLHF-Merking

OpenAI jobber med å integrere CriticGPT-lignende modeller i deres RLHF-merkingspipeline. Dette vil gi trenere eksplisitt AI-hjelp, som er et skritt mot å evaluere avanserte AI-systemer.

Detaljert analyse

GPT-4-modellene som driver ChatGPT er designet for å være nyttige gjennom RLHF. En sentral del av RLHF er å kompilere sammenligninger der AI-trenere vurderer forskjellige ChatGPT-svar mot hverandre. Etter hvert som modelleringsatferden skrider frem, blir ChatGPT mer nøyaktig og feilene mer subtile. Dette gjør det vanskeligere for trenere å oppdage unøyaktigheter, noe som kompliserer RLHF-prosessen.

Opplæring av CriticGPT

CriticGPT ble trent ved hjelp av RLHF, der AI-trenere manuelt satte inn feil i kode skrevet av ChatGPT og deretter skrev tilbakemelding som om de hadde oppdaget feilen. CriticGPT måtte deretter identifisere disse feilene og andre naturlig forekommende feil. CriticGPTs kritikk foretrekkes av trenere 63 % av tiden da det gir færre småklager og hallusinatoriske problemer.

Metoder og resultater

CriticGPT ble også opplært til å generere lengre og mer omfattende kritikker ved å bruke en søkeprosedyre som balanserer aggressiviteten til feilfunnet. Dette har vist seg effektivt for å gi nyttig kritikk for RLHF.

Restriksjoner

CriticGPT er trent på kortere svar og har begrensninger i å håndtere komplekse oppgaver. Modeller hallusinerer fortsatt, og trenere kan gjøre feil basert på disse hallusinasjonene. Fremtidige feil kan være spredt over mange deler av et svar, noe som krever mer sofistikerte metoder.

Fremtidsutsikter

For å tilpasse AI-systemer som blir stadig mer komplekse, trenger vi bedre verktøy. Forskningen viser at bruken av RLHF på GPT-4 har potensial til å hjelpe folk med å produsere bedre RLHF-data for GPT-4. Planen er å utvide dette arbeidet ytterligere og implementere det i praksis.

Konklusjon

Integreringen av CriticGPT i RLHF-rørledninger representerer et viktig skritt fremover i utviklingen av avanserte AI-systemer. Ved å kombinere menneskelig innsikt med CriticGPTs evner, kan mer nøyaktige og effektive AI-evalueringer oppnås.