Maak kennis met ChatGPT
We hebben een model getraind dat gesprekken kan voeren, genaamd ChatGPT. Dankzij de dialoogvorm kan ChatGPT vervolgvragen beantwoorden, zijn eigen fouten toegeven, onjuiste veronderstellingen bestrijden en ongepaste verzoeken afwijzen.
ChatGPT is afgeleid van InstructGPT, dat getraind is om een instructie in een prompt te volgen en een gedetailleerd antwoord te geven.
Nu ChatGPT beschikbaar is, willen we gebruikers vragen om feedback te geven. We horen graag wat de sterke punten zijn en wat er nog beter kan. Tijdens de onderzoeksfase kun je ChatGPT gratis gebruiken. Probeer het nu op chatgpt.com(opent in een nieuw venster).
Voorbeelden
resultWorkerErr := make(chan error)
defer close(resultWorkerErr)
go func() {
defer cancel()
resultWorkerErr <- b.resultWorker(ctx)
}()
err := b.worker(ctx)
cancel()
if err == nil {
return <-resultWorkerErr
}
return multierror.Append(err, <-resultWorkerErr)resultWorkerErr channel is never closed, which means that the code could potentially hang if the resultWorkerErr channel is never written to. This could happen if b.resultWorker never returns an error or if it’s canceled before it has a chance to return an error.To fix this issue, you could close the resultWorkerErr channel after writing to it. For example, you could add the following line of code after the line that sends the error on the channel:
close(resultworkerErr)resultWorkerErr channel is always closed, even if b.resultWorker never returns an error. Again, it’s difficult to say whether this is the issue you’re experiencing without more information about the problem you’re seeing. Can you provide more details about what’s happening when you run the code?We hebben dit model getraind met Reinforcement Learning from Human Feedback (RLHF), met dezelfde methoden als InstructGPT, maar met kleine verschillen in de opzet van de gegevensverzameling. We hebben een initiëel model getraind met begeleid afstemmen: menselijke AI-trainers leverden gesprekken aan waarin ze zowel de rol van de gebruiker als die van een AI-assistent op zich namen. We gaven de trainers toegang tot door het model geschreven suggesties om hen te helpen hun reacties te formuleren. Vervolgens voegden we deze nieuwe dialoog-gegevensset samen met de InstructGPT‑gegevensset, die we daarna omzetten naar een dialoogvorm.
Om een beloningsmodel voor reinforcement learning te maken, moesten we vergelijkingsgegevens verzamelen. Deze bestonden uit ten minste twee reacties van het model, die waren gerangschikt op kwaliteit. We gebruikten gesprekken die AI-trainers met de chatbot hadden gevoerd om deze gegevens te verzamelen. We selecteerden willekeurig een door het model geschreven bericht, namen verschillende alternatieve vervolgen, en lieten AI-trainers deze rangschikken. Met deze beloningsmodellen kunnen we het model verfijnen met Proximal Policy Optimization. Dit proces hebben we verschillende keren herhaald.

ChatGPT is verfijnd op basis van een model uit de GPT‑3.5‑reeks, waarvan de training begin 2022 werd afgerond. Je kunt hier(opent in een nieuw venster) meer te weten komen over de 3.5-serie. ChatGPT en GPT‑3.5 zijn getraind op een supercomputerinfrastructuur van Azure AI.
- ChatGPT schrijft soms antwoorden die plausibel klinken, maar onjuist of onlogisch zijn. Het oplossen van dit probleem is uitdagend, omdat: (1) tijdens de training met reinforcement learning momenteel geen bron van waarheid bestaat; (2) het trainen van het model om voorzichtiger te zijn ertoe leidt dat het vragen weigert die het correct kan beantwoorden; en (3) begeleide training het model misleidt omdat het ideale antwoord afhangt van wat het model weet(opent in een nieuw venster), in plaats van wat de menselijke expert weet.
- ChatGPT is gevoelig voor veranderingen in de formulering van de ingevoerde prompt of voor het herhalen van dezelfde prompt. Zo kan het model bij een bepaalde formulering van een vraag aangeven het antwoord niet te weten, maar na een kleine aanpassing de vraag juist beantwoorden.
- Het model is vaak te uitvoerig en gebruikt bepaalde zinnen te vaak, zoals herhalen dat het een taalmodel is dat is getraind door OpenAI. Deze problemen komen voort uit vertekeningen in de trainingsgegevens (trainers geven liever langere antwoorden die uitgebreider lijken) en bekende problemen met overoptimalisatie.1, 2
- Het is wenselijk dat het model om verduidelijking vraagt wanneer de vraag van de gebruiker dubbelzinnig is. In plaats daarvan raden onze huidige modellen meestal wat de gebruiker bedoelde.
- We hebben er alles aan gedaan om het model ongepaste verzoeken niet te laten beantwoorden, maar soms reageert het toch op schadelijke instructies of toont het bevooroordeeld gedrag. We gebruiken de Moderation API om te waarschuwen bij bepaalde soorten onveilige content, of om deze te blokkeren, maar we verwachten voorlopig nog enkele fouten in dit proces. We willen graag feedback van gebruikers verzamelen, zodat we die kunnen gebruiken om dit systeem te verbeteren.
De onderzoeksrelease van ChatGPT van vandaag is de nieuwste stap in OpenAI's iteratieve inzet van steeds veiligere en nuttigere AI-systemen. We hebben veel geleerd van de uitrol van eerdere modellen zoals GPT‑3 en Codex, en deze ervaringen lagen aan de basis van de veiligheidsmaatregelen voor deze release. Zo hebben we de hoeveelheid schadelijke en onjuiste uitvoer aanzienlijk verminderd dankzij het gebruik van RLHF (Reinforcement Learning from Human Feedback).
Zoals we hierboven al hebben besproken, heeft het model nog steeds veel beperkingen. We zijn van plan om regelmatige updates van het model uit te brengen om verbeteringen op deze gebieden door te voeren. Maar we hopen ook dat een toegankelijke interface van ChatGPT ons waardevolle feedback van gebruikers oplevert over problemen die we nog niet kennen.
Gebruikers worden aangemoedigd om via de gebruikersinterface feedback te geven over problematische uitvoer van het model, evenals over fout-positieven en -negatieven van het externe contentfilter, dat ook onderdeel is van de interface. We zijn vooral geïnteresseerd in feedback over schadelijke uitvoer die kan voorkomen tijdens gewoon, alledaags gebruik. Daarnaast ontvangen we ook graag feedback waarmee we nieuwe risico's kunnen ontdekken, deze beter kunnen begrijpen en er mogelijke maatregelen tegen kunnen nemen. Je kunt ervoor kiezen om mee te doen aan de ChatGPT Feedback Contest(opent in een nieuw venster)3 voor een kans om tot $ 500 aan API-credits te winnen. A Inzendingen kunnen worden verzonden via het feedbackformulier dat is gekoppeld aan de ChatGPT‑interface.
De inzichten die we tijdens deze release opdoen, gebruiken we om nog betere systemen uit te rollen, zoals eerdere releases ook hebben geholpen om deze versie te verbeteren.
Voetnoten
- A
Geen aankoop nodig, niet geldig waar dit verboden is. Je moet minimaal 18 zijn om deel te nemen. Zie de Officiële Regels(opent in een nieuw venster) voor meer informatie over de wedstrijd.
Referenties
- 1
Stiennon, Nisan, et al. "Learning to summarize with human feedback(opent in een nieuw venster)." Advances in Neural Information Processing Systems 33 (2020): 3008-3021.
- 2
Gao, Leo, John Schulman en Jacob Hilton. Scaling Laws for Reward Model Overoptimization(opent in een nieuw venster). arXiv preprint arXiv:2210.10760 (2022).
- 3
De inspiratie voor deze wedstrijd hebben we deels gehaald uit het werk van Kenway, Josh, Camille François, Sasha Costanza-Chock, Inioluwa Deborah Raji en Joy Buolamwini. Bug Bounties voor algoritmische schade? Lessen uit de openbaarmaking van kwetsbaarheden in de cyberbeveiliging voor de ontdekking, openbaarmaking en herstel van algoritmische schade. Washington, DC: Algorithmic Justice League. januari 2022. Beschikbaar op https://ajl.org/bugs(opent in een nieuw venster). Zie ook het werk van Brundage, Miles, Avin, Shahar, Wang, Jasmine, Belfield, Haydn en Gretchen Krueger et al. “Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims,” april 2020. Beschikbaar op https://arxiv.org/abs/2004.07213(opent in een nieuw venster). Bekijk een eerdere editie van een dergelijke competitie op HackerOne. 2021b. 'Twitter Algorithmic Bias.' HackerOne. https://hackerone.com/twitter-algorithmic-bias?type=team(opent in een nieuw venster). Bekijk ten slotte een van de eerste publicaties over dit onderwerp: Rubinovitz, JB, 'Bias Bounty Programs as a Method of Combatting Bias in AI', augustus 2018. Beschikbaar op https://rubinovitz.com/2018/08/01/bias-bounty-programs-as-a-method-of-combatting(opent in een nieuw venster).
Auteur
Dankbetuigingen
John Schulman, Barret Zoph, Christina Kim, Jacob Hilton, Jacob Menick, Jiayi Weng, Juan Felipe Ceron Uribe, Liam Fedus, Luke Metz, Michael Pokorny, Rapha Gontijo Lopes, Shengjia Zhao, Arun Vijayvergiya, Eric Sigler, Adam Perelman, Chelsea Voss, Mike Heaton, Joel Parish, Dave Cummings, Rajeev Nayak, Valerie Balcom, David Schnurr, Tomer Kaftan, Chris Hallacy, Nicholas Turley, Noah Deutsch, Vik Goel, Jonathan Ward, Aris Konstantinidis, Wojciech Zaremba, Long Ouyang, Leonard Bogdonoff, Joshua Gross, David Medina, Sarah Yoo, Teddy Lee, Ryan Lowe, Dan Mossing, Joost Huizinga, Roger Jiang, Carroll Wainwright, Diogo Almeida, Steph Lin, Marvin Zhang, Kai Xiao, Katarina Slama, Steven Bills, Alex Gray, Jan Leike, Jakub Pachocki, Phil Tillet, Shantanu Jain, Greg Brockman, Nick Ryder, Alex Paino, Qiming Yuan, Clemens Winter, Ben Wang, Mo Bavarian, Igor Babuschkin, Szymon Sidor, Ingmar Kanitscheider, Mikhail Pavlov, Matthias Plappert, Nik Tezak, Heewoo Jun, William Zhuk, Vitchyr Pong, Lukasz Kaiser, Jerry Tworek, Andrew Carr, Lilian Weng, Sandhini Agarwal, Karl Cobbe, Vineet Kosaraju, Alethea Power, Stanislas Polu, Jesse Han, Raul Puri, Shawn Jain, Benjamin Chess, Christian Gibson, Oleg Boiko, Emy Parparita, Amin Tootoonchian, Kyle Kosic, Christopher Hesse


