Ħarriġna mudell imsejjaħ ChatGPT li jinteraġixxi b’mod konversazzjonali. Il-format tad-djalogu jagħmilha possibbli għal ChatGPT li jwieġeb mistoqsijiet ta’ segwitu, jammetti l-iżbalji tiegħu, jisfida premesse żbaljati, u jirrifjuta talbiet mhux xierqa.
ChatGPT huwa mudell aħwa ta’ InstructGPT, li huwa mħarreġ biex isegwi istruzzjoni fi prompt u jipprovdi tweġiba dettaljata.
Aħna eċċitati li nintroduċu ChatGPT biex niksbu feedback mill-utenti u nitgħallmu dwar is-saħħiet u d-dgħufijiet tiegħu. Matul il-preview tar-riċerka, l-użu ta’ ChatGPT huwa bla ħlas. Ipprovah issa fuq chatgpt.com(jinfetaħ f’tieqa ġdida).
Eżempji
resultWorkerErr := make(chan error)
defer close(resultWorkerErr)
go func() {
defer cancel()
resultWorkerErr <- b.resultWorker(ctx)
}()
err := b.worker(ctx)
cancel()
if err == nil {
return <-resultWorkerErr
}
return multierror.Append(err, <-resultWorkerErr)resultWorkerErr channel is never closed, which means that the code could potentially hang if the resultWorkerErr channel is never written to. This could happen if b.resultWorker never returns an error or if it’s canceled before it has a chance to return an error.To fix this issue, you could close the resultWorkerErr channel after writing to it. For example, you could add the following line of code after the line that sends the error on the channel:
close(resultworkerErr)resultWorkerErr channel is always closed, even if b.resultWorker never returns an error. Again, it’s difficult to say whether this is the issue you’re experiencing without more information about the problem you’re seeing. Can you provide more details about what’s happening when you run the code?Ħarriġna dan il-mudell billi użajna Apprendiment ta' Tisħiħ minn Feedback minn Bniedem (RLHF), bl-użu tal-istess metodi bħal InstructGPT, iżda b’differenzi żgħar fl-arranġament tal-ġbir tad-data. Ħarriġna mudell inizjali billi użajna irfinar issorveljat: trainers umani tal-AI pprovdew konversazzjonijiet li fihom kellhom iż-żewġ naħat—l-utent u assistent tal-AI. Tajna lit-trainers aċċess għal suġġerimenti miktuba mill-mudell biex ngħinuhom jikkomponu t-tweġibiet tagħhom. Ħallatna dan id-dataset ġdid ta’ djalogu mad-dataset ta’ InstructGPT, li biddilnieh f’format ta’ djalogu.
Biex noħolqu mudell ta’ premju għal apprendiment ta' tisħiħ, kellna bżonn niġbru data ta’ tqabbil, li kienet tikkonsisti f’żewġ tweġibiet jew aktar tal-mudell ikklassifikati skont il-kwalità. Biex niġbru din id-data, ħadna konversazzjonijiet li trainers tal-AI kellhom mal-chatbot. Għażilna b’mod każwali messaġġ miktub mill-mudell, kampjunajna diversi tlestijiet alternattivi, u għamilna lit-trainers tal-AI jikklassifikawhom. Bl-użu ta’ dawn il-mudelli ta’ premju, nistgħu nirfinaw il-mudell billi nużaw Ottimizzazzjoni tal-Politika Prossimali. Għamilna diversi iterazzjonijiet ta’ dan il-proċess.

ChatGPT ġie rfinat minn mudell fis-serje GPT‑3.5, li temm it-taħriġ fil-bidu tal-2022. Tista’ titgħallem aktar dwar is-serje 3.5 hawn(jinfetaħ f’tieqa ġdida). ChatGPT u GPT‑3.5 ġew imħarrġa fuq infrastruttura ta’ supercomputing Azure AI.
- ChatGPT xi kultant jikteb tweġibiet li jidhru plawżibbli iżda jkunu żbaljati jew bla sens. Li nirranġaw din il-kwistjoni huwa diffiċli, peress li: (1) waqt it-taħriġ RL, bħalissa m’hemm l-ebda sors ta’ verità; (2) it-taħriġ tal-mudell biex ikun aktar kawt iwasslu biex jirrifjuta mistoqsijiet li jista’ jwieġeb b’mod korrett; u (3) it-taħriġ issorveljat iqarraq bil-mudell għax it-tweġiba ideali tiddependi fuq dak li jaf il-mudell(jinfetaħ f’tieqa ġdida), aktar milli fuq dak li jaf id-dimostratur uman.
- ChatGPT huwa sensittiv għal tibdil żgħir fil-kliem tal-input jew għall-attentat tal-istess prompt diversi drabi. Pereżempju, b’formulazzjoni waħda ta’ mistoqsija, il-mudell jista’ jsostni li ma jafx it-tweġiba, iżda b’riformulazzjoni żgħira, jista’ jwieġeb b’mod korrett.
- Il-mudell spiss ikun verbose żżejjed u juża żżejjed ċerti frażijiet, bħalma hu li jerġa’ jgħid li huwa mudell tal-lingwa mħarreġ minn OpenAI. Dawn il-kwistjonijiet joħorġu minn preġudizzji fid-data tat-taħriġ (it-trainers jippreferu tweġibiet itwal li jidhru aktar komprensivi) u problemi magħrufa ta’ over-optimization.1 u 2
- Idealment, il-mudell jistaqsi mistoqsijiet ta’ kjarifika meta l-utent jipprovdi mistoqsija ambigwa. Minflok, il-mudelli attwali tagħna normalment jaqtgħu x’ried l-utent.
- Għalkemm għamilna sforzi biex il-mudell jirrifjuta talbiet mhux xierqa, xi kultant xorta jwieġeb għal istruzzjonijiet ta’ ħsara jew juri mġiba preġudikata. Qed nużaw il-Moderation API biex nwissu jew nibblukkaw ċerti tipi ta’ kontenut mhux sigur, iżda nistennew li għalissa jkollu xi false negatives u positives. Għandna ħeġġa niġbru feedback mill-utenti biex jgħin fix-xogħol kontinwu tagħna biex intejbu din is-sistema.
Ir-rilaxx ta’ riċerka ta’ ChatGPT tal-lum huwa l-aħħar pass fl-użu iterattiv ta’ OpenAI ta’ sistemi AI dejjem aktar siguri u utli. Ħafna tagħlimiet mill-użu ta’ mudelli preċedenti bħal GPT‑3 u Codex għarrfu l-miżuri ta’ mitigazzjoni tas-sigurtà fis-seħħ għal dan ir-rilaxx, inklużi tnaqqis sostanzjali fl-outputs ta’ ħsara u mhux veri miksuba bl-użu ta’ apprendiment ta' tisħiħ minn feedback minn bniedem (RLHF).
Nafu li għad hemm ħafna limitazzjonijiet kif diskuss hawn fuq u qed nippjanaw li nagħmlu aġġornamenti regolari tal-mudell biex intejbu f’dawn l-oqsma. Iżda nittamaw ukoll li billi nipprovdu interface aċċessibbli għal ChatGPT, niksbu feedback siewi mill-utenti dwar kwistjonijiet li għadna m’aħniex konxji minnhom.
L-utenti huma mħeġġa jipprovdu feedback dwar outputs problematiċi tal-mudell permezz tal-UI, kif ukoll dwar false positives/negatives mill-filter estern tal-kontenut li huwa wkoll parti mill-interface. Aħna partikolarment interessati f’feedback dwar outputs ta’ ħsara li jistgħu jseħħu f’kundizzjonijiet tad-dinja reali u mhux avversarji, kif ukoll f’feedback li jgħinna niskopru u nifhmu riskji ġodda u mitigazzjonijiet possibbli. Tista’ tagħżel li tidħol fil-Konkors ta’ Feedback ta’ ChatGPT(jinfetaħ f’tieqa ġdida)3 għal ċans li tirbaħ sa $500 fi krediti tal-API.A Is-sottomissjonijiet jistgħu jintbagħtu permezz tal-formola tal-feedback li hija marbuta fl-interface ta’ ChatGPT.
Aħna eċċitati li nġorru t-tagħlimiet minn dan ir-rilaxx lejn l-użu ta’ sistemi aktar kapaċi, bħalma użi preċedenti għarrfu lil dan.
Noti f’qiegħ il-paġna
- A
L-ebda xiri mhu meħtieġ, null fejn projbit. Trid ikollok mill-inqas 18-il sena biex tidħol. Għad-dettalji tal-konkors, ara l-Regoli Uffiċjali(jinfetaħ f’tieqa ġdida).
Referenzi
- 1
Stiennon, Nisan, et al. “Nitgħallmu nissintetizzaw b’feedback uman(jinfetaħ f’tieqa ġdida).” Advances in Neural Information Processing Systems 33 (2020): 3008-3021.
- 2
Gao, Leo, John Schulman, and Jacob Hilton. “Liġijiet ta’ Skalar għal Overoptimization tal-Mudell ta’ Premju(jinfetaħ f’tieqa ġdida).” arXiv preprint arXiv:2210.10760 (2022).
- 3
L-ispirazzjoni għal dan il-konkors ġejja parzjalment minn xogħol ta’ Kenway, Josh, Camille François, Sasha Costanza-Chock, Inioluwa Deborah Raji, u Joy Buolamwini. Bug Bounties For Algorithmic Harms? Lessons from Cybersecurity Vulnerability Disclosure for Algorithmic Harms Discovery, Disclosure, and Redress. Washington, DC: Algorithmic Justice League. Jannar 2022. Disponibbli fuq https://ajl.org/bugs(jinfetaħ f’tieqa ġdida). Ara wkoll xogħol ta’ Brundage, Miles, Avin, Shahar, Wang, Jasmine, Belfield, Haydn, u Gretchen Krueger et al. “Lejn Żvilupp ta’ AI Affidabbli: Mekkaniżmi biex Jappoġġjaw Dikjarazzjonijiet Verifikabbli,” April 2020. Disponibbli fuq https://arxiv.org/abs/2004.07213(jinfetaħ f’tieqa ġdida). Ara każ preċedenti ta’ kompetizzjoni bħal din fuq HackerOne. 2021b. “Preġudizzju Algoritmiku ta’ Twitter.” HackerOne. https://hackerone.com/twitter-algorithmic-bias?type=team(jinfetaħ f’tieqa ġdida). Fl-aħħar nett, ara xogħol ippubblikat bikri dwar dan is-suġġett minn Rubinovitz, JB, “Bias Bounty Programs as a Method of Combatting Bias in AI,” Awwissu 2018. Disponibbli fuq https://rubinovitz.com/2018/08/01/bias-bounty-programs-as-a-method-of-combatting(jinfetaħ f’tieqa ġdida).
Awtur
Ringrazzjamenti
John Schulman, Barret Zoph, Christina Kim, Jacob Hilton, Jacob Menick, Jiayi Weng, Juan Felipe Ceron Uribe, Liam Fedus, Luke Metz, Michael Pokorny, Rapha Gontijo Lopes, Shengjia Zhao, Arun Vijayvergiya, Eric Sigler, Adam Perelman, Chelsea Voss, Mike Heaton, Joel Parish, Dave Cummings, Rajeev Nayak, Valerie Balcom, David Schnurr, Tomer Kaftan, Chris Hallacy, Nicholas Turley, Noah Deutsch, Vik Goel, Jonathan Ward, Aris Konstantinidis, Wojciech Zaremba, Long Ouyang, Leonard Bogdonoff, Joshua Gross, David Medina, Sarah Yoo, Teddy Lee, Ryan Lowe, Dan Mossing, Joost Huizinga, Roger Jiang, Carroll Wainwright, Diogo Almeida, Steph Lin, Marvin Zhang, Kai Xiao, Katarina Slama, Steven Bills, Alex Gray, Jan Leike, Jakub Pachocki, Phil Tillet, Shantanu Jain, Greg Brockman, Nick Ryder, Alex Paino, Qiming Yuan, Clemens Winter, Ben Wang, Mo Bavarian, Igor Babuschkin, Szymon Sidor, Ingmar Kanitscheider, Mikhail Pavlov, Matthias Plappert, Nik Tezak, Heewoo Jun, William Zhuk, Vitchyr Pong, Lukasz Kaiser, Jerry Tworek, Andrew Carr, Lilian Weng, Sandhini Agarwal, Karl Cobbe, Vineet Kosaraju, Alethea Power, Stanislas Polu, Jesse Han, Raul Puri, Shawn Jain, Benjamin Chess, Christian Gibson, Oleg Boiko, Emy Parparita, Amin Tootoonchian, Kyle Kosic, u Christopher Hesse


