close
Անցնել հիմնական բովանդակությանը
OpenAI
Բեռնվում է…

Մենք վերապատրաստել ենք ChatGPT կոչվող մոդել, որը փոխազդում է խոսակցական ձևով։ Երկխոսության ձևաչափը հնարավորություն է տալիս ChatGPT‑ին պատասխանել հետագա հարցերին, խոստովանել իր սխալները, վիճարկել սխալ ենթադրությունները և մերժել անհամապատասխան հարցումները։

ChatGPT‑ը InstructGPT-ի քույր մոդելն է, որը վերապատրաստված է հարցմանը հետևելու և մանրամասն պատասխան տրամադրելու համար:

Մենք ոգևորված ենք ներկայացնել ChatGPT‑ը՝ օգտատերերի կարծիքները ստանալու և դրա ուժեղ ու թույլ կողմերի մասին իմանալու համար։ Հետազոտության նախադիտման ընթացքում ChatGPT‑ի օգտագործումը անվճար է։ Փորձեք այն հիմա chatgpt.com(բացվում է նոր պատուհանում)։

Նմուշներ

User
this code is not working like i expect — how do i fix it?
resultWorkerErr := make(chan error) defer close(resultWorkerErr) go func() { defer cancel() resultWorkerErr <- b.resultWorker(ctx) }() err := b.worker(ctx) cancel() if err == nil { return <-resultWorkerErr } return multierror.Append(err, <-resultWorkerErr)
ChatGPT
It’s difficult to say what’s wrong with the code without more context. Can you provide more information about what the code is supposed to do and what isn’t working as expected? Also, is this the entire code or just a part of it?
User
just part of it — the error never surfaces. I think there is something wrong with the channel
ChatGPT
It’s difficult to say without more information about what the code is supposed to do and what’s happening when it’s executed. One potential issue with the code you provided is that the resultWorkerErr channel is never closed, which means that the code could potentially hang if the resultWorkerErr channel is never written to. This could happen if b.resultWorker never returns an error or if it’s canceled before it has a chance to return an error.
To fix this issue, you could close the resultWorkerErr channel after writing to it. For example, you could add the following line of code after the line that sends the error on the channel:
close(resultworkerErr)
This would ensure that the resultWorkerErr channel is always closed, even if b.resultWorker never returns an error. Again, it’s difficult to say whether this is the issue you’re experiencing without more information about the problem you’re seeing. Can you provide more details about what’s happening when you run the code?

Մեթոդներ

Մենք այս մոդելը վերապատրաստեցել ենք՝ օգտագործելով մարդկանց արձագանքների ամրապնդումով ուսուցում (RLHF), կիրառելով նույն մեթոդները, ինչ InstructGPT-ը, սակայն տվյալների հավաքագրման կարգաբերման մեջ փոքր տարբերություններով: Մենք նախնական մոդել ենք վերապատրաստել վերահսկվող կարգավորման միջոցով. մարդկային AI դասընթացավարները տրամադրել են խոսակցություններ, որոնցում նրանք խաղացել են երկու կողմերը՝ օգտատեր և AI օգնականի դերերը։ Մենք դասընթացավարներին տրամադրել ենք մոդելի կողմից գրված առաջարկների հասանելիություն, որպեսզի նրանք կարողանան կազմել իրենց պատասխանները։ Մենք խառնել ենք այս նոր երկխոսության տվյալների հավաքածուն InstructGPT տվյալների հավաքածուի հետ, որը մենք վերափոխել ենք երկխոսության ձևաչափի:

Ամրապնդումով ուսուցման համար պարգևատրման մոդել ստեղծելու նպատակով մենք պետք է հավաքեինք համեմատական տվյալներ, որոնք բաղկացած էին երկու կամ ավելի մոդելային պատասխաններից՝ դասակարգված ըստ որակի։ Այս տվյալները հավաքագրելու համար մենք վերցրեցինք խոսակցություններ, որոնք AI դասընթացավարները վարել էին չաթբոտի հետ: Մենք պատահականորեն ընտրեցինք մոդելի կողմից գրված հաղորդագրություն, նմուշառեցինք մի քանի այլընտրանքային լրացումներ և AI դասընթացավարներին հանձնարարեցինք դրանք դասակարգել։ Օգտագործելով այս պարգևատրման մոդելները, մենք կարող ենք ճշգրտել մոդելը՝ օգտագործելով Proximal Policy Optimization։ Մենք այս գործընթացի մի քանի կրկնություններ կատարեցինք։

Դիագրամ, որը ցույց է տալիս ChatGPT-ի ուսուցման ետևում գտնվող եռաստիճան մեթոդաբանությունը։

ChatGPT‑ը ճշգրտված է GPT‑3.5 սերիայի մոդելից, որը ավարտել է ուսուցումը 2022 թվականի սկզբին: Դուք կարող եք ավելին իմանալ 3.5 սերիայի մասին այստեղ(բացվում է նոր պատուհանում)։ ChatGPT- ը և GPT‑3.5‑ը վերապատրաստվել են Azure AI գերհամակարգչային ենթակառուցվածքի վրա։

Սահմանափակումներ

  • ChatGPT‑ը երբեմն գրում է հավանական հնչող, բայց սխալ կամ անիմաստ պատասխաններ։ Այս խնդրի լուծումը բարդ է, քանի որ (1) RL ուսուցման ընթացքում ներկայումս ճշմարտության աղբյուր չկա. (2) մոդելին ավելի զգուշավոր լինելու ուսուցումը հանգեցնում է նրան, որ այն հրաժարվում է պատասխանել այն հարցերին, որոնց կարող է ճիշտ պատասխանել. և (3) վերահսկվող ուսուցումը մոլորեցնում է մոդելին, քանի որ իդեալական պատասխանը  կախված է նրանից, թե ինչ գիտի մոդելը, այլ ոչ թե այն, ինչ գիտի մարդկային ցուցադրողը: (բացվում է նոր պատուհանում)
  • ChatGPT‑ը զգայուն է մուտքագրման ձևակերպումների փոփոխությունների կամ նույն հարցումը բազմիցս կրկնելու փորձերի նկատմամբ։ Օրինակ, հաշվի առնելով հարցի մեկ ձևակերպումը՝ մոդելը կարող է պնդել, որ չգիտի պատասխանը, բայց մի փոքր վերաձևակերպման դեպքում կարող է ճիշտ պատասխանել:
  • Մոդելը հաճախ չափազանց բազմաբովանդակ է և չարաշահում է որոշակի արտահայտությունները, օրինակ՝ կրկնելով, որ դա OpenAI-ի կողմից վերապատրաստված լեզվի մոդել է: Այս խնդիրները ծագում են ուսուցման տվյալների կողմնակալություններից (դասընթացավարները նախընտրում են ավելի երկար պատասխաններ, որոնք ավելի համապարփակ տեսք ունեն) և հայտնի գերօպտիմալացման խնդիրներից։ 1 2
  • Իդեալում՝ մոդելը հստակեցնող հարցեր կտար, երբ օգտատերը երկիմաստ հարցում ներկայացներ։ Փոխարենը, մեր ներկայիս մոդելները սովորաբար կռահում են, թե ինչ նպատակ ուներ օգտատերը։
  • Թեև մենք ջանքեր ենք գործադրել, որպեսզի մոդելը հրաժարվի անպատշաճ հարցումներից, այն երբեմն կարող է արձագանքել վնասակար հրահանգներին կամ դրսևորել կողմնակալ վարքագիծ: Մենք օգտագործում ենք Moderation API -ն՝ որոշակի տեսակի վտանգավոր բովանդակությունը կանխելու կամ արգելափակելու համար, բայց սպասելի է, որ այն առայժմ կունենա որոշ կեղծ բացասական և դրական արդյունքներ: Մենք անհամբեր սպասում ենք օգտատերերի արձագանքների հավաքագրմանը՝ այս համակարգի բարելավման ուղղությամբ մեր շարունակական աշխատանքին աջակցելու համար։

Իտերատիվ տեղակայում

ChatGPT‑ի այսօրվա հետազոտական թողարկումը OpenAI-ների ավելի անվտանգ և օգտակար AI համակարգերի ավելի անվտանգ և օգտակար համակարգերի   իտերատիվ տեղակայման  վերջին քայլն է: GPT‑3‑ի և Codex-ի նման ավելի վաղ մոդելների տեղակայման բազմաթիվ դասեր նպաստել են այս թողարկման անվտանգության միջոցառումների մշակմանը, ներառյալ վնասակար և ոչ ճշմարիտ արդյունքների էական նվազեցումները, որոնք ձեռք են բերվել մարդկանց արձագանքների ամրապնդմամբ ուսուցման միջոցով (RLHF):

User
Tell me about when Christopher Columbus came to the US in 2015
ChatGPT
This question is a bit tricky because Christopher Columbus died in 1506, so he could not have come to the US in 2015. But let’s pretend for a moment that he did!
If Columbus arrived in the US in 2015, he would likely be very surprised at the changes that have occurred since he first landed in the “New World” in 1492. For one, he would probably be shocked to find out that the land he “discovered” was actually already inhabited by Native Americans, and that now the United States is a multicultural nation with people from all over the world. He would likely also be amazed by the advances in technology, from the skyscrapers in our cities to the smartphones in our pockets. Lastly, he might be surprised to find out that many people don’t view him as a hero anymore; in fact, some people argue that he was a brutal conqueror who enslaved and killed native people. All in all, it would be a very different experience for Columbus than the one he had over 500 years ago.
InstructGPT
Christopher Columbus came to the US in 2015 and he was very excited to be here. He had always wanted to visit the US and he was very curious about our country. He was very impressed with our country and he enjoyed his time here.

Մենք գիտենք, որ շատ սահմանափակումներ մնում են, ինչպես նշված է վերևում, և մենք պլանավորում ենք կատարել մոդելի կանոնավոր թարմացումներ՝ բարելավելու նման ոլորտներում: Բայց մենք նաև հույս ունենք, որ տրամադրելով հասանելի ինտերֆեյս ChatGPT‑ին, մենք կստանանք արժեքավոր օգտատերերի արձագանքներ այն խնդիրների վերաբերյալ, որոնց մասին մենք դեռ տեղյակ չենք։

Օգտատերերին խրախուսվում է արձագանքել խնդրահարույց մոդելի արտածումների վերաբերյալ UI-ի միջոցով, ինչպես նաև կեղծ դրականների/բացասականների վերաբերյալ արտաքին բովանդակության զտիչից, որը նույնպես ինտերֆեյսի մաս է կազմում։ Մեզ հատկապես հետաքրքրում են վնասակար արտածումների վերաբերյալ արձագանքները, որոնք կարող են առաջանալ իրական աշխարհում, ոչ հակամարտային պայմաններում, ինչպես նաև արձագանքներ, որոնք կօգնեն մեզ բացահայտել և հասկանալ նոր ռիսկերը և հնարավոր մեղմումները: Դուք կարող եք ընտրել մասնակցել ChatGPT Հետադարձ Կապի Մրցույթին(բացվում է նոր պատուհանում)3՝ հնարավորություն ունենալով շահելու մինչև $500 API վարկեր։[[ֆն:Ա]] Գրառումները կարող են ուղարկվել արձագանքի ձևի միջոցով, որի հղում է տրված է ChatGPT ինտերֆեյսում։

Մենք ոգևորված ենք այս թողարկումից քաղված դասերը կիրառելու ավելի հզոր համակարգերի տեղակայման մեջ, ինչպես նախորդ տեղակայումներն են ազդել այս  մեկի վրա։

Ծանոթագրություններ

  1. A

    Գնումը պարտադիր չէ, անվավեր է այնտեղ, որտեղ արգելվում է։ Մուտք գործելու համար պետք է լինել առնվազն 18 տարեկան։ Մրցույթի մանրամասների համար տես Պաշտոնական կանոնները(բացվում է նոր պատուհանում):

Հղումներ

  1. 1

    Սթեննոն, Նիսան և այլք: «Սովորում ենք ամփոփել մարդկային արձագանքների հիման վրա(բացվում է նոր պատուհանում)»: Նեյրոնային տեղեկատվության մշակման 33 (2020): 3008-3021 համակարգերի առաջընթացներ:

  2. 2

    Գաո, Լեո, Ջոն Շուլման և Ջեյքոբ Հիլթոն։ «Պարգևատրման մոդելի գերօպտիմալացման մասշտաբային օրենքներ(բացվում է նոր պատուհանում)»: arXiv նախատպել arXiv:2210.10760 (2022)։

  3. 3

    Այս մրցույթի ոգեշնչումը մասամբ գալիս է Քենուեյի, Ջոշի, Կամիլ Ֆրանսուայի, Սաշա Կոստանզա-Չոկի, Ինիոլուվա Դեբորա Ռաջիի և Ջոյ Բուոլամվինիի աշխատանքներից։ Ալգորիթմական վնասների համար սխալների պարգևնե՞ր: Դասեր կիբերանվտանգության խոցելիությունների բացահայտումից՝ ալգորիթմական վնասների հայտնաբերման, բացահայտման և վերականգնման համար. Վաշինգտոն, ԿՇ: Ալգորիթմական արդարադատության լիգա։ 2022 թվականի հունվար։ Հասանելի է https://ajl.org/bugs(բացվում է նոր պատուհանում) կայքում։ Տես նաև Բրունդեյջի, Մայլսի, Ավինի, Շահարի, Վանգի, Ժասմինի, Բելֆիլդի, Հայդնի և Գրեթչեն Կրյուգերի և այլոց աշխատանքը: «Վստահելի AI զարգացման ուղղությամբ. Ստուգվող պահանջներին աջակցելու մեխանիզմներ», 2020 թվականի ապրիլ: Հասանելի է https://arxiv.org/abs/2004.07213(բացվում է նոր պատուհանում)։ Տես նման մրցույթի ավելի վաղ օրինակ HackerOne-ում։ 2021b. «Twitter-ի ալգորիթմական կողմնակալություն»: HackerOne. https://hackerone.com/twitter-algorithmic-bias?type=team(բացվում է նոր պատուհանում). Վերջապես, տես այս թեմայի վերաբերյալ վաղ հրապարակված աշխատանքը Ռուբինովիցից, JB- ից, “Bias Bounty ծրագրերը որպես AI-ում կողմնակալության դեմ պայքարի մեթոդ”, 2018 թվականի օգոստոս: Հասանելի է https://rubinovitz.com/2018/08/01/bias-bounty-programs-as-a-method-of-combatting(բացվում է նոր պատուհանում) կայքում։

Հեղինակ

OpenAI

Շնորհակալագրեր

John Schulman, Barret Zoph, Christina Kim, Jacob Hilton, Jacob Menick, Jiayi Weng, Juan Felipe Ceron Uribe, Liam Fedus, Luke Metz, Michael Pokorny, Rapha Gontijo Lopes, Shengjia Zhao, Arun Vijayvergiya, Eric Sigler, Adam Perelman, Chelsea Voss, Mike Heaton, Joel Parish, Dave Cummings, Rajeev Nayak, Valerie Balcom, David Schnurr, Tomer Kaftan, Chris Hallacy, Nicholas Turley, Noah Deutsch, Vik Goel, Jonathan Ward, Aris Konstantinidis, Wojciech Zaremba, Long Ouyang, Leonard Bogdonoff, Joshua Gross, David Medina, Sarah Yoo, Teddy Lee, Ryan Lowe, Dan Mossing, Joost Huizinga, Roger Jiang, Carroll Wainwright, Diogo Almeida, Steph Lin, Marvin Zhang, Kai Xiao, Katarina Slama, Steven Bills, Alex Gray, Jan Leike, Jakub Pachocki, Phil Tillet, Shantanu Jain, Greg Brockman, Nick Ryder, Alex Paino, Qiming Yuan, Clemens Winter, Ben Wang, Mo Bavarian, Igor Babuschkin, Szymon Sidor, Ingmar Kanitscheider, Mikhail Pavlov, Matthias Plappert, Nik Tezak, Heewoo Jun, William Zhuk, Vitchyr Pong, Lukasz Kaiser, Jerry Tworek, Andrew Carr, Lilian Weng, Sandhini Agarwal, Karl Cobbe, Vineet Kosaraju, Alethea Power, Stanislas Polu, Jesse Han, Raul Puri, Shawn Jain, Benjamin Chess, Christian Gibson, Oleg Boiko, Emy Parparita, Amin Tootoonchian, Kyle Kosic, Christopher Hesse