Претставување на ChatGPT
Имаме обучено модел наречен ChatGPT кој комуницира на разговорен начин. Форматот на дијалог овозможува ChatGPT да одговара на последователни прашања, да ги признае своите грешки, да ги оспори неточните претпоставки и да ги одбие несоодветните барања.
ChatGPT е сестрински модел на InstructGPT кој е обучен да следи инструкција во промпт и да даде детален одговор.
Возбудени сме што го претставуваме ChatGPT за да добиеме повратни информации од корисниците и да научиме за неговите предности и слабости. За време на прегледот на истражувањето, користењето на ChatGPT е бесплатно. Пробај го сега на chatgpt.com(се отвора во нов прозорец).
Примери
resultWorkerErr := make(chan error)
defer close(resultWorkerErr)
go func() {
defer cancel()
resultWorkerErr <- b.resultWorker(ctx)
}()
err := b.worker(ctx)
cancel()
if err == nil {
return <-resultWorkerErr
}
return multierror.Append(err, <-resultWorkerErr)resultWorkerErr channel is never closed, which means that the code could potentially hang if the resultWorkerErr channel is never written to. This could happen if b.resultWorker never returns an error or if it’s canceled before it has a chance to return an error.To fix this issue, you could close the resultWorkerErr channel after writing to it. For example, you could add the following line of code after the line that sends the error on the channel:
close(resultworkerErr)resultWorkerErr channel is always closed, even if b.resultWorker never returns an error. Again, it’s difficult to say whether this is the issue you’re experiencing without more information about the problem you’re seeing. Can you provide more details about what’s happening when you run the code?Го обучивме овој модел користејќи зајакнување на учењето од човечки повратни информации (RLHF), користејќи ги истите методи како InstructGPT, но со мали разлики во поставувањето за собирање на податоци. Обучивме почетен модел користејќи надгледувано фино прилагодување: обучувачите за човечка вештачка интелигенција обезбедија разговори во кои играа двете улоги – корисникот и асистентот за вештачка интелигенција. Им дадовме на обучувачите пристап до предлози напишани од моделот за да им помогнеме да ги состават своите одговори. Го измешавме овој нов збир на дијалози со збирот на податоци InstructGPT кој го трансформиравме во формат на дијалог.
За да креираме модел на награда за зајакнување на учењето, требаше да собереме податоци за споредба кои се состоеја од два или повеќе одговори на моделот рангирани според квалитетот. За да ги собереме овие податоци, земавме разговори што обучувачите за вештачка интелигенција ги водеа со ботот за разговор. Случајно избравме порака напишана од модел, земавме примероци од неколку алтернативни завршетоци и ги рангиравме според оценките на обучувачите за вештачка интелигенција. Користејќи ги овие модели на наградување, можеме фино да го прилагодиме моделот користејќи Proximal Policy Optimization. Ние извршивме неколку итерации на овој процес.

ChatGPT е фино прилагоден од модел во серијата GPT‑3.5, кој заврши со обука на почетокот од 2022 година. Можеш да дознаеш повеќе за серијата 3.5 овде(се отвора во нов прозорец). ChatGPT и GPT‑3.5 беа обучени на инфраструктура за суперкомпјутери со вештачка интелигенција Azure.
- ChatGPT понекогаш пишува одговори кои звучат веродостојно, но се неточни или бесмислени. Поправањето на овој проблем е предизвик, бидејќи: (1) за време на обуката за зајакнување на учењето, моментално нема извор на вистина; (2) обуката на моделот да биде попретпазлив предизвикува тој да одбие прашања на кои може правилно да одговори и (3) надгледуваната обука го доведува моделот во заблуда бидејќи идеалниот одговор зависи од тоа што знае моделот(се отвора во нов прозорец), наместо од она што го знае човечкиот демонстратор.
- ChatGPT е чувствителен на промени во формулацијата на внесувањето или обидување со истиот промпт повеќе пати. На пример, кога е дадена една формулација на прашање, моделот може да тврди дека не го знае одговорот, но со мала преформулација, може да одговори точно.
- Моделот честопати е претерано многусловен и прекумерно користи одредени фрази, како на пример повторува дека е јазичен модел обучен од OpenAI. Овие проблеми произлегуваат од пристрасности во податоците за обука (обучувачите претпочитаат подолги одговори кои изгледаат посеопфатни) и добро познати проблеми со прекумерна оптимизација. 1 2
- Идеално, моделот би поставувал појаснувачки прашања кога корисникот би поставил двосмислено прашање. Наместо тоа, нашите тековни модели обично претпоставуваат што сакал корисникот.
- Иако се потрудивме да го натераме моделот да одбие несоодветни барања, понекогаш ќе одговори на штетни инструкции или ќе покаже пристрасно однесување. Користиме Moderation API за да предупредиме или блокираме одредени видови небезбедна содржина, но очекуваме засега да има некои лажни негативи и позитиви. Желни сме да собереме повратни информации од корисници за да помогнеме во нашата тековна работа за подобрување на овој систем.
Денешното објавување на истражувањето на ChatGPT е најновиот чекор во итеративното воведување на OpenAI на сè побезбедни и покорисни системи за вештачка интелигенција. Многу лекции од воведувањето на претходните модели како GPT‑3 и Codex ги информираа безбедносните мерки што се поставени за ова издание, вклучувајќи значителни намалувања на штетните и невистинити резултати постигнати со употреба на зајакнување на учењето од човечки повратни информации (RLHF).
Знаеме дека остануваат многу ограничувања како што е дискутирано погоре и планираме редовно да го ажурираме моделот за да се подобриме во тие области. Но, исто така се надеваме дека со обезбедување на достапен интерфејс на ChatGPT, ќе добиеме важни повратни информации од корисниците за проблеми за кои не сме веќе свесни.
Корисниците се охрабруваат да дадат повратни информации за проблематичните резултати на моделот преку корисничкиот интерфејс, како и за лажно позитивни/негативни резултати од филтерот за надворешна содржина, кој исто така е дел од интерфејсот. Особено сме заинтересирани за повратни информации за штетни резултати што би можеле да се појават во реални, неконфликтни услови, како и за повратни информации што ни помагаат да откриеме и разбереме нови ризици и можни мерки за ублажување. Можеш да избереш да влезеш во натпреварот за повратни информации за ChatGPT(се отвора во нов прозорец)3 за шанса да освоиш до 500 долари во API кредити.A Записите може да се поднесат преку формуларот за повратни информации кој е поврзан во интерфејсот на ChatGPT.
Возбудени сме што ќе ги пренесеме лекциите од ова издание во воведувањето на поспособни системи, исто како што претходните распоредувања го обликуваа ова.
Фусноти
- A
Не е потребно купување, не важи каде што е забрането. Мора да имаш најмалку 18 години за да учествуваш. За детали за натпреварот, види ги Официјалните правила(се отвора во нов прозорец).
Референци
- 1
Стиенон, Нисан и др. „Учење да се сумира со човечки повратни информации(се отвора во нов прозорец).“ Напредок во невронските системи за обработка на информации 33 (2020): 3008-3021.
- 2
Гао, Лео, Џон Шулман и Џејкоб Хилтон. „Закони за скалирање за прекумерна оптимизација на моделот за наградување(се отвора во нов прозорец).” arXiv претходно печатење arXiv:2210.10760 (2022).
- 3
Инспирацијата за овој натпревар делумно потекнува од работата на Кенвеј, Џош, Камиј Франсоа, Саша Костанца-Чок, Иниолува Дебора Раџи и Џој Буоламвини. Награди за грешки за алгоритамски штети? Лекции од откривањето на ранливостите во сајбер-безбедноста за откривање и надомест на алгоритамски штети. Вашингтон: Algorithmic Justice League. Јануари 2022 г. Достапно на https://ajl.org/bugs(се отвора во нов прозорец). Видете ја и работата на Брандејџ, Мајлс, Авин, Шахар, Ванг, Џасмин, Белфилд, Хејдн и Гречен Кругер и др. „Кон доверлив развој на вештачка интелигенција: Механизми за поддршка на проверливи тврдења“, април 2020 година. Достапно на https://arxiv.org/abs/2004.07213(се отвора во нов прозорец). Види претходен пример за таков натпревар на HackerOne. 2021b. „Алгоритамска пристрасност на Twitter“ HackerOne. https://hackerone.com/twitter-algorithmic-bias?type=team(се отвора во нов прозорец). Конечно, погледнете ја рано објавената работа на оваа тема од Рубиновиц, ЈБ, „Програми за награди за пристрасност како метод за борба против пристрасноста во вештачката интелигенција“, август 2018 година. Достапно на https://rubinovitz.com/2018/08/01/bias-bounty-programs-as-a-method-of-combatting(се отвора во нов прозорец).
Автор
Признанија
John Schulman, Barret Zoph, Christina Kim, Jacob Hilton, Jacob Menick, Jiayi Weng, Juan Felipe Ceron Uribe, Liam Fedus, Luke Metz, Michael Pokorny, Rapha Gontijo Lopes, Shengjia Zhao, Arun Vijayvergiya, Eric Sigler, Adam Perelman, Chelsea Voss, Mike Heaton, Joel Parish, Dave Cummings, Rajeev Nayak, Valerie Balcom, David Schnurr, Tomer Kaftan, Chris Hallacy, Nicholas Turley, Noah Deutsch, Vik Goel, Jonathan Ward, Aris Konstantinidis, Wojciech Zaremba, Long Ouyang, Leonard Bogdonoff, Joshua Gross, David Medina, Sarah Yoo, Teddy Lee, Ryan Lowe, Dan Mossing, Joost Huizinga, Roger Jiang, Carroll Wainwright, Diogo Almeida, Steph Lin, Marvin Zhang, Kai Xiao, Katarina Slama, Steven Bills, Alex Gray, Jan Leike, Jakub Pachocki, Phil Tillet, Shantanu Jain, Greg Brockman, Nick Ryder, Alex Paino, Qiming Yuan, Clemens Winter, Ben Wang, Mo Bavarian, Igor Babuschkin, Szymon Sidor, Ingmar Kanitscheider, Mikhail Pavlov, Matthias Plappert, Nik Tezak, Heewoo Jun, William Zhuk, Vitchyr Pong, Lukasz Kaiser, Jerry Tworek, Andrew Carr, Lilian Weng, Sandhini Agarwal, Karl Cobbe, Vineet Kosaraju, Alethea Power, Stanislas Polu, Jesse Han, Raul Puri, Shawn Jain, Benjamin Chess, Christian Gibson, Oleg Boiko, Emy Parparita, Amin Tootoonchian, Kyle Kosic и Christopher Hesse


