ہم نے ChatGPT نامی ایک ماڈل کی تربیت کی ہے جو گفتگو کے انداز میں بات چیت کرتا ہے۔ مکالمے کی وضع ChatGPT کو فالو اپ سوالات کے جوابات دینے، اپنی غلطیوں کو تسلیم کرنے، غلط احاطوں کو چیلنج کرنے، اور نامناسب درخواستوں کو مسترد کرنے کے قابل بناتی ہے۔
ChatGPT ایک ہم پلہ ماڈل ہے InstructGPT کا، جسے پرامپٹ پر عمل کرنے اور تفصیلی جواب فراہم کرنے کی تربیت دی گئی ہے۔
ہم صارفین کی فیڈبیک حاصل کرنے اور اس کی خوبیوں اور کمزوریوں کے بارے میں جاننے کے لئے ChatGPT متعارف کروانے کے لئے پرجوش ہیں۔ تحقیقی پیش نظارہ کے دوران، ChatGPT کا استعمال مفت ہے۔ ابھی اسے chatgpt.com(نئی ونڈو میں کھلتا ہے) پر آزمائیں۔
نمونے
resultWorkerErr := make(chan error)
defer close(resultWorkerErr)
go func() {
defer cancel()
resultWorkerErr <- b.resultWorker(ctx)
}()
err := b.worker(ctx)
cancel()
if err == nil {
return <-resultWorkerErr
}
return multierror.Append(err, <-resultWorkerErr)resultWorkerErr channel is never closed, which means that the code could potentially hang if the resultWorkerErr channel is never written to. This could happen if b.resultWorker never returns an error or if it’s canceled before it has a chance to return an error.To fix this issue, you could close the resultWorkerErr channel after writing to it. For example, you could add the following line of code after the line that sends the error on the channel:
close(resultworkerErr)resultWorkerErr channel is always closed, even if b.resultWorker never returns an error. Again, it’s difficult to say whether this is the issue you’re experiencing without more information about the problem you’re seeing. Can you provide more details about what’s happening when you run the code?ہم نے InstructGPT جیسے طریقوں کا استعمال کرتے ہوئے، لیکن ڈیٹا اکٹھا کرنے کے سیٹ اپ میں معمولی اختلافات کے ساتھ۔، اس ماڈل کو ہیومن فیڈبیک (RLHF) کا استعمال کرتے ہوئے تربیت دی۔ ہم نے زیر نگرانی فائن ٹیوننگ استعمال کرتے ہوئے ایک ابتدائی ماڈل کی تربیت کی: انسانی AI ٹرینرز نے ایسی بات چیت فراہم کی جس میں انہوں نے دونوں کردار ادا کیے—صارف اور AI معاون۔ ہم نے ٹرینرز کو ماڈل کی لکھی ہوئی تجاویز تک رسائی فراہم کی تاکہ ان کے جوابات تیار کرنے میں انہیں مدد مل سکے۔ ہم نے اس نئے مکالماتی ڈیٹاسیٹ کو InstructGPT ڈیٹاسیٹ کے ساتھ ملایا، جسے ہم نے مکالماتی فارمیٹ میں تبدیل کر دیا۔
ری انفورسمنٹ لرننگ کے لیے انعامی ماڈل بنانے کی خاطر، ہمیں موازناتی ڈیٹا اکٹھا کرنے کی ضرورت تھی، جس میں معیار کے لحاظ سے درجہ بندی کیے گئے دو یا زیادہ ماڈل جوابات شامل تھے۔ اس ڈیٹا کو جمع کرنے کے لیے، ہم نے وہ گفتگو لی جو AI ٹرینرز نے چیٹ بوٹ کے ساتھ کی تھی۔ ہم نے تصادفی طور پر ایک ماڈل کے ذریعے لکھا گیا پیغام منتخب کیا، کئی متبادل تکمیلوں کے نمونے لیے، اور AI ٹرینرز نے ان کی درجہ بندی کی۔ ان انعامی ماڈلز کو استعمال کرتے ہوئے، ہم پراکسیمل پالیسی آپٹیمائزیشن استعمال کرتے ہوئے ماڈل کو بہتر بنا سکتے ہیں۔ ہم نے اس عمل کے کئی مراحل انجام دیئے۔

ChatGPT کو GPT‑3.5 سیریز کے ایک ماڈل سے فائن ٹیون کیا گیا ہے، جس نے 2022 کے اوائل میں تربیت مکمل کی۔ آپ 3.5 سیریز کے بارے میں مزید معلومات یہاں(نئی ونڈو میں کھلتا ہے) حاصل کر سکتے ہیں۔ ChatGPT اور GPT‑3.5 کو Azure AI سپر کمپیوٹنگ انفراسٹرکچر پر تربیت دی گئی تھی۔
- ChatGPT بعض اوقات قابل اعتماد لگنے والے لیکن غلط یا بے معنی جوابات لکھتا ہے۔ اس مسئلے کو حل کرنا مشکل ہے، کیونکہ: (1) RL تربیت کے دوران، فی الحال سچ کا کوئی ذریعہ یا ماخذ موجود نہیں ہے؛ (2) ماڈل کو زیادہ محتاط بنانے کی تربیت دینے سے وہ سوالات کو مسترد کر دیتا ہے جن کا وہ صحیح جواب دے سکتا ہے؛ اور (3) نگرانی کی تربیت ماڈل کو گمراہ کرتی ہے کیونکہ مثالی جواب اس پر منحصر ہے کہ ماڈل کیا جانتا ہے(نئی ونڈو میں کھلتا ہے)، نہ کہ انسانی مظاہرہ کرنے والا کیا جانتا ہے۔
- ChatGPT ان پٹ فریزنگ میں ترمیم کرنے یا متعدد بار ایک ہی بروقت کی کوشش کرنے کے تئیں حساس ہے۔ مثال کے طور پر، اگر کسی سوال کی ایک ترتیب دی جائے، تو ماڈل جواب نہ جاننے کا دعویٰ کر سکتا ہے، لیکن اگر تھوڑی سی ترتیب بدل دی جائے، تو صحیح جواب دے سکتا ہے۔
- ماڈل اکثر ضرورت سے زیادہ تفصیل سے بیان کرتا ہے اور کچھ جملوں کا زیادہ استعمال کرتا ہے، جیسے یہ دوبارہ بیان کرتا ہے کہ یہ OpenAI کے ذریعہ تربیت یافتہ لینگویج ماڈل ہے۔ یہ مسائل تربیتی ڈیٹا میں تعصبات سے پیدا ہوتے ہیں (ٹرینرز لمبے جوابات کو ترجیح دیتے ہیں جو زیادہ جامع نظر آتے ہیں) اور معروف زیادہ اصلاحی مسائل۔1، 2
- مثالی طور پر، جب صارف نے مبہم سوال فراہم کیا تو ماڈل وضاحت طلب سوالات پوچھے گا۔ اس کے بجائے، ہمارے موجودہ نمونے عام طور پر یہ اندازہ لگاتے ہیں کہ صارف کا کیا ارادہ تھا۔
- اگرچہ ہم نے ماڈل کو نامناسب درخواستوں سے انکار کرنے کی کوششیں کی ہیں، لیکن یہ بعض اوقات نقصان دہ ہدایات کا جواب دے سکتا ہے یا متعصبانہ رویہ ظاہر کر سکتا ہے۔ ہم بعض قسم کے غیر محفوظ مواد کو متنبہ کرنے یا مسدود کرنے کے لئے ماڈریشن API کا استعمال کر رہے ہیں، لیکن ہم توقع کرتے ہیں کہ ابھی اس میں کچھ غلط منفی اور مثبت اثرات ہوں گے۔ ہم اس نظام کو بہتر بنانے کے لیے اپنے جاری کام میں مدد کے لیے صارفین کی فیڈبیک جمع کرنے کے خواہاں ہیں۔
ChatGPT کی آج کی تحقیقی ریلیز OpenAI کے محفوظ اور مفید AI سسٹمز کی تکراری تعیناتی کا تازہ ترین قدم ہے۔ GPT‑3 اور Codex جیسے پہلے ماڈل کی تعیناتی سے حاصل کردہ بہت سے اسباق نے اس ریلیز کے لیے حفاظتی اقدامات کو مطلع کیا ہے، جن میں انسانی فیڈبیک (RLHF) سے ری انفورسمنٹ لرننگ کے استعمال کے ذریعے نقصان دہ اور غیر درست آؤٹ پٹس میں نمایاں کمی شامل ہے۔
ہم جانتے ہیں کہ جیسا کہ اوپر تبادلہ خیال کیا گیا ہے، بہت سی حدود باقی ہیں اور ہم ان امور میں بہتری کے لیے باقاعدہ ماڈل اپ ڈیٹس کرنے کا پلان رکھتے ہیں۔ لیکن ہم یہ بھی امید کرتے ہیں کہ ChatGPT کو قابل رسائی انٹرفیس فراہم کر کے، ہمیں ان مسائل پر قیمتی صارف فیڈبیک موصول ہو گی جن کے بارے میں ہم پہلے سے واقف نہیں ہیں۔
صارفین کو UI کے ذریعے پریشانی والے ماڈل آؤٹ پٹس کے ساتھ ساتھ بیرونی مواد فلٹرکرنے سے غلط مثبت/منفی پہلوؤں پر فیڈبیک فراہم کرنے کی ترغیب دی جاتی ہے جو انٹرفیس کا بھی حصہ ہے۔ ہم خاص طور پر حقیقی دنیا، غیر مخالف حالات میں پیش آنے والے نقصان دہ آؤٹ پٹ کے بارے میں آپ کی فیڈبیک میں دلچسپی رکھتے ہیں، نیز ایسی فیڈبیک میں بھی دلچسپی رکھتے ہیں جو نئے خطرات اور ممکنہ تخفیف کو ظاہر کرنے اور سمجھنے میں ہماری مدد کرتے ہوں۔ آپ API کریڈٹ میں $500 تک جیتنے کے موقع کے لیے آپ ChatGPT فیڈ بیک مقابلے (نئی ونڈو میں کھلتا ہے)3 میں داخل ہونے کا انتخاب کر سکتے ہیں۔A اندراجات فیڈبیک فارم کے ذریعے جمع کرائے جا سکتے ہیں جو ChatGPT انٹرفیس میں منسلک ہے۔
ہم اس ریلیز سے حاصل ہونے والے اسباق کو مزید قابل نظاموں کی تعیناتی میں شامل کرنے کے لیے پرجوش ہیں، جیسے کہ پہلے کی تعیناتیوں نے اس کو مطلع کیا تھا ۔
حاشیہ
- A
کوئی خریداری ضروری نہیں، جہاں ممنوع ہو وہاں غیر مؤثر ہے۔ داخل ہونے کے لیے آپ کی عمر کم از کم 18 سال ہونی چاہیے۔ مقابلے کی تفصیلات کے لیے، سرکاری قواعد(نئی ونڈو میں کھلتا ہے) ملاحظہ کریں۔
حوالہ جات
- 1
اسٹینن، نیسن، وغیرہ۔ "انسانی فیڈبیک کے ساتھ خلاصہ کرنا سیکھیں(نئی ونڈو میں کھلتا ہے)۔" نیورل انفارمیشن پروسیسنگ سسٹمز 33 (2020): 3008-3021 میں پیشرفت۔
- 2
گاؤ، لیو، جان شلمین، اور جیکب ہلٹن۔ "انعامی ماڈل اوور آپٹیمائزیشن کے لئے اسکیلنگ قوانین(نئی ونڈو میں کھلتا ہے)۔" arXiv preprint arXiv:2210.10760 (2022)۔
- 3
اس مقابلے کی تحریک جزوی طور پر کین وے، جوش، کیمیلی فرانسکوائس، ساشا کوسٹانزا-چاک، انیولووا ڈیبورا راجی، اور جوئے بولوموینی کے کام سے حاصل ہوتی ہے۔ الگورتھمک نقصانات کے عوض انعامی پروگرام؟ الگورتھمک نقصانات کی دریافت، انکشاف، اور ازالہ کاری کے لئے سائبر سیکیورٹی کی کمزوری کے انکشاف سے سبق۔ واشنگٹن، ڈی سی: الگورتھمک جسٹس لیگ۔ جنوری 2022۔ https://ajl.org/bugs(نئی ونڈو میں کھلتا ہے) پر دستیاب ہے۔ برنڈیج، میلز، ایون، شہر، وانگ، جیسمین، بیلفیلڈ، ہیڈن، اور گریچن کروگر وغیرہ کا کام بھی دیکھیں۔ "قابل اعتماد AI کی ترقی کی طرف: قابل تصدیق دعووں کی حمایت کے لئے طریقہ کار،" اپریل 2020۔ https://arxiv.org/abs/2004.07213(نئی ونڈو میں کھلتا ہے) پر دستیاب ہے۔ HackerOne پر اس طرح کے مقابلے کی ایک سابقہ مثال دیکھیں۔ 2021b. "ٹویٹر الگورتھمک تعصب۔" HackerOne. https://hackerone.com/twitter-algorithmic-bias?type=team(نئی ونڈو میں کھلتا ہے). آخر میں، روبینووٹز، JB کے اس موضوع پر ابتدائی شائع شدہ کام کو دیکھیں، "AI میں بایاس باؤنٹی پروگرامز کے مقابلے کے طریقہ کار کے طور پر AI،" اگست 2018۔ https://rubinovitz.com/2018/08/01/bias-bounty-programs-as-a-method-of-combatting(نئی ونڈو میں کھلتا ہے) پر دستیاب ہے۔
مصنف
تسلیمات
John Schulman، Barret Zoph، Christina Kim، Jacob Hilton، Jacob Menick، Jiayi Weng، Juan Felipe Ceron Uribe، Liam Fedus، Luke Metz، Michael Pokorny، Rapha Gontijo Lopes، Shengjia Zhao، Arun Vijayvergiya، Eric Sigler، Adam Perelman، Chelsea Voss، Mike Heaton، Joel Parish، Dave Cummings، Rajeev Nayak، Valerie Balcom، David Schnurr، Tomer Kaftan، Chris Hallacy، Nicholas Turley، Noah Deutsch، Vik Goel، Jonathan Ward، Aris Konstantinidis، Wojciech Zaremba، Long Ouyang، Leonard Bogdonoff، Joshua Gross، David Medina، Sarah Yoo، Teddy Lee، Ryan Lowe، Dan Mossing، Joost Huizinga، Roger Jiang، Carroll Wainwright، Diogo Almeida، Steph Lin، Marvin Zhang، Kai Xiao، Katarina Slama، Steven Bills، Alex Gray، Jan Leike، Jakub Pachocki، Phil Tillet، Shantanu Jain، Greg Brockman، Nick Ryder، Alex Paino، Qiming Yuan، Clemens Winter، Ben Wang، Mo Bavarian، Igor Babuschkin، Szymon Sidor، Ingmar Kanitscheider، Mikhail Pavlov، Matthias Plappert، Nik Tezak، Heewoo Jun، William Zhuk، Vitchyr Pong، Lukasz Kaiser، Jerry Tworek، Andrew Carr، Lilian Weng، Sandhini Agarwal، Karl Cobbe، Vineet Kosaraju، Alethea Power، Stanislas Polu، Jesse Han، Raul Puri، Shawn Jain، Benjamin Chess، Christian Gibson، Oleg Boiko، Emy Parparita، Amin Tootoonchian، Kyle Kosic، Christopher Hesse


