close
مرکزی مواد پر جائیں
OpenAI
لوڈ ہو رہا ہے…

ہم نے ChatGPT نامی ایک ماڈل کی تربیت کی ہے جو گفتگو کے انداز میں بات چیت کرتا ہے۔ مکالمے کی وضع ChatGPT کو فالو اپ سوالات کے جوابات دینے، اپنی غلطیوں کو تسلیم کرنے، غلط احاطوں کو چیلنج کرنے، اور نامناسب درخواستوں کو مسترد کرنے کے قابل بناتی ہے۔

ChatGPT ایک ہم پلہ ماڈل ہے InstructGPT کا، جسے پرامپٹ پر عمل کرنے اور تفصیلی جواب فراہم کرنے کی تربیت دی گئی ہے۔

ہم صارفین کی فیڈبیک حاصل کرنے اور اس کی خوبیوں اور کمزوریوں کے بارے میں جاننے کے لئے ChatGPT متعارف کروانے کے لئے پرجوش ہیں۔ تحقیقی پیش نظارہ کے دوران، ChatGPT کا استعمال مفت ہے۔ ابھی اسے  chatgpt.com(نئی ونڈو میں کھلتا ہے) پر آزمائیں۔

نمونے

User
this code is not working like i expect — how do i fix it?
resultWorkerErr := make(chan error) defer close(resultWorkerErr) go func() { defer cancel() resultWorkerErr <- b.resultWorker(ctx) }() err := b.worker(ctx) cancel() if err == nil { return <-resultWorkerErr } return multierror.Append(err, <-resultWorkerErr)
ChatGPT
It’s difficult to say what’s wrong with the code without more context. Can you provide more information about what the code is supposed to do and what isn’t working as expected? Also, is this the entire code or just a part of it?
User
just part of it — the error never surfaces. I think there is something wrong with the channel
ChatGPT
It’s difficult to say without more information about what the code is supposed to do and what’s happening when it’s executed. One potential issue with the code you provided is that the resultWorkerErr channel is never closed, which means that the code could potentially hang if the resultWorkerErr channel is never written to. This could happen if b.resultWorker never returns an error or if it’s canceled before it has a chance to return an error.
To fix this issue, you could close the resultWorkerErr channel after writing to it. For example, you could add the following line of code after the line that sends the error on the channel:
close(resultworkerErr)
This would ensure that the resultWorkerErr channel is always closed, even if b.resultWorker never returns an error. Again, it’s difficult to say whether this is the issue you’re experiencing without more information about the problem you’re seeing. Can you provide more details about what’s happening when you run the code?

طریقے

ہم نے  InstructGPT جیسے طریقوں کا استعمال کرتے ہوئے، لیکن ڈیٹا اکٹھا کرنے کے سیٹ اپ میں معمولی اختلافات کے ساتھ۔، اس ماڈل کو ہیومن فیڈبیک (RLHF) کا استعمال کرتے ہوئے تربیت دی۔ ہم نے زیر نگرانی فائن ٹیوننگ استعمال کرتے ہوئے ایک ابتدائی ماڈل کی تربیت کی: انسانی AI ٹرینرز نے ایسی بات چیت فراہم کی جس میں انہوں نے دونوں کردار ادا کیے—صارف اور AI معاون۔ ہم نے ٹرینرز کو ماڈل کی لکھی ہوئی تجاویز تک رسائی فراہم کی تاکہ ان کے جوابات تیار کرنے میں انہیں مدد مل سکے۔ ہم نے اس نئے مکالماتی ڈیٹاسیٹ کو InstructGPT ڈیٹاسیٹ کے ساتھ ملایا، جسے ہم نے مکالماتی فارمیٹ میں  تبدیل کر دیا۔

ری انفورسمنٹ لرننگ کے لیے انعامی ماڈل بنانے کی خاطر، ہمیں موازناتی ڈیٹا اکٹھا کرنے کی ضرورت تھی، جس میں معیار کے لحاظ سے درجہ بندی کیے گئے دو یا زیادہ ماڈل جوابات شامل تھے۔ اس ڈیٹا کو جمع کرنے کے لیے، ہم نے وہ گفتگو لی جو AI ٹرینرز نے چیٹ بوٹ کے ساتھ کی تھی۔ ہم نے تصادفی طور پر ایک ماڈل کے ذریعے لکھا گیا پیغام منتخب کیا، کئی متبادل تکمیلوں کے نمونے لیے، اور AI ٹرینرز نے ان کی درجہ بندی کی۔ ان انعامی ماڈلز کو استعمال کرتے ہوئے، ہم پراکسیمل پالیسی آپٹیمائزیشن استعمال کرتے ہوئے ماڈل کو بہتر بنا سکتے ہیں۔ ہم نے اس عمل کے کئی مراحل انجام دیئے۔

ChatGPT کی تربیت کے پیچھے تین مرحلہ وار طریقہ کار ظاہر کرنے والی ڈائیگرام۔

ChatGPT کو GPT‑3.5 سیریز کے ایک ماڈل سے فائن ٹیون کیا گیا ہے، جس نے 2022 کے اوائل میں تربیت مکمل کی۔ آپ 3.5 سیریز کے بارے میں مزید معلومات  یہاں(نئی ونڈو میں کھلتا ہے) حاصل کر سکتے ہیں۔ ChatGPT اور GPT‑3.5 کو Azure AI سپر کمپیوٹنگ انفراسٹرکچر پر  تربیت دی گئی تھی۔

حدود

  • ChatGPT بعض اوقات قابل اعتماد لگنے والے لیکن غلط یا بے معنی جوابات لکھتا ہے۔ اس مسئلے کو حل کرنا مشکل ہے، کیونکہ: (1) RL تربیت کے دوران، فی الحال سچ کا کوئی ذریعہ یا ماخذ موجود نہیں ہے؛ (2) ماڈل کو زیادہ محتاط بنانے کی تربیت دینے سے وہ سوالات کو مسترد کر دیتا ہے جن کا وہ صحیح جواب دے سکتا ہے؛ اور (3) نگرانی کی تربیت ماڈل کو گمراہ کرتی ہے کیونکہ مثالی جواب اس پر منحصر ہے کہ ماڈل کیا جانتا ہے(نئی ونڈو میں کھلتا ہے)، نہ کہ  انسانی مظاہرہ کرنے والا کیا جانتا ہے۔
  • ChatGPT ان پٹ فریزنگ میں ترمیم کرنے یا متعدد بار ایک ہی بروقت کی کوشش کرنے کے تئیں حساس ہے۔ مثال کے طور پر، اگر کسی سوال کی ایک ترتیب دی جائے، تو ماڈل جواب نہ جاننے کا دعویٰ کر سکتا ہے، لیکن اگر تھوڑی سی ترتیب بدل دی جائے، تو  صحیح جواب دے سکتا ہے۔
  • ماڈل اکثر ضرورت سے زیادہ تفصیل سے بیان کرتا ہے اور کچھ جملوں کا زیادہ استعمال کرتا ہے، جیسے یہ دوبارہ بیان کرتا ہے کہ یہ OpenAI کے ذریعہ تربیت یافتہ لینگویج ماڈل ہے۔ یہ مسائل تربیتی ڈیٹا میں تعصبات سے پیدا ہوتے ہیں (ٹرینرز لمبے جوابات کو ترجیح دیتے ہیں جو زیادہ جامع نظر آتے ہیں) اور معروف زیادہ اصلاحی مسائل۔1، 2
  • مثالی طور پر، جب صارف نے مبہم سوال فراہم کیا تو ماڈل وضاحت طلب سوالات پوچھے گا۔ اس کے بجائے، ہمارے موجودہ نمونے عام طور پر یہ اندازہ لگاتے ہیں کہ صارف کا کیا ارادہ تھا۔
  • اگرچہ ہم نے ماڈل کو نامناسب درخواستوں سے انکار کرنے کی کوششیں کی ہیں، لیکن یہ بعض اوقات نقصان دہ ہدایات کا جواب دے سکتا ہے یا متعصبانہ رویہ ظاہر کر سکتا ہے۔ ہم بعض قسم کے غیر محفوظ مواد کو متنبہ کرنے یا مسدود کرنے کے لئے  ماڈریشن API  کا استعمال کر رہے ہیں، لیکن ہم توقع کرتے ہیں کہ ابھی اس میں کچھ غلط منفی اور مثبت اثرات ہوں گے۔ ہم اس نظام کو بہتر بنانے کے لیے اپنے جاری کام میں مدد کے لیے صارفین کی فیڈبیک جمع کرنے  کے خواہاں ہیں۔

تکراری تعیناتی

ChatGPT کی آج کی تحقیقی ریلیز OpenAI کے محفوظ اور مفید AI سسٹمز کی  تکراری تعیناتی  کا تازہ ترین قدم ہے۔ GPT‑3 اور Codex جیسے پہلے ماڈل کی تعیناتی سے حاصل کردہ بہت سے اسباق نے اس ریلیز کے لیے حفاظتی اقدامات کو مطلع کیا ہے، جن میں انسانی فیڈبیک  (RLHF) سے ری انفورسمنٹ لرننگ کے استعمال کے ذریعے نقصان دہ اور غیر درست آؤٹ پٹس میں نمایاں کمی شامل ہے۔

User
Tell me about when Christopher Columbus came to the US in 2015
ChatGPT
This question is a bit tricky because Christopher Columbus died in 1506, so he could not have come to the US in 2015. But let’s pretend for a moment that he did!
If Columbus arrived in the US in 2015, he would likely be very surprised at the changes that have occurred since he first landed in the “New World” in 1492. For one, he would probably be shocked to find out that the land he “discovered” was actually already inhabited by Native Americans, and that now the United States is a multicultural nation with people from all over the world. He would likely also be amazed by the advances in technology, from the skyscrapers in our cities to the smartphones in our pockets. Lastly, he might be surprised to find out that many people don’t view him as a hero anymore; in fact, some people argue that he was a brutal conqueror who enslaved and killed native people. All in all, it would be a very different experience for Columbus than the one he had over 500 years ago.
InstructGPT
Christopher Columbus came to the US in 2015 and he was very excited to be here. He had always wanted to visit the US and he was very curious about our country. He was very impressed with our country and he enjoyed his time here.

ہم جانتے ہیں کہ جیسا کہ اوپر تبادلہ خیال کیا گیا ہے، بہت سی حدود باقی ہیں اور ہم ان امور میں بہتری کے لیے باقاعدہ ماڈل اپ ڈیٹس کرنے کا پلان رکھتے ہیں۔ لیکن ہم یہ بھی امید کرتے ہیں کہ ChatGPT کو قابل رسائی انٹرفیس فراہم کر کے، ہمیں ان مسائل پر قیمتی صارف فیڈبیک موصول ہو گی جن کے بارے میں ہم پہلے سے واقف نہیں ہیں۔

صارفین کو UI کے ذریعے پریشانی والے ماڈل آؤٹ پٹس کے ساتھ ساتھ بیرونی مواد فلٹرکرنے سے غلط مثبت/منفی پہلوؤں پر فیڈبیک فراہم کرنے کی ترغیب دی جاتی ہے جو انٹرفیس کا بھی حصہ ہے۔ ہم خاص طور پر حقیقی دنیا، غیر مخالف حالات میں پیش آنے والے نقصان دہ آؤٹ پٹ کے بارے میں آپ کی فیڈبیک میں دلچسپی رکھتے ہیں، نیز ایسی فیڈبیک میں بھی دلچسپی رکھتے ہیں جو نئے خطرات اور ممکنہ تخفیف کو ظاہر کرنے اور سمجھنے میں ہماری مدد کرتے ہوں۔ آپ API کریڈٹ میں $500 تک جیتنے کے موقع کے لیے آپ  ChatGPT فیڈ بیک مقابلے (نئی ونڈو میں کھلتا ہے)3 میں داخل ہونے کا انتخاب کر سکتے ہیں۔A اندراجات فیڈبیک فارم کے ذریعے جمع کرائے جا سکتے ہیں جو ChatGPT  انٹرفیس میں منسلک ہے۔

ہم اس ریلیز سے حاصل ہونے والے اسباق کو مزید قابل نظاموں کی تعیناتی میں شامل کرنے کے لیے پرجوش ہیں، جیسے کہ پہلے کی تعیناتیوں نے اس کو مطلع کیا تھا ۔

حاشیہ

  1. A

    کوئی خریداری ضروری نہیں، جہاں ممنوع ہو وہاں غیر مؤثر ہے۔ داخل ہونے کے لیے آپ کی عمر کم از کم 18 سال ہونی چاہیے۔ مقابلے کی تفصیلات کے لیے،  سرکاری قواعد(نئی ونڈو میں کھلتا ہے) ملاحظہ کریں۔

حوالہ جات

  1. 1

    اسٹینن، نیسن، وغیرہ۔ "انسانی فیڈبیک کے ساتھ خلاصہ کرنا سیکھیں(نئی ونڈو میں کھلتا ہے)۔" نیورل انفارمیشن پروسیسنگ سسٹمز 33 (2020): 3008-3021 میں پیشرفت۔

  2. 2

    گاؤ، لیو، جان شلمین، اور جیکب ہلٹن۔ "انعامی ماڈل اوور آپٹیمائزیشن کے لئے اسکیلنگ قوانین(نئی ونڈو میں کھلتا ہے)۔" arXiv preprint arXiv:2210.10760 (2022)۔

  3. 3

    اس مقابلے کی تحریک جزوی طور پر کین وے، جوش، کیمیلی فرانسکوائس، ساشا کوسٹانزا-چاک، انیولووا ڈیبورا راجی، اور جوئے بولوموینی کے کام سے حاصل ہوتی ہے۔ الگورتھمک نقصانات کے عوض انعامی پروگرام؟ الگورتھمک نقصانات کی دریافت، انکشاف، اور ازالہ کاری کے لئے سائبر سیکیورٹی کی کمزوری کے انکشاف سے سبق۔ واشنگٹن، ڈی سی: الگورتھمک جسٹس لیگ۔ جنوری 2022۔  https://ajl.org/bugs(نئی ونڈو میں کھلتا ہے) پر دستیاب ہے۔ برنڈیج، میلز، ایون، شہر، وانگ، جیسمین، بیلفیلڈ، ہیڈن، اور گریچن کروگر وغیرہ کا کام بھی دیکھیں۔ "قابل اعتماد AI کی ترقی کی طرف: قابل تصدیق دعووں کی حمایت کے لئے طریقہ کار،" اپریل 2020۔ https://arxiv.org/abs/2004.07213(نئی ونڈو میں کھلتا ہے) پر دستیاب ہے۔ HackerOne پر اس طرح کے مقابلے کی ایک سابقہ مثال دیکھیں۔ 2021b. "ٹویٹر الگورتھمک تعصب۔" HackerOne. https://hackerone.com/twitter-algorithmic-bias?type=team(نئی ونڈو میں کھلتا ہے). آخر میں، روبینووٹز، JB کے اس موضوع پر ابتدائی شائع شدہ کام کو دیکھیں، "AI میں بایاس باؤنٹی پروگرامز کے مقابلے کے طریقہ کار کے طور پر AI،" اگست 2018۔ https://rubinovitz.com/2018/08/01/bias-bounty-programs-as-a-method-of-combatting(نئی ونڈو میں کھلتا ہے) پر دستیاب ہے۔

مصنف

OpenAI

تسلیمات

John Schulman، Barret Zoph، Christina Kim، Jacob Hilton، Jacob Menick، Jiayi Weng، Juan Felipe Ceron Uribe، Liam Fedus، Luke Metz، Michael Pokorny، Rapha Gontijo Lopes، Shengjia Zhao، Arun Vijayvergiya، Eric Sigler، Adam Perelman، Chelsea Voss، Mike Heaton، Joel Parish، Dave Cummings، Rajeev Nayak، Valerie Balcom، David Schnurr، Tomer Kaftan، Chris Hallacy، Nicholas Turley، Noah Deutsch، Vik Goel، Jonathan Ward، Aris Konstantinidis، Wojciech Zaremba، Long Ouyang، Leonard Bogdonoff، Joshua Gross، David Medina، Sarah Yoo، Teddy Lee، Ryan Lowe، Dan Mossing، Joost Huizinga، Roger Jiang، Carroll Wainwright، Diogo Almeida، Steph Lin، Marvin Zhang، Kai Xiao، Katarina Slama، Steven Bills، Alex Gray، Jan Leike، Jakub Pachocki، Phil Tillet، Shantanu Jain، Greg Brockman، Nick Ryder، Alex Paino، Qiming Yuan، Clemens Winter، Ben Wang، Mo Bavarian، Igor Babuschkin، Szymon Sidor، Ingmar Kanitscheider، Mikhail Pavlov، Matthias Plappert، Nik Tezak، Heewoo Jun، William Zhuk، Vitchyr Pong، Lukasz Kaiser، Jerry Tworek، Andrew Carr، Lilian Weng، Sandhini Agarwal، Karl Cobbe، Vineet Kosaraju، Alethea Power، Stanislas Polu، Jesse Han، Raul Puri، Shawn Jain، Benjamin Chess، Christian Gibson، Oleg Boiko، Emy Parparita، Amin Tootoonchian، Kyle Kosic، Christopher Hesse