هوش مصنوعی مولد چیست؟
هوش مصنوعی مولد (Generative AI) به مدلهای یادگیری عمیقی اطلاق میشود که میتوانند متون، تصاویر و سایر محتوای باکیفیت را بر اساس دادههایی که بر روی آنها آموزش دیدهاند، تولید کنند.
هوش مصنوعی چرخههای متعددی از هیاهو یا هایپ را پشت سر گذاشته است، اما حتی برای منتقدان، انتشار ChatGPT بهعنوان یک نقطه عطف به نظر میرسد. چتبات OpenAI که از آخرین مدل زبانی بزرگ این شرکت قدرت میگیرد، میتواند شعر بنویسد، جوک تعریف کند و مقالههایی تولید کند که شبیه به محتوای ایجادشده توسط انسان به نظر میرسند. اگر چند کلمه به ChatGPT بدهید، ممکن است شعرهای عاشقانهای به سبک نظرات Yelp یا متنهای آهنگ به سبک Nick Cave تولید کند.
آخرین باری که هوش مصنوعی مولد اینچنین برجسته بود، پیشرفتها در حوزه بینایی کامپیوتری بود. عکسهای سلفی به پرترههایی به سبک رنسانس تبدیل شدند و تصاویر چهرههای پیرشده زودرس شبکههای اجتماعی را پر کردند. پنج سال بعد، این جهش در پردازش زبان طبیعی است که تخیل عمومی را تسخیر کرده است؛ توانایی مدلهای زبانی بزرگ برای خلق محتوا در هر موضوعی. و این فقط محدود به زبان نیست: مدلهای مولد میتوانند گرامر کدهای نرمافزاری، مولکولها، تصاویر طبیعی و انواع دیگر دادهها را نیز بیاموزند.
ظهور مدلهای مولد عمیق
هوش مصنوعی مولد به مدلهای یادگیری عمیقی اشاره دارد که میتوانند دادههای خام – مثلاً کل محتوای ویکیپدیا یا آثار جمعآوریشده رمبرانت – را بگیرند و «یاد بگیرند» که خروجیهای آماری ممکن را هنگام دریافت ورودی تولید کنند. در سطحی بالا، مدلهای مولد نمایشی سادهشده از دادههای آموزشی خود را رمزگذاری میکنند و از آن برای ایجاد اثری جدید استفاده میکنند که مشابه اما غیر یکسان با دادههای اصلی است.
مدلهای مولد برای سالها در آمار برای تحلیل دادههای عددی استفاده میشدند. اما ظهور یادگیری عمیق امکان گسترش آنها به تصاویر، گفتار و انواع دادههای پیچیده دیگر را فراهم کرد. از جمله اولین مدلهایی که این گذار را محقق کردند، Variational Autoencoderها یا VAEها بودند که در سال ۲۰۱۳ معرفی شدند. این مدلها اولین مدلهای یادگیری عمیقی بودند که برای تولید تصاویر و گفتار واقعی مورد استفاده قرار گرفتند.
آکاش سریواستاوا، متخصص هوش مصنوعی مولد در آزمایشگاه هوش مصنوعی MIT-IBM Watson، میگوید:
«VAEs مسیر را برای مدلسازی مولد عمیق هموار کردند و مقیاسپذیری مدلها را آسانتر ساختند. بخش زیادی از آنچه امروز به عنوان هوش مصنوعی مولد میشناسیم، از اینجا شروع شد.»
رمزگذار-رمزگشاها (Autoencoderها) دادههای بدون برچسب را به یک بازنمایی فشرده رمزگذاری کرده و سپس داده را به شکل اولیهاش رمزگشایی میکنند. رمزگذار-رمزگشاهای «ساده» برای اهداف مختلفی، از جمله بازسازی تصاویر خراب یا تار استفاده میشدند. اما VAEs قابلیت حیاتی ایجاد تغییرات روی داده اصلی را اضافه کردند و توانایی تولید دادههای جدید را ممکن ساختند.
این قابلیت تولید دادههای جدید، موجی از فناوریهای نوظهور را ایجاد کرد، از جمله شبکههای مولد رقابتی (GANs) و مدلهای دیفیوژن (Diffusion Models)، که توانایی تولید تصاویر جعلی اما واقعیتر را فراهم کردند. به این ترتیب، VAEs پایهگذار هوش مصنوعی مولد امروزی شدند.
معماری VAEs شامل بلوکهایی از رمزگذارها (encoders) و رمزگشاها (decoders) است، معماریای که در مدلهای زبانی بزرگ امروزی نیز به کار میرود. رمزگذارها یک مجموعه داده را به یک بازنمایی فشرده تبدیل میکنند و نقاط داده مشابه را در یک فضای انتزاعی به یکدیگر نزدیکتر میچینند. رمزگشاها از این فضا نمونهبرداری کرده و چیزی جدید تولید میکنند، در حالی که ویژگیهای مهم مجموعه داده اصلی را حفظ میکنند.
ترنسفورمرها، که در سال ۲۰۱۷ توسط گوگل و در مقاله برجسته «Attention Is All You Need» معرفی شدند، معماری رمزگذار-رمزگشا (encoder-decoder) را با مکانیزمی به نام توجه (attention) ترکیب کردند تا نحوه آموزش مدلهای زبانی را تغییر دهند. یک رمزگذار (encoder) متن خام و بدون برچسب را به بازنماییهایی که به نام embedding شناخته میشوند، تبدیل میکند؛ سپس رمزگشا (decoder) این بازنماییها را همراه با خروجیهای قبلی مدل دریافت کرده و بهصورت متوالی هر کلمه در یک جمله را پیشبینی میکند.
رمزگذار از طریق بازیهای حدسزدن برای پر کردن جای خالی (fill-in-the-blank guessing games) یاد میگیرد که کلمات و جملات چگونه به یکدیگر مرتبط هستند و بدین ترتیب یک بازنمایی قدرتمند از زبان ایجاد میکند، بدون اینکه نیازی به برچسبگذاری ویژگیهای گرامری و بخشهای مختلف جمله وجود داشته باشد. در واقع، ترنسفورمرها میتوانند از ابتدا و بدون تعیین یک وظیفه مشخص آموزش داده شوند. پس از اینکه این بازنماییهای قدرتمند ایجاد شدند، مدلها میتوانند با مقدار بسیار کمتری داده برای انجام یک وظیفه خاص تخصصی شوند.
چندین نوآوری این امر را ممکن ساخت. ترانسفورمرها کلمات یک جمله را بهصورت همزمان پردازش میکنند که این امکان را فراهم میآورد تا متن بهصورت موازی پردازش شده و سرعت آموزش افزایش یابد. روشهای قبلی مانند شبکههای عصبی بازگشتی (RNNs) و شبکههای حافظه طولانی-کوتاهمدت (LSTM) کلمات را یکییکی پردازش میکردند. علاوه بر این، ترنسفورمرها موقعیت کلمات و روابط بین آنها را یاد میگیرند که این موضوع به آنها امکان میدهد معنا را استنباط کرده و کلماتی مثل «it» را در جملات طولانی رفع ابهام کنند.
با حذف نیاز به تعریف یک وظیفه از ابتدا، ترنسفورمرها آموزش مدلهای زبانی بر روی مقادیر وسیعی از متن خام را عملی کردند و این امکان را فراهم ساختند که مدلها بهطور قابلتوجهی بزرگتر شوند. در گذشته، افراد داده جمعآوری کرده و آن را برچسبگذاری میکردند تا یک مدل برای یک وظیفه خاص آموزش داده شود. اما با ترانسفورمرها، میتوان یک مدل را بر روی مقدار عظیمی از داده آموزش داد و سپس آن را با استفاده از مقدار کمی داده برچسبگذاریشده، برای چندین وظیفه سازگار کرد.
ترنسفورمرها به دلیل تطبیقپذیری بالای خود به عنوان مدلهای بنیادین (Foundation Models) شناخته میشوند. آکاش سریواستاوا توضیح میدهد:
«اگر میخواستید یک دستهبند را بهبود دهید، قبلاً باید دادههای برچسبگذاریشده بیشتری به آن میدادید. اما اکنون، با مدلهای بنیادین، میتوانید حجم زیادی از دادههای بدون برچسب را برای یادگیری یک بازنمایی که به خوبی به وظایف مختلف تعمیم میدهد، به مدل بدهید.»
ترنسفورمرهای زبانی امروزه برای وظایف غیرمولد مانند طبقهبندی و استخراج موجودیتها، و همچنین وظایف مولد مانند ترجمه، خلاصهسازی و پاسخ به سوالات استفاده میشوند. اخیراً، ترانسفورمرها با توانایی خود در تولید دیالوگهای متقاعدکننده، مقالات و محتوای دیگر، جهان را شگفتزده کردهاند.
ترانسفورمرهای زبانی به سه دسته اصلی تقسیم میشوند: مدلهای فقط رمزگذار (encoder-only)، مدلهای فقط رمزگشا (decoder-only)، و مدلهای رمزگذار-رمزگشا (encoder-decoder).
مدلهای فقط رمزگذار مانند BERT موتورهای جستجو و چتباتهای خدمات مشتری. مدلهای فقط رمزگذار به طور گسترده برای وظایف غیرمولد مانند طبقهبندی بازخورد مشتری و استخراج اطلاعات از اسناد طولانی استفاده میشوند.
مدلهای فقط رمزگشا مانند خانواده مدلهای GPT برای پیشبینی کلمه بعدی بدون استفاده از یک بازنمایی رمزگذاریشده آموزش داده میشوند. GPT-3 با 175 میلیارد پارامتر، در زمان انتشار توسط OpenAI در سال 2020 بزرگترین مدل زبانی از نوع خود بود. مدلهای عظیم دیگر — مانند PaLM گوگل (با 540 میلیارد پارامتر) و BLOOM (با 176 میلیارد پارامتر و دسترسی آزاد) — از آن زمان به این صحنه پیوستهاند.
مدلهای رمزگذار-رمزگشا، مانند Text-to-Text Transfer Transformer گوگل یا T5، ویژگیهای هر دو مدلهای BERT و مدلهای نوع GPT را ترکیب میکنند. این مدلها میتوانند بسیاری از وظایف مولد مشابه مدلهای فقط رمزگشا را انجام دهند، اما اندازه فشردهتر آنها باعث میشود سریعتر و ارزانتر تنظیم و اجرا شوند.
هوش مصنوعی مولد و مدلهای زبانی بزرگ با سرعت سرسامآوری در حال پیشرفت هستند و مدلها، معماریها و نوآوریهای جدید تقریباً هر روز ظاهر میشوند.
یادگیری نظارتشده بازمیگردد
توانایی بهرهگیری از دادههای بدون برچسب، نوآوری کلیدی بود که قدرت هوش مصنوعی مولد را آزاد کرد. اما نظارت انسانی اخیراً بازگشتی داشته و اکنون به پیشبرد مدلهای زبانی بزرگ کمک میکند. توسعهدهندگان هوش مصنوعی به طور فزایندهای از یادگیری نظارتشده برای شکلدهی تعاملات ما با مدلهای مولد و بازنماییهای قدرتمند تعبیهشده در آنها استفاده میکنند.
تنظیم بر اساس دستورالعمل (Instruction-tuning)، که با سری مدلهای FLAN گوگل معرفی شد، به مدلهای مولد امکان داده تا فراتر از وظایف ساده عمل کنند و در شیوهای تعاملیتر و عمومیتر یاریرسان باشند. ارائه دستورالعملها به همراه پاسخهای مرتبط در طیف گستردهای از موضوعات میتواند مدل را برای تولید نه تنها متن آماری محتمل، بلکه پاسخهای شبیه به انسان به سوالاتی مانند «پایتخت فرانسه کجاست؟» یا درخواستهایی مانند «لیست زیر را مرتب کن» آماده کند.
با طراحی دقیق مجموعهای از درخواستها (prompts) — ورودیهای اولیهای که به مدلهای بنیادین داده میشود — میتوان مدل را برای انجام وظایف متنوع سفارشی کرد. در برخی موارد، هیچ داده برچسبدار مورد نیاز نیست. شما به سادگی از مدل میخواهید وظیفهای را انجام دهد، حتی آنهایی که به صراحت برای آن آموزش ندیده است. این رویکرد کاملاً بدون داده، یادگیری بدوننمونه (zero-shot learning) نامیده میشود، زیرا به هیچ مثالی نیاز ندارد. برای افزایش احتمال تولید خروجی دلخواه، میتوانید یک یا چند مثال ارائه دهید، که به عنوان یادگیری تکنمونه (one-shot) یا یادگیری کمنمونه (few-shot learning) شناخته میشود.
یادگیری بدوننمونه و کمنمونه به طرز چشمگیری زمان مورد نیاز برای ساخت یک راهحل هوش مصنوعی را کاهش میدهند، زیرا به حداقل جمعآوری دادهها برای رسیدن به نتیجه نیاز دارند. اما با وجود قدرت بالای این روشها، محدودیتهایی نیز دارند. اولاً، بسیاری از مدلهای مولد نسبت به فرمت دستورات حساس هستند، که این مسئله به پیدایش حوزهای جدید در هوش مصنوعی به نام مهندسی درخواستها (prompt-engineering) منجر شده است. یک درخواست (prompt) خوب میتواند نتایج مطلوب را تنها در یکی دو تلاش ارائه دهد، اما این موضوع اغلب به قرار دادن درست دو نقطه یا تغییر خطوط بستگی دارد. اگرچه مهندسی درخواست مؤثر است، اما میتواند پرزحمت باشد. درخواستی که روی یک مدل به خوبی عمل میکند، ممکن است به مدلهای دیگر انتقالپذیر نباشد.
یکی دیگر از محدودیتهای درخواستهای بدوننمونه و کمنمونه برای شرکتها، دشواری در استفاده از دادههای اختصاصی آنها است، که اغلب یک دارایی کلیدی به شمار میرود. اگر مدل مولد بزرگ باشد، تنظیم آن بر اساس دادههای سازمانی ممکن است بسیار پرهزینه شود. تکنیکهایی مانند تنظیم درخواستها (prompt-tuning) و آداپتورها به عنوان جایگزین مطرح شدهاند. این روشها امکان تطبیق مدل را بدون نیاز به تنظیم میلیاردها یا تریلیونها پارامتر آن فراهم میکنند. آنها با تقطیر دادههای (distilling) کاربر و وظیفه هدف به تعداد کمی پارامتر که در یک مدل بزرگ و ثابت وارد میشوند عمل میکنند. این پارامترها رفتار مدل را بدون تغییر مستقیم آن تعدیل میکنند.
روشهای تنظیم کارآمد پارامترها به کاربران اجازه میدهند که از مزایای یک مدل بزرگ پیشآموزشدیده همراه با دادههای اختصاصی خود بهرهمند شوند. مهندسی درخواست و تنظیم کارآمد پارامترها، مجموعهای قدرتمند از ابزارها را برای انجام وظایف مورد نظر کاربران بدون صرف وقت و هزینه روی راهحلهای سنتی یادگیری عمیق ارائه میدهند.
اخیراً، نظارت انسانی با همسو کردن رفتار مدلهای مولد با خواستههای ما، این مدلها را شکل داده است. همترازی (Alignment) به این ایده اشاره دارد که میتوانیم پاسخهای مدل مولد را به گونهای شکل دهیم که با آنچه میخواهیم ببینیم بهتر تطابق داشته باشند. یادگیری تقویتی از بازخورد انسانی (Reinforcement Learning from Human Feedback یا RLHF) یک روش همترازی است که توسط OpenAI مشهور شد و به مدلهایی مانند ChatGPT تواناییهای محاورهای شگفتآور شبیه انسان داده است. در RLHF، یک مدل مولد مجموعهای از پاسخهای پیشنهادی تولید میکند که توسط انسانها از نظر درستی ارزیابی میشوند. از طریق یادگیری تقویتی، مدل تنظیم میشود تا پاسخهایی شبیه به آنهایی که انسانها به عنوان باکیفیت ارزیابی کردهاند، ارائه دهد. این سبک آموزش منجر به سیستمی هوش مصنوعی میشود که میتواند متنی باکیفیت از دیدگاه انسان تولید کند.
هوش مصنوعی مولد و سمت و سوی آینده ی آن
تا بهحال، یک روند غالب در هوش مصنوعی مولد، مقیاس بوده است، به طوری که مدلهای بزرگتر که بر روی مجموعهدادههای در حال رشد آموزش دیدهاند، نتایج بهتری را ارائه میدهند. اکنون میتوان پیشبینی کرد که یک مدل جدید و بزرگتر چقدر قدرتمند خواهد بود، بر اساس اینکه مدلهای قبلی، چه از نظر اندازه بزرگتر باشند و چه بر روی دادههای بیشتر آموزش دیده باشند، چگونه مقیاسپذیر بودهاند. قوانین مقیاس به محققان هوش مصنوعی این امکان را میدهند که قبل از سرمایهگذاری در منابع محاسباتی عظیمی که برای آموزش این مدلها لازم است، پیشبینیهای معقولی در مورد عملکرد مدلهای بزرگتر انجام دهند.
در سوی دیگر، همچنان علاقه زیادی به قابلیتهای نوظهور وجود دارد که هنگام رسیدن مدل به یک اندازه خاص پدیدار میشود. این مهارتها تنها نتیجه معماری مدل نیستند، بلکه مقیاس آن نیز عامل مؤثری است. نمونههایی از این قابلیتها شامل نشانههایی از استدلال منطقی و توانایی دنبال کردن دستورات است. برخی آزمایشگاهها همچنان به آموزش مدلهای بزرگتر ادامه میدهند و در جستجوی این قابلیتهای نوظهور هستند.
با این حال، شواهد اخیر روند مدلهای بزرگتر را به چالش کشیده است. چندین گروه تحقیقاتی نشان دادهاند که مدلهای کوچکتر که بر روی دادههای خاصتری آموزش دیدهاند، اغلب میتوانند عملکرد بهتری نسبت به مدلهای بزرگتر و عمومیتر داشته باشند. به عنوان مثال، محققان استنفورد یک مدل نسبتاً کوچک، PubMedGPT 2.75B، را بر روی چکیدههای زیستپزشکی آموزش دادند و متوجه شدند که این مدل میتواند سوالات پزشکی را به طور قابل توجهی بهتر از یک مدل عمومی به همان اندازه پاسخ دهد. تحقیقات آنها نشان میدهد که مدلهای کوچکتر و تخصصیتر ممکن است زمانی که عملکرد خاص دامنه اهمیت دارد، انتخاب بهتری باشند.
وقتی به مشاوره خاص نیاز دارید، ممکن است بهتر باشد از یک کارشناس حوزه کمک بگیرید تا اینکه تلاش کنید از باهوشترین فردی که میشناسید کمک بخواهید. تخصص همچنین مزایای دیگری دارد؛ یک مدل کوچکتر بهطور قابل توجهی ارزانتر بوده و به واسطه مصرف انرژی کمتر کره زمین را هم کمتر آلوده میکند!
سوال این که آیا مدلهای مولد از آنچه امروز هستند در آینده بزرگتر خواهند شد یا کوچکتر، با روند نوظهور تقطیر مدلها پیچیدهتر شده است. گروهی از استنفورد بهتازگی سعی کردند قابلیتهای مدل زبان بزرگ OpenAI، GPT-3.5، را به چتبات Alpaca که بر اساس یک مدل خیلی کوچکتر ساخته شده بود، «تقطیر» کنند. محققان از GPT-3.5 خواستند که هزاران دستور و پاسخ جفتشده تولید کند و از طریق تنظیم دستورالعمل، از دادههای تولید شده توسط این هوش مصنوعی برای تزریق مهارتهای مکالمهای مشابه ChatGPT به Alpaca استفاده کردند. از آن زمان، تعدادی مدل مشابه با نامهایی مانند Vicuna و Dolly وارد اینترنت شدهاند.
روش Alpaca این سوال را مطرح میکند که آیا مدلهای بزرگ برای قابلیتهای نوظهور ضروری هستند یا خیر. برخی مدلها، مانند Dolly 2، حتی مرحله تقطیر را رد کرده و بهجای آن، دادههای دستورالعمل-پاسخ را بهطور مستقیم از انسانها جمعآوری میکنند. مجموع این وقایع نشان میدهد که ممکن است وارد دورهای شده باشیم که مدلهای فشردهتر برای انواع مختلف کاربردهای عملی کافی باشند.
هوش مصنوعی مولد پتانسیل عظیمی برای ایجاد قابلیتها و ارزشهای جدید برای کسبوکارها دارد. با این حال، همچنین میتواند ریسکهای جدیدی از جمله ریسکهای قانونی، مالی یا شهرتی به همراه داشته باشد. بسیاری از مدلهای مولد، از جمله مدلهایی که ChatGPT را قادر میسازند، میتوانند اطلاعاتی ارائه دهند که به نظر معتبر میآید اما حقیقت ندارد (که گاهی به آنها «توهمات» یا “hallucination” گفته میشود) یا اطلاعاتی که ناپسند و مغرضانه است. مدلهای مولد همچنین میتوانند به طور غیر عمدی اطلاعات شخصی یا دارای حق تکثیر را از دادههای آموزشی خود جذب کنند و سپس آنها را در خروجی خود بازتولید کنند، که چالشهای منحصر به فردی برای قوانین حریم خصوصی و مالکیت معنوی ایجاد میکند. حل این مسائل هنوز یک حوزه تحقیقاتی باز است…
توصیه میشود همچنین بخوانید:
منبع:
دیدگاهتان را بنویسید