هوش مصنوعی همراستا (AI alignment) و همترازی هوش مصنوعی چیست؟
همراستا سازی یا همترازی فرآیند رمزگذاری ارزشها و اهداف انسانی در مدلهای زبانی بزرگ (Large Language Models) است تا آنها را تا حد امکان مفید، ایمن و قابل اعتماد سازد. از طریق همراستا سازی، شرکتها میتوانند مدلهای هوش مصنوعی را برای پیروی از قوانین و سیاستهای کسبوکار خود تنظیم کنند.
یکی از چالشهای هوش مصنوعی این است که یک ربات نباید به یک انسان آسیب برساند یا اجازه دهد که به او آسیبی وارد شود. این قاعده بدیهی بیش از ۸۰ سال پیش توسط نویسندهای به نام آیزاک آسیموف (Isaac Asimov) در یک داستان کوتاه مطرح شد. امروزه این قاعده به یک اصل راهنما برای آموزش دستیارهای رباتی تبدیل شده است تا ارزشها و اهداف انسانی را پشتیبانی کنند.
حفظ کنترل بر هوش مصنوعی با ظهور هوش مصنوعی مولد (Generative AI) به یک حوزه محبوب تحقیقاتی تبدیل شده است. مدلهای یادگیری عمیق که بر روی دیتاستهایی به بزرگی اینترنت پیشآموزش دیدهاند، بهگونهای طراحی شدهاند که روش ارتباط و خلق انسانها را شبیهسازی کنند. چتباتهایی که از نوعی هوش مصنوعی مولد، مدلهای زبانی بزرگ (LLM) قدرت گرفتهاند، با تواناییشان در انجام مکالمات باز و حل وظایف پیچیده، جهان را شگفتزده کردهاند. اما وابستگی روزافزون ما به آنها با ریسکهایی همراه است.
همراستا سازی به منظور کاهش این ریسکها و اطمینان از این است که دستیارهای هوش مصنوعی ما تا حد ممکن مفید، صادق و شفاف باشند. همراستا سازی تلاش میکند تا عدم تطابق بین آموزش ریاضیاتی یک مدل زبانی بزرگ و مهارتهای نرم (soft skills) که ما انسانها در یک شریک مکالمه انتظار داریم، را حل کند.
مدلهای زبانی بزرگ اساساً موتورهای پیشبینی کلمات هستند. سؤالی بپرسید و پاسخ، کلمه به کلمه ارائه میشود. اما برای اینکه این پاسخها مفید باشند، باید نه تنها دقیق، بلکه صادق، بیطرف و غیرمضر نیز باشند. همراستا سازی این شکاف را پر میکند.
با این حال، این فرآیند کامل نیست. زیرا ارزشها و اهداف انسانی بهطور مداوم در حال تغییر هستند، همراستا سازی نیز یک فرآیند دائمی است. همراستا سازی همچنین موضوعی ذهنی است و شامل تصمیمگیریهایی درباره اینکه کدام ارزشها اولویت دارند، میشود. اگر از یک چتبات بپرسید که چگونه یک بمب بسازید، ممکن است پاسخ آن شامل فهرستی مفید از دستورالعملها باشد یا بهطور مؤدبانه از ارائه اطلاعات خطرناک امتناع کند. پاسخ آن بستگی به این دارد که سازندگانش چگونه آن را همراستا کردهاند.
همراستا سازی بیش از صرفاً تنظیم مدل برای حل یک وظیفه است. در واقع همراستا سازی اطمینان حاصل میکند که مدل کاری را که شما میخواهید انجام دهد. البته از آنجایی که هیچ تابع هدف واضحی برای ایمنی و ارزشهای انسانی وجود ندارد همراستا سازی یک مسئله دشوار است.
یادگیری تقلیدی (Imitation learning)
همراستا سازی در طی مرحله fine-tuning اتفاق میافتد، زمانی که یک مدل پایه یا بنیادی (foundation model) با نمونههایی از وظیفه هدف تغذیه میشود، مستقل از اینکه این وظیفه چه باشد! چه خلاصهسازی نظرات حقوقی، چه دستهبندی اسپم/غیر اسپم، یا پاسخ به سوالات مشتری همراستا سازی نیز باید آموزش داده شود.
همراستا سازی معمولاً شامل دو مرحله است. در مرحله تنظیم با دستورالعمل (instruction-tuning)، مدل زبانی بزرگ (LLM) نمونههایی از وظیفه هدف دریافت میکند تا با استفاده از آنها یاد بگیرد. در مرحله انتقاد (critique phase)، یک انسان یا یک هوش مصنوعی دیگر با مدل تعامل میکند و پاسخهای آن را بهصورت بلادرنگ ارزیابی میکند. اگر از یادگیری تقویتی (RL) برای اعمال این ترجیحات به مدل استفاده شود، این مرحله به یادگیری تقویتی با بازخورد انسانی (RLHF) یا بازخورد هوش مصنوعی (RLAIF) شناخته میشود.
در طول تنظیم با دستورالعمل، سوالات نمونهای مانند «یک گزارش بنویس» با گزارشهای واقعی جفت میشوند تا به مدل زبانی بزرگ مثالهای متنوعی نشان داده شود. همچنین به مدل آموزش داده میشود که سوالات روشنکنندهای مانند «در چه موضوعی؟» بپرسد. از دهها هزار جفت گفتوگو، مدل زبانی بزرگ یاد میگیرد چگونه دانش تعبیهشده در پارامترهایش را در سناریوهای جدید به کار گیرد.
پس از اینکه مدل زبانی بزرگ نوشتن گزارش را آموخت، بازخورد دقیقتری بر روی کارش دریافت میکند. برای هر پرسش، مدل دو پاسخ ارائه میدهد. یک ارزیاب — که میتواند یک انسان یا یک مدل زبانی بزرگ دیگر باشد — بهترین پاسخ را انتخاب میکند. این پاسخهای برتر به یک مدل پاداش (reward model) تغذیه میشوند که یاد میگیرد چگونه از آنها تقلید کند. این ترجیحات معمولاً از طریق یک الگوریتم RL به نام بهینهسازی خطمشی مجاور (PPO) به مدل زبانی بزرگ منتقل میشوند.
دادههای با کیفیت بالا برای هر دو مرحله حیاتی است. شما میتوانید توضیح دهید که به دنبال چه لحنی هستید، سپس مدل خود را برای مطابقت با آن همراستا کنید. اگر محصولات سرگرمی میفروشید، ممکن است یک چتبات شاداب و پرانرژی بخواهید. اما اگر یک شرکت بیمه هستید و بیشتر تعاملات شما با مشتریانی است که دچار خسارت شدهاند، به چتباتی جدی و همدل نیاز دارید.
دادههای مصنوعی برای همراستا سازی شخصیسازیشده با هزینه پایین
یک ضربالمثل معروف است که میگه : “Garbage in, garbage out” یعنی زباله بدی زباله تحویل میگیری! این ضرب المثل که در زمینه تو زمینه هوش مصنوعی نیز کاملاً درست است. این ضربالمثل به اهمیت آموزش مدلهای هوش مصنوعی با دادههای ایمن و با کیفیت اشاره دارد و برای همراستا سازی همانقدر صحیح است که برای پیشآموزش مدل نیاز است. ChatGPT شرکت OpenAI به همین دلیل عملکرد خوبی دارد که بر روی حجم زیادی از دستورالعملها و بازخوردهای برچسبگذاریشده توسط انسان آموزش دیده است. این مدل بیشتر از طریق میلیونها نفر که آنلاین با آن تعامل کردهاند، بهبود یافته است.
مدلهای محبوب Llama 2 شرکت Meta نیز بر روی دادههای برچسبگذاریشده توسط انسان تنظیم شدهاند: ۲۸,۰۰۰ نمونه و ۱.۴ میلیون نمونه ترجیحی. این مدلها که در Hugging Face در دسترس هستند، برای شرکتها قابل تنظیم هستند تا چتباتهای خود را ایجاد کنند.
اما یک راه سریعتر برای ایجاد دادههای دستورالعمل وجود دارد: از یک مدل زبانی بزرگ (LLM) بپرسید. دادههای مصنوعی مزایای کلیدی دارند. مدلهای زبانی میتوانند به سرعت حجم زیادی از دادههای گفتوگویی تولید کنند. و این دادهها میتوانند برای وظیفه در دست و با ارزشهای شخصیسازیشده تطبیق داده شوند. در نهایت، دادههای مصنوعی میتوانند منجر به مدلهایی شوند که بهتر همراستا شدهاند و هزینه کمتری دارند.
شرکتها میتوانند اصول شرکتی، ارزشهای فرهنگی و موقعیتهای جغرافیایی مختلف خود را رمزگذاری کنند و مدلی داشته باشند که با نیازهای تجاری آنها همراستا باشد. این مثل همراستا سازی بر اساس انتخاب ماجراجویی خود است. به این ترتیب شما میتوانید مدل را برای اهداف خود تنظیم کنید.
منبع:
دیدگاهتان را بنویسید