هوش مصنوعی هم‌راستا (AI alignment) و هم‌راستا سازی چیست؟

هم‌راستا سازی یا AI alignment فرآیند رمزگذاری ارزش‌ها و اهداف انسانی در مدل‌های زبانی بزرگ (Large Language Models) است تا آن‌ها را تا حد امکان مفید، ایمن و قابل اعتماد سازد. از طریق هم‌راستا سازی، شرکت‌ها می‌توانند مدل‌های هوش مصنوعی را برای پیروی از قوانین و سیاست‌های کسب‌وکار خود تنظیم کنند.

یکی از چالشهای هوش مصنوعی این است که یک ربات نباید به یک انسان آسیب برساند یا اجازه دهد که به او آسیبی وارد شود. این قاعده بدیهی بیش از ۸۰ سال پیش توسط نویسنده‌ای به نام آیزاک آسیموف (Isaac Asimov) در یک داستان کوتاه مطرح شد. امروزه این قاعده به یک اصل راهنما برای آموزش دستیارهای رباتی تبدیل شده است تا ارزش‌ها و اهداف انسانی را پشتیبانی کنند.

حفظ کنترل بر هوش مصنوعی با ظهور هوش مصنوعی مولد (Generative AI) به یک حوزه محبوب تحقیقاتی تبدیل شده است. مدل‌های یادگیری عمیق که بر روی دیتاست‌هایی به بزرگی اینترنت پیش‌آموزش دیده‌اند، به‌گونه‌ای طراحی شده‌اند که روش ارتباط و خلق انسان‌ها را شبیه‌سازی کنند. چت‌بات‌هایی که از نوعی هوش مصنوعی مولد، مدل‌های زبانی بزرگ (LLM) قدرت گرفته‌اند، با توانایی‌شان در انجام مکالمات باز و حل وظایف پیچیده، جهان را شگفت‌زده کرده‌اند. اما وابستگی روزافزون ما به آن‌ها با ریسک‌هایی همراه است.

هم‌راستاسازی به منظور کاهش این ریسک‌ها و اطمینان از این است که دستیارهای هوش مصنوعی ما تا حد ممکن مفید، صادق و شفاف باشند. هم‌راستا سازی تلاش می‌کند تا عدم تطابق بین آموزش ریاضیاتی یک مدل زبانی بزرگ و مهارت‌های نرم (soft skills) که ما انسان‌ها در یک شریک مکالمه انتظار داریم، را حل کند.

مدل‌های زبانی بزرگ اساساً موتورهای پیش‌بینی کلمات هستند. سؤالی بپرسید و پاسخ، کلمه به کلمه ارائه می‌شود. اما برای اینکه این پاسخ‌ها مفید باشند، باید نه تنها دقیق، بلکه صادق، بی‌طرف و غیرمضر نیز باشند. هم‌راستا سازی این شکاف را پر می‌کند.

با این حال، این فرآیند کامل نیست. زیرا ارزش‌ها و اهداف انسانی به‌طور مداوم در حال تغییر هستند، هم‌راستا سازی نیز یک فرآیند دائمی است. هم‌راستا سازی همچنین موضوعی ذهنی است و شامل تصمیم‌گیری‌هایی درباره اینکه کدام ارزش‌ها اولویت دارند، می‌شود. اگر از یک چت‌بات بپرسید که چگونه یک بمب بسازید، ممکن است پاسخ آن شامل فهرستی مفید از دستورالعمل‌ها باشد یا به‌طور مؤدبانه از ارائه اطلاعات خطرناک امتناع کند. پاسخ آن بستگی به این دارد که سازندگانش چگونه آن را هم‌راستا کرده‌اند.

هم‌راستا سازی بیش از صرفاً تنظیم مدل برای حل یک وظیفه است. در واقع هم‌راستا سازی اطمینان حاصل می‌کند که مدل کاری را که شما می‌خواهید انجام دهد. البته از آنجایی که هیچ تابع هدف واضحی برای ایمنی و ارزش‌های انسانی وجود ندارد هم‌راستا سازی یک مسئله دشوار است.

یادگیری تقلیدی (Imitation learning)

هم‌راستا سازی در طی مرحله fine-tuning اتفاق می‌افتد، زمانی که یک مدل پایه یا بنیادی (foundation model) با نمونه‌هایی از وظیفه هدف تغذیه می‌شود، مستقل از اینکه این وظیفه چه باشد! چه خلاصه‌سازی نظرات حقوقی، چه دسته‌بندی اسپم/غیر اسپم، یا پاسخ به سوالات مشتری هم‌راستا سازی نیز باید آموزش داده شود.

هم‌راستا سازی معمولاً شامل دو مرحله است. در مرحله تنظیم با دستورالعمل (instruction-tuning)، مدل زبانی بزرگ (LLM) نمونه‌هایی از وظیفه هدف دریافت می‌کند تا با استفاده از آن‌ها یاد بگیرد. در مرحله انتقاد (critique phase)، یک انسان یا یک هوش مصنوعی دیگر با مدل تعامل می‌کند و پاسخ‌های آن را به‌صورت بلادرنگ ارزیابی می‌کند. اگر از یادگیری تقویتی (RL) برای اعمال این ترجیحات به مدل استفاده شود، این مرحله به یادگیری تقویتی با بازخورد انسانی (RLHF) یا بازخورد هوش مصنوعی (RLAIF) شناخته می‌شود.

مقدمه‌ای بر Reinforcement Learning و نقش آن در LLMها

در طول تنظیم با دستورالعمل، سوالات نمونه‌ای مانند «یک گزارش بنویس» با گزارش‌های واقعی جفت می‌شوند تا به مدل زبانی بزرگ مثال‌های متنوعی نشان داده شود. همچنین به مدل آموزش داده می‌شود که سوالات روشن‌کننده‌ای مانند «در چه موضوعی؟» بپرسد. از ده‌ها هزار جفت گفت‌وگو، مدل زبانی بزرگ یاد می‌گیرد چگونه دانش تعبیه‌شده در پارامترهایش را در سناریوهای جدید به کار گیرد.

پس از اینکه مدل زبانی بزرگ نوشتن گزارش را آموخت، بازخورد دقیق‌تری بر روی کارش دریافت می‌کند. برای هر پرسش، مدل دو پاسخ ارائه می‌دهد. یک ارزیاب — که می‌تواند یک انسان یا یک مدل زبانی بزرگ دیگر باشد — بهترین پاسخ را انتخاب می‌کند. این پاسخ‌های برتر به یک مدل پاداش (reward model) تغذیه می‌شوند که یاد می‌گیرد چگونه از آن‌ها تقلید کند. این ترجیحات معمولاً از طریق یک الگوریتم RL به نام بهینه‌سازی خط‌مشی نزدیک (PPO) به مدل زبانی بزرگ منتقل می‌شوند.

PPO به زبان ساده: چگونه هوش مصنوعی یاد می‌گیرد مثل ما فکر کند؟

داده‌های با کیفیت بالا برای هر دو مرحله حیاتی است. شما می‌توانید توضیح دهید که به دنبال چه لحنی هستید، سپس مدل خود را برای مطابقت با آن هم‌راستا کنید. اگر محصولات سرگرمی می‌فروشید، ممکن است یک چت‌بات شاداب و پرانرژی بخواهید. اما اگر یک شرکت بیمه هستید و بیشتر تعاملات شما با مشتریانی است که دچار خسارت شده‌اند، به چت‌باتی جدی و همدل نیاز دارید.

داده‌های مصنوعی برای هم‌راستا سازی شخصی‌سازی‌شده با هزینه پایین

یک ضرب‌المثل معروف است که میگه : “Garbage in, garbage out” یعنی زباله بدی زباله تحویل میگیری! این ضرب المثل که در زمینه تو زمینه هوش مصنوعی نیز کاملاً درست است. این ضرب‌المثل به اهمیت آموزش مدل‌های هوش مصنوعی با داده‌های ایمن و با کیفیت اشاره دارد و برای هم‌راستا سازی همانقدر صحیح است که برای پیش‌آموزش مدل نیاز است. ChatGPT شرکت OpenAI به همین دلیل عملکرد خوبی دارد که بر روی حجم زیادی از دستورالعمل‌ها و بازخوردهای برچسب‌گذاری‌شده توسط انسان آموزش دیده است. این مدل بیشتر از طریق میلیون‌ها نفر که آنلاین با آن تعامل کرده‌اند، بهبود یافته است.

مدل‌های محبوب Llama 2 شرکت Meta نیز بر روی داده‌های برچسب‌گذاری‌شده توسط انسان تنظیم شده‌اند: ۲۸,۰۰۰ نمونه و ۱.۴ میلیون نمونه ترجیحی. این مدل‌ها که در Hugging Face در دسترس هستند، برای شرکت‌ها قابل تنظیم هستند تا چت‌بات‌های خود را ایجاد کنند.

اما یک راه سریع‌تر برای ایجاد داده‌های دستورالعمل وجود دارد: از یک مدل زبانی بزرگ (LLM) بپرسید. داده‌های مصنوعی مزایای کلیدی دارند. مدل‌های زبانی می‌توانند به سرعت حجم زیادی از داده‌های گفت‌وگویی تولید کنند. و این داده‌ها می‌توانند برای وظیفه در دست و با ارزش‌های شخصی‌سازی‌شده تطبیق داده شوند. در نهایت، داده‌های مصنوعی می‌توانند منجر به مدل‌هایی شوند که بهتر هم‌راستا شده‌اند و هزینه کمتری دارند.

شرکت‌ها می‌توانند اصول شرکتی، ارزش‌های فرهنگی و موقعیت‌های جغرافیایی مختلف خود را رمزگذاری کنند و مدلی داشته باشند که با نیازهای تجاری آن‌ها هم‌راستا باشد. این مثل هم‌راستا سازی بر اساس انتخاب ماجراجویی خود است. به این ترتیب شما می‌توانید مدل را برای اهداف خود تنظیم کنید.

منبع:

https://research.ibm.com/blog/what-is-alignment-ai