هوش مصنوعی قانونمند

هوش مصنوعی قانونمند: ایمنی از طریق بازخورد هوش مصنوعی

هوش مصنوعی قانونمند (CAI) رویکردی توسط Anthropic برای آموزش سیستم‌های هوش مصنوعی است که مفید، صادق و بی‌ضرر باشند، بدون اینکه به برچسب‌های بازخورد انسانی برای بی‌ضرر بودن متکی باشند. CAI از مجموعه‌ای از اصول زبان طبیعی برای هدایت رفتار و خودبهبودی هوش مصنوعی استفاده می‌کند. این روش شامل دو مرحله است:

مرحله یادگیری نظارت شده: جایی که هوش مصنوعی پاسخ‌های خود را بر اساس اصول نقد و اصلاح می‌کند
مرحله یادگیری تقویتی: جایی که هوش مصنوعی از بازخورد خود بر اساس اصول یاد می‌گیرد

CAI امکان آموزش یک دستیار هوش مصنوعی بی‌ضرر اما غیر گریزان را فراهم می‌کند که با پرسش‌های مضر با توضیح اعتراضات خود به آنها درگیر می‌شود.

مراحل اصلی CAI

مراحل اساسی CAI در این بخش توضیح داده شده و در شکل زیر نشان داده شده است:

مرحله نظارت شده (نقد → اصلاح → یادگیری نظارت شده):

هوش مصنوعی با استفاده از یک دستیار هوش مصنوعی فقط مفید، پاسخ‌هایی به پرسش‌های مضر تولید می‌کند
سپس پاسخ‌های خود را بر اساس اصلی در قانون اساسی نقد و اصلاح می‌کند
مدل اصلی را بر روی پاسخ‌های اصلاح شده تنظیم دقیق می‌کند

مرحله یادگیری تقویتی (ارزیابی‌های مقایسه‌ای هوش مصنوعی → مدل پاداش → یادگیری تقویتی):

هوش مصنوعی با استفاده از مدل تنظیم دقیق شده، جفت پاسخ‌هایی به پرسش‌های مضر تولید می‌کند
سپس ارزیابی می‌کند که کدام پاسخ بر اساس اصلی در قانون اساسی بهتر است
یک مدل پاداش را بر اساس این مجموعه داده از ترجیحات هوش مصنوعی و ترجیحات مفید بودن انسانی آموزش می‌دهد
سپس هوش مصنوعی با استفاده از مدل پاداش آموخته شده با یادگیری تقویتی آموزش می‌بیند

نقدها، اصلاحات و بازخورد بی‌ضرر بودن هوش مصنوعی توسط مجموعه کوچکی از اصول برگرفته از یک “قانون اساسی” هدایت می‌شوند. مرحله نظارت شده به طور قابل توجهی مدل اولیه را بهبود می‌بخشد. این کار کنترلی بر رفتار اولیه در شروع فاز یادگیری تقویتی می‌دهد، در حالی که مشکلات اکتشافی احتمالی را برطرف می‌کند. مرحله یادگیری تقویتی به طور قابل توجهی عملکرد و قابلیت اطمینان را بهبود می‌بخشد.

انگیزه

انگیزه هوش مصنوعی قانونمند به طراحی سیستم‌های هوش مصنوعی به گونه‌ای اشاره دارد که اهداف و رفتارهای آنها توسط مجموعه‌ای از قوانین یا اصول از پیش تعریف شده هدایت شود. این شامل موارد زیر است:

مقیاس‌پذیری نظارت: استفاده از هوش مصنوعی برای کمک به انسان‌ها در نظارت بر سایر هوش‌های مصنوعی به صورت کارآمدتر و موثرتر، به ویژه برای وظایفی که قابلیت‌های هوش مصنوعی ممکن است از انسان فراتر رود.
دستیار بی‌ضرر اما غیر گریزان: به حداقل رساندن تنش بین مفید بودن و بی‌ضرر بودن، و اجتناب از پاسخ‌های گریزان که شفافیت و مفید بودن را کاهش می‌دهند.
سادگی و شفافیت: رمزگذاری اهداف آموزشی در یک لیست ساده از دستورالعمل‌ها یا اصول زبان طبیعی، و استفاده از استدلال زنجیره‌ای فکر برای صریح و قابل درک کردن تصمیم‌گیری هوش مصنوعی.
کاهش زمان تکرار: حذف نیاز به جمع‌آوری برچسب‌های بازخورد انسانی جدید هنگام اصلاح اهداف یا آزمایش رفتارهای مختلف.

منبع: https://docs.nvidia.com/nemo-framework/user-guide/latest/modelalignment/cai.html