هوش مصنوعی قانونمند

هوش مصنوعی قانونمند: ایمنی از طریق بازخورد هوش مصنوعی
هوش مصنوعی قانونمند (CAI) رویکردی توسط Anthropic برای آموزش سیستمهای هوش مصنوعی است که مفید، صادق و بیضرر باشند، بدون اینکه به برچسبهای بازخورد انسانی برای بیضرر بودن متکی باشند. CAI از مجموعهای از اصول زبان طبیعی برای هدایت رفتار و خودبهبودی هوش مصنوعی استفاده میکند. این روش شامل دو مرحله است:
- مرحله یادگیری نظارت شده: جایی که هوش مصنوعی پاسخهای خود را بر اساس اصول نقد و اصلاح میکند
- مرحله یادگیری تقویتی: جایی که هوش مصنوعی از بازخورد خود بر اساس اصول یاد میگیرد
CAI امکان آموزش یک دستیار هوش مصنوعی بیضرر اما غیر گریزان را فراهم میکند که با پرسشهای مضر با توضیح اعتراضات خود به آنها درگیر میشود.
مراحل اصلی CAI
مراحل اساسی CAI در این بخش توضیح داده شده و در شکل زیر نشان داده شده است:
مرحله نظارت شده (نقد → اصلاح → یادگیری نظارت شده):
- هوش مصنوعی با استفاده از یک دستیار هوش مصنوعی فقط مفید، پاسخهایی به پرسشهای مضر تولید میکند
- سپس پاسخهای خود را بر اساس اصلی در قانون اساسی نقد و اصلاح میکند
- مدل اصلی را بر روی پاسخهای اصلاح شده تنظیم دقیق میکند
مرحله یادگیری تقویتی (ارزیابیهای مقایسهای هوش مصنوعی → مدل پاداش → یادگیری تقویتی):
- هوش مصنوعی با استفاده از مدل تنظیم دقیق شده، جفت پاسخهایی به پرسشهای مضر تولید میکند
- سپس ارزیابی میکند که کدام پاسخ بر اساس اصلی در قانون اساسی بهتر است
- یک مدل پاداش را بر اساس این مجموعه داده از ترجیحات هوش مصنوعی و ترجیحات مفید بودن انسانی آموزش میدهد
- سپس هوش مصنوعی با استفاده از مدل پاداش آموخته شده با یادگیری تقویتی آموزش میبیند
نقدها، اصلاحات و بازخورد بیضرر بودن هوش مصنوعی توسط مجموعه کوچکی از اصول برگرفته از یک “قانون اساسی” هدایت میشوند. مرحله نظارت شده به طور قابل توجهی مدل اولیه را بهبود میبخشد. این کار کنترلی بر رفتار اولیه در شروع فاز یادگیری تقویتی میدهد، در حالی که مشکلات اکتشافی احتمالی را برطرف میکند. مرحله یادگیری تقویتی به طور قابل توجهی عملکرد و قابلیت اطمینان را بهبود میبخشد.
انگیزه
انگیزه هوش مصنوعی قانونمند به طراحی سیستمهای هوش مصنوعی به گونهای اشاره دارد که اهداف و رفتارهای آنها توسط مجموعهای از قوانین یا اصول از پیش تعریف شده هدایت شود. این شامل موارد زیر است:
- مقیاسپذیری نظارت: استفاده از هوش مصنوعی برای کمک به انسانها در نظارت بر سایر هوشهای مصنوعی به صورت کارآمدتر و موثرتر، به ویژه برای وظایفی که قابلیتهای هوش مصنوعی ممکن است از انسان فراتر رود.
- دستیار بیضرر اما غیر گریزان: به حداقل رساندن تنش بین مفید بودن و بیضرر بودن، و اجتناب از پاسخهای گریزان که شفافیت و مفید بودن را کاهش میدهند.
- سادگی و شفافیت: رمزگذاری اهداف آموزشی در یک لیست ساده از دستورالعملها یا اصول زبان طبیعی، و استفاده از استدلال زنجیرهای فکر برای صریح و قابل درک کردن تصمیمگیری هوش مصنوعی.
- کاهش زمان تکرار: حذف نیاز به جمعآوری برچسبهای بازخورد انسانی جدید هنگام اصلاح اهداف یا آزمایش رفتارهای مختلف.
منبع: https://docs.nvidia.com/nemo-framework/user-guide/latest/modelalignment/cai.html
دیدگاهتان را بنویسید