مدل هوش مصنوعی چیست؟

مدل هوش مصنوعی (AI model) برنامه‌ای است که روی مجموعه‌ای از داده‌ها آموزش دیده تا الگوهای خاصی را تشخیص دهد یا تصمیمات معینی را بدون دخالت بیشتر انسان اتخاذ کند. مدل‌های هوش مصنوعی الگوریتم‌های مختلفی را روی داده‌های ورودی مرتبط اعمال می‌کنند تا به وظایف یا خروجی‌هایی که برای آن‌ها برنامه‌ریزی شده‌اند، دست یابند.

به زبان ساده، مدل هوش مصنوعی با توانایی‌اش در تصمیم‌گیری یا پیش‌بینی خودکار تعریف می‌شود، نه با شبیه‌سازی هوش انسانی. از جمله اولین مدل‌های موفق هوش مصنوعی، برنامه‌های بازی چکرز و شطرنج در اوایل دهه ۱۹۵۰ بودند: این مدل‌ها به برنامه‌ها امکان می‌دادند تا مستقیماً در پاسخ به حرکت حریف انسانی واکنش نشان دهند، به جای اینکه از یک سری حرکات از پیش تعیین شده پیروی کنند.

انواع مختلف مدل‌های هوش مصنوعی برای وظایف یا حوزه‌های خاصی مناسب‌تر هستند که منطق تصمیم‌گیری خاص آن‌ها مفیدتر یا مرتبط‌تر است. سیستم‌های پیچیده اغلب به طور همزمان از چندین مدل استفاده می‌کنند و از تکنیک‌های یادگیری ترکیبی (ensemble learning) مانند bagging، boosting یا stacking بهره می‌برند.

با پیچیده‌تر و انعطاف‌پذیرتر شدن ابزارهای هوش مصنوعی، آن‌ها به مقادیر چالش‌برانگیز بیشتری از داده و قدرت محاسباتی برای آموزش و اجرا نیاز دارند. در پاسخ به این نیاز، سیستم‌هایی که برای اجرای وظایف خاص در یک حوزه طراحی شده‌اند، جای خود را به مدل‌های پایه (foundation models) می‌دهند که روی مجموعه‌های بزرگ داده‌های بدون برچسب پیش‌آموزش دیده‌اند و قابلیت کاربردهای گسترده‌ای دارند. این مدل‌های پایه انعطاف‌پذیر سپس می‌توانند برای وظایف خاص fine-tune شوند.

تفاوت الگوریتم‌ها و مدل‌ها

هرچند این دو اصطلاح در این زمینه اغلب به جای یکدیگر استفاده می‌شوند، اما دقیقاً یک معنا ندارند.

الگوریتم‌ها فرآیندهایی هستند که اغلب به زبان ریاضی یا شبه‌کد توصیف می‌شوند و برای دستیابی به یک عملکرد یا هدف خاص روی یک مجموعه داده اعمال می‌شوند.
مدل‌ها خروجی الگوریتمی هستند که روی یک مجموعه داده اعمال شده است.

به زبان ساده، یک مدل AI برای پیش‌بینی یا تصمیم‌گیری استفاده می‌شود و یک الگوریتم منطق اصلی است که مدل AI بر اساس آن عمل می‌کند.

مدل‌های AI و یادگیری ماشین

مدل‌های AI می‌توانند تصمیم‌گیری را خودکار کنند، اما تنها مدل‌هایی که قابلیت یادگیری ماشین (ML) دارند قادرند به صورت خودمختار عملکرد خود را در طول زمان بهینه کنند.

در حالی که همه مدل‌های ML نوعی AI هستند، همه AI‌ها شامل یادگیری ماشین نمی‌شوند. ابتدایی‌ترین مدل‌های AI مجموعه‌ای از عبارات if-then-else هستند که قوانین آن‌ها به صورت صریح توسط دانشمند داده برنامه‌ریزی شده است. این مدل‌ها با نام‌های دیگری مانند موتورهای قانون‌محور، سیستم‌های خبره، گراف‌های دانش یا AI نمادین شناخته می‌شوند.

مدل‌های یادگیری ماشین از AI آماری به جای AI نمادین استفاده می‌کنند. در حالی که مدل‌های AI قانون‌محور باید به صورت صریح برنامه‌ریزی شوند، مدل‌های ML با اعمال چارچوب‌های ریاضی خود روی یک مجموعه داده نمونه “آموزش داده می‌شوند”. نقاط داده در این مجموعه، مبنای پیش‌بینی‌های آینده مدل در دنیای واقعی هستند.

تکنیک‌های مدل ML به طور کلی به سه دسته اصلی تقسیم می‌شوند:

یادگیری نظارت‌شده (Supervised Learning):
که به عنوان یادگیری ماشین “کلاسیک” شناخته می‌شود، نیاز به یک متخصص انسانی دارد تا داده‌های آموزشی را برچسب‌گذاری کند. برای مثال، یک دانشمند داده که یک مدل تشخیص تصویر را برای شناسایی سگ‌ها و گربه‌ها آموزش می‌دهد باید تصاویر نمونه را با برچسب‌هایی مانند “سگ” یا “گربه” مشخص کند و همچنین ویژگی‌های کلیدی مانند اندازه، شکل یا خز که این برچسب‌های اصلی را مشخص می‌کنند. سپس مدل می‌تواند در طول آموزش از این برچسب‌ها برای استنتاج ویژگی‌های بصری معمولی سگ‌ها و گربه‌ها استفاده کند.
یادگیری بدون نظارت (Unsupervised Learning):
برخلاف روش‌های یادگیری نظارت‌شده، یادگیری بدون نظارت فرض نمی‌کند که پاسخ‌های “درست” یا “غلط” از قبل وجود دارند و بنابراین نیازی به برچسب‌گذاری ندارد. این الگوریتم‌ها الگوهای ذاتی در مجموعه داده‌ها را شناسایی می‌کنند تا نقاط داده را به گروه‌هایی دسته‌بندی کنند و پیش‌بینی‌ها را اطلاع دهند. به عنوان مثال، کسب‌وکارهای تجارت الکترونیک مانند آمازون از مدل‌های ارتباطی بدون نظارت برای ارائه پیشنهادات در موتورهای توصیه استفاده می‌کنند.
یادگیری تقویتی (Reinforcement Learning):
در یادگیری تقویتی، یک مدل به صورت کلی از طریق آزمون و خطا یاد می‌گیرد و با پاداش دادن به خروجی‌های درست (یا جریمه کردن خروجی‌های نادرست) بهینه می‌شود. مدل‌های تقویتی برای پیشنهادات شبکه‌های اجتماعی، معاملات الگوریتمی سهام، و حتی خودروهای خودران استفاده می‌شوند.

یادگیری عمیق (Deep Learning)

یادگیری عمیق زیرمجموعه‌ای پیشرفته‌تر از یادگیری بدون نظارت است که ساختار شبکه‌های عصبی آن تلاش می‌کند تا ساختار مغز انسان را شبیه‌سازی کند. لایه‌های متعدد از گره‌های به‌هم‌پیوسته به تدریج داده‌ها را دریافت می‌کنند، ویژگی‌های کلیدی را استخراج می‌کنند، روابط را شناسایی می‌کنند و تصمیمات را در فرایندی به نام Forward Propagation اصلاح می‌کنند. فرایند دیگری به نام Backpropagation مدل‌هایی را اعمال می‌کند که خطاها را محاسبه کرده و وزن‌ها و بایاس‌های سیستم را تنظیم می‌کنند. بیشتر برنامه‌های پیشرفته AI، مانند مدل‌های زبانی بزرگ (LLM) که چت‌بات‌های مدرن را قدرت می‌بخشند، از یادگیری عمیق استفاده می‌کنند. این روش نیازمند منابع محاسباتی بسیار زیادی است.

مدل‌های مولد در مقابل مدل‌های تمایزی

یکی از روش‌های تفکیک مدل‌های یادگیری ماشین، بررسی روش‌شناسی بنیادی آن‌ها است. بیشتر مدل‌ها را می‌توان به دو دسته مولد یا تمایزی تقسیم کرد. تفاوت این دو در نحوه مدل‌سازی داده‌ها در فضای مشخصی است.

مدل‌های مولد (Generative Models)

مدل‌های مولد، که معمولاً شامل یادگیری بدون نظارت هستند، توزیع نقاط داده را مدل‌سازی کرده و هدفشان پیش‌بینی احتمال مشترک P(x,y) برای ظاهر شدن یک نقطه داده خاص در یک فضای مشخص است. برای مثال، یک مدل مولد در حوزه بینایی کامپیوتری ممکن است همبستگی‌هایی مانند “چیزهایی که شبیه ماشین هستند معمولاً چهار چرخ دارند” یا “چشم‌ها بعید است بالای ابروها ظاهر شوند” را شناسایی کند.

این پیش‌بینی‌ها می‌توانند به تولید خروجی‌هایی که مدل آن‌ها را بسیار محتمل می‌داند کمک کنند. به عنوان مثال، یک مدل مولد آموزش‌دیده بر داده‌های متنی می‌تواند پیشنهادات املا یا تکمیل خودکار را ارائه دهد؛ در پیچیده‌ترین سطح، حتی می‌تواند متن کاملاً جدید تولید کند. به طور خلاصه، زمانی که یک مدل زبانی بزرگ (LLM) متن تولید می‌کند، احتمال بالایی برای ترتیب خاصی از کلمات در پاسخ به ورودی داده‌شده محاسبه کرده است.

کاربردهای رایج مدل‌های مولد

کاربردهای رایج مدل‌های مولد شامل تولید تصویر، ساخت موسیقی، انتقال سبک و ترجمه زبان می‌شوند.

مثال‌هایی از مدل‌های مولد:

مدل‌های انتشار (Diffusion Models):
این مدل‌ها به تدریج نویز گوسی را به داده‌های آموزشی اضافه می‌کنند تا داده‌ها غیرقابل تشخیص شوند و سپس فرآیند معکوس “کاهش نویز” را یاد می‌گیرند که می‌تواند خروجی (معمولاً تصاویر) را از نویز تصادفی تولید کند.
خودرمزگذارهای تنوعی (Variational Autoencoders یا VAEs):
VAEs شامل یک رمزگذار هستند که داده‌های ورودی را فشرده‌سازی می‌کند و یک رمزگشا که فرآیند را معکوس کرده و توزیع احتمالی داده‌های محتمل را مدل‌سازی می‌کند.
مدل‌های ترانسفورمر (Transformer Models):
مدل‌های ترانسفورمر از تکنیک‌های ریاضی به نام توجه (Attention) یا توجه به خود (Self-Attention) استفاده می‌کنند تا مشخص کنند چگونه عناصر مختلف در یک سری داده بر یکدیگر تأثیر می‌گذارند. به عنوان مثال، “GPT” در Chat-GPT شرکت OpenAI مخفف Generative Pretrained Transformer است.

مدل‌های تمایزی (Discriminative Models)

مدل‌های تمایزی، که معمولاً شامل یادگیری نظارت‌شده هستند، مرزهای بین کلاس‌های داده (یا “مرزهای تصمیم‌گیری”) را مدل‌سازی می‌کنند. هدف این مدل‌ها پیش‌بینی احتمال شرطی P(y|x) است، یعنی احتمال اینکه یک نقطه داده مشخص (x) به یک کلاس خاص (y) تعلق داشته باشد.

برای مثال، یک مدل تمایزی در حوزه بینایی کامپیوتری ممکن است تفاوت بین “ماشین” و “غیرماشین” را از طریق شناسایی تفاوت‌های کلیدی یاد بگیرد (مانند “اگر چرخ نداشته باشد، ماشین نیست”) و به این ترتیب می‌تواند بسیاری از همبستگی‌هایی که یک مدل مولد باید بررسی کند را نادیده بگیرد. به همین دلیل، مدل‌های تمایزی معمولاً به قدرت محاسباتی کمتری نیاز دارند.

کاربرد مدل‌های تمایزی

مدل‌های تمایزی به طور طبیعی برای وظایف طبقه‌بندی مانند تحلیل احساسات مناسب هستند، اما کاربردهای زیادی دارند.
برای مثال:

درخت تصمیم‌گیری و مدل‌های جنگل تصادفی فرآیندهای پیچیده تصمیم‌گیری را به مجموعه‌ای از گره‌ها تقسیم می‌کنند که هر “برگ” نشان‌دهنده یک تصمیم بالقوه برای طبقه‌بندی است.

موارد استفاده

در حالی که مدل‌های تمایزی یا مولد ممکن است به طور کلی در موارد خاص دنیای واقعی عملکرد بهتری نسبت به یکدیگر داشته باشند، بسیاری از وظایف را می‌توان با هر دو نوع مدل انجام داد.
برای مثال:

مدل‌های تمایزی کاربردهای زیادی در پردازش زبان طبیعی (NLP) دارند و اغلب در وظایفی مانند ترجمه ماشین (که مستلزم تولید متن ترجمه‌شده است) عملکرد بهتری نسبت به AI مولد دارند.

به همین ترتیب، مدل‌های مولد می‌توانند برای طبقه‌بندی با استفاده از قضیه بیز به کار روند.
به جای تعیین اینکه یک نمونه در کدام طرف مرز تصمیم قرار دارد (مانند مدل تمایزی)، مدل مولد می‌تواند احتمال تولید نمونه توسط هر کلاس را تعیین کرده و کلاس با احتمال بالاتر را انتخاب کند.

ترکیب مدل‌های مولد و تمایزی

بسیاری از سیستم‌های AI از هر دو نوع مدل به صورت ترکیبی استفاده می‌کنند.
برای مثال:

در یک شبکه مولد تخاصمی (Generative Adversarial Network یا GAN):

یک مدل مولد داده‌های نمونه تولید می‌کند.
یک مدل تمایزی تعیین می‌کند که آیا آن داده‌ها “واقعی” هستند یا “جعلی”.
خروجی مدل تمایزی برای آموزش مدل مولد استفاده می‌شود تا زمانی که مدل تمایزی دیگر نتواند داده‌های “جعلی” تولیدشده را تشخیص دهد.

مدل‌های طبقه‌بندی در مقابل مدل‌های رگرسیون

یکی دیگر از روش‌های دسته‌بندی مدل‌ها، ماهیت وظایفی است که برای آن‌ها استفاده می‌شوند. بیشتر الگوریتم‌های کلاسیک مدل‌های AI یا طبقه‌بندی انجام می‌دهند یا رگرسیون. برخی مدل‌ها برای هر دو مناسب هستند، و بیشتر مدل‌های پایه از هر دو نوع عملکرد بهره می‌برند.

این اصطلاحات گاهی ممکن است باعث سردرگمی شوند. برای مثال، رگرسیون لجستیک یک مدل تمایزی است که برای طبقه‌بندی استفاده می‌شود.

مدل‌های رگرسیون (Regression Models)

مدل‌های رگرسیون مقادیر پیوسته را پیش‌بینی می‌کنند (مانند قیمت، سن، اندازه یا زمان). این مدل‌ها عمدتاً برای تعیین رابطه بین یک یا چند متغیر مستقل (x) و یک متغیر وابسته (y) استفاده می‌شوند: با داشتن x، مقدار y را پیش‌بینی کنید.

نمونه‌هایی از الگوریتم‌های رگرسیون:

رگرسیون خطی و انواع مرتبط مانند رگرسیون کوانتیل:
- کاربرد: پیش‌بینی، تحلیل کشش قیمت، و ارزیابی ریسک.
رگرسیون چندجمله‌ای و رگرسیون بردار پشتیبان (SVR):
- مدل‌سازی روابط پیچیده غیرخطی بین متغیرها.
مدل‌های مولد مانند خودرگرسیون و خودرمزگذارهای تنوعی (VAEs):
- این مدل‌ها علاوه بر روابط همبستگی بین مقادیر گذشته و آینده، روابط علّی را نیز در نظر می‌گیرند.
- کاربرد: پیش‌بینی سناریوهای آب و هوایی و رویدادهای شدید اقلیمی.

مدل‌های طبقه‌بندی (Classification Models)

مدل‌های طبقه‌بندی مقادیر گسسته را پیش‌بینی می‌کنند. این مدل‌ها عمدتاً برای تعیین یک برچسب مناسب یا دسته‌بندی (یعنی طبقه‌بندی) استفاده می‌شوند.
این طبقه‌بندی می‌تواند باینری باشد—مانند “بله یا خیر”، “پذیرش یا رد”—یا چندکلاسه (مانند موتور توصیه که محصول A، B، C یا D را پیشنهاد می‌دهد).

کاربردها:

الگوریتم‌های طبقه‌بندی برای وظایف مختلفی استفاده می‌شوند، از دسته‌بندی ساده گرفته تا استخراج ویژگی‌های خودکار در شبکه‌های یادگیری عمیق، تا پیشرفت‌های پزشکی مانند طبقه‌بندی تصاویر تشخیصی در رادیولوژی.

نمونه‌هایی از الگوریتم‌های طبقه‌بندی:

Naïve Bayes:
- الگوریتم مولد نظارت‌شده که معمولاً در فیلتر کردن اسپم و طبقه‌بندی اسناد استفاده می‌شود.
تحلیل تمایز خطی (Linear Discriminant Analysis):
- برای حل تناقضات ناشی از همپوشانی بین ویژگی‌های متعدد که بر طبقه‌بندی تأثیر می‌گذارند.
رگرسیون لجستیک:
- پیش‌بینی احتمالات پیوسته که به عنوان جایگزین برای محدوده‌های طبقه‌بندی استفاده می‌شوند.

آموزش مدل‌های AI

فرآیند یادگیری در یادگیری ماشین از طریق آموزش مدل‌ها با مجموعه داده‌های نمونه انجام می‌شود. روندها و همبستگی‌های احتمالی شناسایی‌شده در این مجموعه‌های نمونه سپس برای عملکرد سیستم اعمال می‌شوند.

یادگیری نظارت‌شده و نیمه‌نظارت‌شده:

داده‌های آموزشی باید توسط دانشمندان داده با دقت برچسب‌گذاری شوند تا نتایج بهینه شوند.
در صورت استخراج ویژگی‌های مناسب، یادگیری نظارت‌شده به طور کلی به مقدار کمتری داده آموزشی نسبت به یادگیری بدون نظارت نیاز دارد.

داده‌های واقعی:

مدل‌های ML در حالت ایده‌آل باید با داده‌های دنیای واقعی آموزش داده شوند. این روش به طور شهودی بهترین تضمین را برای انعکاس شرایط دنیای واقعی که مدل برای تحلیل یا شبیه‌سازی آن طراحی شده، فراهم می‌کند.
اما تکیه صرف بر داده‌های واقعی همیشه ممکن، عملی یا بهینه نیست.

افزایش اندازه و پیچیدگی مدل‌ها

هرچه یک مدل پارامترهای بیشتری داشته باشد، به داده‌های بیشتری برای آموزش نیاز دارد. با افزایش اندازه مدل‌های یادگیری عمیق، جمع‌آوری این داده‌ها دشوارتر می‌شود.
این موضوع به‌ویژه در مدل‌های زبانی بزرگ (LLMs) مشهود است:

مدل‌های GPT-3 شرکت OpenAI و BLOOM منبع‌باز هر دو بیش از 175 میلیارد پارامتر دارند.

مشکلات داده‌های عمومی:

استفاده از داده‌های عمومی، علی‌رغم راحتی آن، می‌تواند مشکلات نظارتی ایجاد کند—مانند زمانی که داده‌ها باید ناشناس شوند—و همچنین مشکلات عملی.
برای مثال: مدل‌های زبانی که بر اساس پست‌های شبکه‌های اجتماعی آموزش داده شده‌اند ممکن است عادت‌ها یا نادرستی‌هایی را “یاد بگیرند” که برای استفاده در سازمان‌ها مناسب نیستند.

داده‌های مصنوعی:

داده‌های مصنوعی یک راه‌حل جایگزین ارائه می‌دهند: مجموعه‌ای کوچک‌تر از داده‌های واقعی برای تولید داده‌های آموزشی استفاده می‌شود که شباهت زیادی به داده‌های اصلی دارند و نگرانی‌های مربوط به حریم خصوصی را برطرف می‌کنند.

حذف سوگیری

مدل‌های ML که با داده‌های واقعی آموزش داده می‌شوند به طور اجتناب‌ناپذیری سوگیری‌های اجتماعی موجود در آن داده‌ها را جذب می‌کنند. اگر این سوگیری‌ها حذف نشوند، در هر زمینه‌ای که مدل‌ها اطلاع‌رسانی می‌کنند، مانند مراقبت‌های بهداشتی یا استخدام، نابرابری را تداوم و تشدید می‌کنند.
تحقیقات علوم داده الگوریتم‌هایی مانند FairIJ و تکنیک‌های اصلاح مدل مانند FairReprogram را برای مقابله با نابرابری ذاتی در داده‌ها ارائه داده‌اند.

Overfitting و Underfitting

Overfitting: زمانی رخ می‌دهد که یک مدل ML داده‌های آموزشی را بیش از حد نزدیک به خود تطبیق دهد، و اطلاعات نامربوط (یا “نویز”) موجود در مجموعه نمونه بر عملکرد مدل تأثیر بگذارد.
Underfitting: حالت مخالف است: آموزش ناکافی یا نامناسب مدل.

مدل‌های پایه (Foundation Models)

مدل‌های پایه، که با نام‌های مدل‌های اولیه یا مدل‌های از پیش آموزش‌دیده نیز شناخته می‌شوند، مدل‌های یادگیری عمیقی هستند که بر روی مجموعه داده‌های بزرگ مقیاس آموزش داده شده‌اند تا ویژگی‌ها و الگوهای عمومی را یاد بگیرند. این مدل‌ها به عنوان نقطه شروعی برای fine-tune کردن یا تطبیق برای کاربردهای خاص AI استفاده می‌شوند.

مزایا و کاربردها:

به جای ساخت مدل‌ها از ابتدا، توسعه‌دهندگان می‌توانند لایه‌های شبکه عصبی را تغییر دهند، پارامترها را تنظیم کنند یا معماری‌ها را به نیازهای خاص حوزه تطبیق دهند.
این روش، با توجه به عمق و گستردگی دانش موجود در یک مدل بزرگ و اثبات‌شده، زمان و منابع قابل توجهی در فرآیند آموزش مدل صرفه‌جویی می‌کند.
مدل‌های پایه به این ترتیب توسعه و پیاده‌سازی سریع‌تر سیستم‌های AI را ممکن می‌سازند.

تکنیک‌های جدید برای تطبیق مدل‌های پایه:

تطبیق مدل‌های از پیش آموزش‌دیده برای وظایف تخصصی اخیراً جای خود را به تکنیکی به نام prompt-tuning داده است.
در این روش، نشانه‌های جلویی به مدل معرفی می‌شوند تا مدل را به سمت نوع خاصی از تصمیم‌گیری یا پیش‌بینی هدایت کنند.

صرفه‌جویی در منابع:

به گفته David Cox، مدیر مشترک آزمایشگاه MIT-IBM Watson AI، بازاستفاده از یک مدل یادگیری عمیق آموزش‌دیده (به جای آموزش یا بازآموزی یک مدل جدید) می‌تواند مصرف کامپیوتر و انرژی را بیش از ۱,۰۰۰ برابر کاهش دهد.
این صرفه‌جویی منجر به کاهش چشمگیر هزینه‌ها می‌شود.

منبع: https://www.ibm.com/think/topics/ai-model

مدل هوش مصنوعی چیست؟

تفاوت الگوریتم‌ها و مدل‌ها

مدل‌های AI و یادگیری ماشین