استدلال عقل سلیم یا common sense inference یعنی چه؟

عقل سلیم در هوش مصنوعی یعنی چی!

از خودتان بپرسید، چگونه یک وسیله نقلیه خودکار (automated vehicle) می‌داند که یک آدم‌برفی که در لبه خیابان ایستاده است، به جاده نخواهد دوید؟ انسان‌ها از دانش عقل سلیم (common-sense knowledge) خود استفاده می‌کنند تا متوجه شوند که این اتفاق نخواهد افتاد!

به طور خلاصه در شبکه‌های عصبی و پردازش زبان طبیعی (NLP)، “استدلال یا استنتاج با عقل سلیم” (common sense inference) به توانایی سیستم‌های هوش مصنوعی اشاره دارد که از دانش عمومی و روزمره برای درک و تفسیر اطلاعات استفاده کنند. به عبارت دیگر، سیستم‌های هوش مصنوعی باید بتوانند از دانش ضمنی و شهودی که انسان‌ها به طور طبیعی و بدون تفکر زیاد از آن استفاده می‌کنند، بهره بگیرند. این فراتر از صرف درک دستور زبان و نحو زبان است و شامل توانایی درک زمینه یک مکالمه، استنباط اطلاعات ضمنی و استفاده از دانش برای پاسخگویی به سوالات و تکمیل وظایف به روشی منطقی و عقلانی است.

برای مثال، اگر جمله‌ای به سیستم داده شود که “او به زمین افتاد و از زانوهایش خون آمد”، سیستم باید بتواند استنتاج کند که افتادن باعث جراحت شده است، حتی اگر این صریحاً ذکر نشده باشد. این نوع از استنتاج‌ها نیازمند دانش زمینه‌ای و عمومی درباره جهان است که فراتر از اطلاعات صریح موجود در داده‌ها می‌باشد. یا یک مدل زبانی با استدلال عقل سلیم می تواند درک کند که عبارت “من به پارک می روم” به این معنی است که شخص در حال حرکت به مکانی است که معمولاً دارای درختان، چمن و زمین های بازی است. این مدل همچنین می تواند استنباط کند که شخص احتمالاً در حال پیاده روی، دویدن یا دوچرخه سواری در پارک است و نه شنا کردن!

استدلال عقل سلیم برای بسیاری از وظایف NLP مانند پاسخ به سوال، خلاصه سازی متن، ترجمه ماشینی و چت‌بات ها ضروری است. با این حال، دستیابی به آن برای مدل های زبانی یک چالش دشوار است زیرا نیاز به دانش گسترده ای در مورد جهان و توانایی اعمال آن دانش در موقعیت های مختلف دارد. به لطف LLM ها میتوان گفت امروزه تا حد خیلی خوبی پیشرفت داشته ایم!

در اینجا چند نمونه از نحوه استفاده از استدلال عقل سلیم در NLP آورده شده است:

پاسخ به سوال: یک مدل زبانی با استدلال عقل سلیم می تواند به سوالاتی پاسخ دهد که نیاز به دانش دنیای واقعی دارند، مانند “پایتخت فرانسه کجاست؟” یا “سریع ترین راه رسیدن به فرودگاه چیست؟”.
خلاصه سازی متن: یک مدل زبانی با استدلال عقل سلیم می تواند متون را خلاصه کند و در عین حال اطلاعات مهم را حفظ کند. این مدل می تواند جزئیات غیرضروری را حذف کند و بر نکات کلیدی تمرکز کند.
ترجمه ماشینی: یک مدل زبانی با استدلال عقل سلیم می تواند متن را از یک زبان به زبان دیگر ترجمه کند و در عین حال معنی را حفظ کند. این مدل می تواند تفاوت های فرهنگی و اصطلاحات خاص زبان را در نظر بگیرد.
چت بات ها: یک مدل زبانی با استدلال عقل سلیم می تواند با انسان ها به روشی مکالمه ای گفتگو کند. این مدل می تواند زمینه مکالمه را درک کند، به سوالات به روشی جامع و آموزنده پاسخ دهد و در صورت نیاز مکالمه را ادامه دهد.

مجموعه داده‌هایی برای ارزیابی استدلال مبتنی بر عقل سلیم

این صفحه به معرفی چندین مجموعه داده برای سنجش توانایی مدل‌های زبان طبیعی در استدلال مبتنی بر عقل سلیم (Commonsense Reasoning) می‌پردازد. این مجموعه داده‌ها شامل سناریوها و سوالاتی است که نیازمند درک و استنتاج بر اساس دانش عمومی و قوانین منطقی زبان هستند.

Event2Mind: این مجموعه داده شامل ۲۵۰۰۰ عبارت کوتاه توصیف کننده‌ی رویدادهای روزمره است. یک مدل زبان طبیعی با دریافت این متن کوتاه، باید درباره‌ی اهداف احتمالی و واکنش‌های شرکت‌کنندگان در رویداد استدلال کند. عملکرد مدل‌ها بر اساس میانگین آنتروپی متقاطع (هرچه کمتر بهتر) ارزیابی می‌شود.

Model	Dev	Test	Paper / Source	Code
BiRNN 100d (Rashkin et al., 2018)	4.25	4.22	Event2Mind: Commonsense Inference on Events, Intents, and Reactions
ConvNet (Rashkin et al., 2018)	4.44	4.40	Event2Mind: Commonsense Inference on Events, Intents, and Reactions

SWAG (Situations with Adversarial Generations): این مجموعه داده شامل 113 هزار سوال چندگزینه‌ای درباره‌ی موقعیت‌های گسترده‌ای از شرایط واقعی است. مدل‌ها بر اساس دقت پاسخ‌دهی به این سوالات ارزیابی می‌شوند.

Model	Dev	Test	Paper / Source
BERT Large (Devlin et al., 2018)	86.6	86.3	BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT Base (Devlin et al., 2018)	81.6	–	BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
ESIM + ELMo (Zellers et al., 2018)	59.1	59.2	SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference
ESIM + GloVe (Zellers et al., 2018)	51.9	52.7	SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference

Winograd Schema Challenge: این مجموعه داده برای ارزیابی استدلال مبتنی بر عقل سلیم طراحی شده است. سوالات Winograd Schema نیازمند حل ابهام مرجع ضمیر (Anaphora) هستند. در این سوالات، سیستم باید مرجع ضمیر مبهم موجود در جمله را تشخیص دهد.
- مثال: جام [Trophy] درون چمدان جا نمی‌شود چون خیلی بزرگ است [‌It is too big]. چه چیزی خیلی بزرگ است؟
  - پاسخ ۰: جام [The trophy]
  - پاسخ ۱: چمدان [The suitcase]

مدل‌ها بر اساس میزان صحت تشخیص مرجع ضمیر ارزیابی می‌شوند.

Model	Score	Paper / Source
Word-LM-partial (Trinh and Le, 2018)	62.6	A Simple Method for Commonsense Reasoning
Char-LM-partial (Trinh and Le, 2018)	57.9	A Simple Method for Commonsense Reasoning
USSM + Supervised DeepNet + KB (Liu et al., 2017)	52.8	Combing Context and Commonsense Knowledge Through Neural Networks for Solving Winograd Sche

استدلال عقل سلیم بصری (Visual Common Sense Reasoning)

استدلال عقل سلیم بصری (Visual Commonsense Reasoning – VCR) که به بینایی کامپیوتر هم مربوط می‌شود، یک وظیفه نسبتاً جدید و یک مجموعه داده حجیم برای درک بصری در سطح شناخت است. ما انسان‌ها می‌توانیم با یک نگاه کوتاه به یک تصویر، به راحتی دنیای فراتر از پیکسل‌ها را تصور کنیم (برای مثال، اینکه [نفر اول] پنکیک سفارش داده است). در حالی که این کار برای انسان‌ها آسان است، برای سیستم‌های بینایی کامپیوتری امروزی بسیار دشوار است، زیرا نیازمند درک مرتبه بالاتر و استدلال مبتنی بر عقل سلیم درباره‌ی جهان است. ما این وظیفه را به صورت استدلال عقل سلیم بصری تعریف می‌کنیم.

علاوه بر پاسخ به سوالات تصویری چالش‌برانگیز که با زبان طبیعی بیان می‌شوند، یک مدل باید دلیلی نیز ارائه دهد که چرا پاسخ آن درست است.

Model	Q->A	QA->R	Q->AR	Paper / Source	Code
Human Performance University of Washington (Zellers et al. ‘18)	91.0	93.0	85.0	From Recognition to Cognition: Visual Commonsense Reasoning
Recognition to Cognition Networks University of Washington	65.1	67.3	44.0	From Recognition to Cognition: Visual Commonsense Reasoning	https://github.com/rowanz/r2c
BERT-Base Google AI Language (experiment by Rowan)	53.9	64.5	35.0		https://github.com/google-research/bert
MLB Seoul National University (experiment by Rowan)	46.2	36.8	17.2		https://github.com/jnhwkim/MulLowBiVQA
Random Performance	25.0	25.0	6.2