چالش ایمیج‌نت (ImageNet) چیست؟ (+ویدیو)

مجموعه‌داده‌ی ImageNet

مجموعه‌داده‌ی ImageNet با هدف توسعه‌ی مدل‌های بینایی کامپیوتری توسط گروهی از دانشگاه استنفورد به سرپرستی پروفسور فی-فی-لی جمع آوری شد. این دیتاست شامل بیش از 15 میلیون تصویر با وضوح[1] بالا و دارای برچسب[2] است و 22000 دسته‌ی متفاوت را شامل می‌شود. از سال 2010 برخی از سالها چالشهایی بر اساس این مجموعه داده برگزارشده و اسامی تیمهای برنده اعلام گردیده است.

برای مثال چالش ILSVRC ،در سال 2012 که به واسطه ظهور یادگیری عمیق معروف شد، شامل 1000 دسته‌ تصویر را از این مجموعه‌داده شامل شده و درمجموع 1٫2 میلیون تصویر برای آموزش[3]، 50000 تصویر برای ارزیابی[4] و 150000 تصویر برای آزمایش[5] مدل‌ها استفاده میگردد. چالش ILSVRC چالش بازشناسی اشیاء بوده و مدلها به ازای هر تصویر ورودی 5 کلاس با احتمال بالاتر را از بین 1000 کلاس موجود اعلام میکنند و درنهایت در محاسبه خطا تصاویری که شئ درون آن تصاویر در بین هیچ‌کدام از 5 احتمال نبوده باشد به‌عنوان خطا در نظر گرفته می‌شود.

بینایی کامپیوتر شاخه‌ای از هوش مصنوعی است که به کامپیوترها اجازه می‌دهد تا تصاویر و ویدیوها را درک و تفسیر کنند.
مجموعه داده‌ی ImageNet نقش مهمی در آموزش کامپیوترها برای درک تصاویر ایفا کرده است.
درک تصاویر پیچیده و مبهم، یکی از چالش‌های مهم بینایی کامپیوتر است.

در ادامه فیلم TED سخنرانی پروفسور فِی فِی لی، متخصص بینایی کامپیوتر استنفورد، که به توضیحات لزوم این دیتاست و چگونگی جمع آوری داده پرداختند را توصیه میکنم ببینید.

چگونه به کامپیوترها یاد می‌دهیم تصاویر را درک کنند؟

سخنران: فِی فِی لی، متخصص بینایی کامپیوتر

موضوع: معرفی پیشرفت‌های اخیر در زمینه بینایی کامپیوتر و نحوه آموزش کامپیوترها برای درک تصاویر

خلاصه:

فِی فِی لی در این سخنرانی به بررسی نحوه آموزش کامپیوترها برای درک تصاویر می‌پردازد.
او توضیح می‌دهد که چگونه کامپیوترها می‌توانند با استفاده از هوش مصنوعی، اشیاء، صحنه‌ها و فعالیت‌ها را در تصاویر تشخیص دهند.
لی همچنین به معرفی پایگاه داده‌ی عظیمی از تصاویر به نام ImageNet می‌پردازد که برای آموزش کامپیوترها در این زمینه استفاده می‌شود.
او در پایان به برخی از چالش‌های پیش روی این حوزه اشاره می‌کند، مانند درک تصاویر پیچیده و مبهم.

پروفسور فِی فِی لی (Fei-Fei-Lee) در ابتدای سخنرانی خود به این نکته اشاره می‌کند که انسان‌ها به طور طبیعی می‌توانند تصاویر را درک کنند، اما این کار برای کامپیوترها بسیار دشوار است. او سپس به توضیح نحوه عملکرد بینایی کامپیوتر می‌پردازد.بینایی کامپیوتر شاخه‌ای از هوش مصنوعی است که به کامپیوترها اجازه می‌دهد تا تصاویر و ویدیوها را درک و تفسیر کنند. او در ادامه به معرفی دیتاست ImageNet می‌پردازد. دیتاستی با بیش از 15 میلیون تصویر که به صورت دستی (با ناظر انسانی) برچسب‌گذاری (لیبل زنی) شده است. ImageNet نقش مهمی در آموزش کامپیوترها برای درک تصاویر ایفا کرده است.

در پایان به برخی از چالش‌های پیش روی بینایی کامپیوتر اشاره می‌کند. یکی از این چالش‌ها، درک تصاویر پیچیده و مبهم است. برای مثال، کامپیوترها ممکن است در تشخیص اشیاء در تصاویر با نور کم یا تصاویر تار مشکل داشته باشند.

منبع ویدیو: https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures

[1] resolution

[2] label

[3] train

[4] validation

[5] test