چالش ایمیجنت (ImageNet) چیست؟ (+ویدیو)
مجموعهدادهی ImageNet
مجموعهدادهی ImageNet با هدف توسعهی مدلهای بینایی کامپیوتری توسط گروهی از دانشگاه استنفورد به سرپرستی پروفسور فی-فی-لی جمع آوری شد. این دیتاست شامل بیش از 15 میلیون تصویر با وضوح[1] بالا و دارای برچسب[2] است و 22000 دستهی متفاوت را شامل میشود. از سال 2010 برخی از سالها چالشهایی بر اساس این مجموعه داده برگزارشده و اسامی تیمهای برنده اعلام گردیده است.
برای مثال چالش ILSVRC ،در سال 2012 که به واسطه ظهور یادگیری عمیق معروف شد، شامل 1000 دسته تصویر را از این مجموعهداده شامل شده و درمجموع 1٫2 میلیون تصویر برای آموزش[3]، 50000 تصویر برای ارزیابی[4] و 150000 تصویر برای آزمایش[5] مدلها استفاده میگردد. چالش ILSVRC چالش بازشناسی اشیاء بوده و مدلها به ازای هر تصویر ورودی 5 کلاس با احتمال بالاتر را از بین 1000 کلاس موجود اعلام میکنند و درنهایت در محاسبه خطا تصاویری که شئ درون آن تصاویر در بین هیچکدام از 5 احتمال نبوده باشد بهعنوان خطا در نظر گرفته میشود.
- بینایی کامپیوتر شاخهای از هوش مصنوعی است که به کامپیوترها اجازه میدهد تا تصاویر و ویدیوها را درک و تفسیر کنند.
- مجموعه دادهی ImageNet نقش مهمی در آموزش کامپیوترها برای درک تصاویر ایفا کرده است.
- درک تصاویر پیچیده و مبهم، یکی از چالشهای مهم بینایی کامپیوتر است.
در ادامه فیلم TED سخنرانی پروفسور فِی فِی لی، متخصص بینایی کامپیوتر استنفورد، که به توضیحات لزوم این دیتاست و چگونگی جمع آوری داده پرداختند را توصیه میکنم ببینید.
چگونه به کامپیوترها یاد میدهیم تصاویر را درک کنند؟
سخنران: فِی فِی لی، متخصص بینایی کامپیوتر
موضوع: معرفی پیشرفتهای اخیر در زمینه بینایی کامپیوتر و نحوه آموزش کامپیوترها برای درک تصاویر
خلاصه:
- فِی فِی لی در این سخنرانی به بررسی نحوه آموزش کامپیوترها برای درک تصاویر میپردازد.
- او توضیح میدهد که چگونه کامپیوترها میتوانند با استفاده از هوش مصنوعی، اشیاء، صحنهها و فعالیتها را در تصاویر تشخیص دهند.
- لی همچنین به معرفی پایگاه دادهی عظیمی از تصاویر به نام ImageNet میپردازد که برای آموزش کامپیوترها در این زمینه استفاده میشود.
- او در پایان به برخی از چالشهای پیش روی این حوزه اشاره میکند، مانند درک تصاویر پیچیده و مبهم.
پروفسور فِی فِی لی (Fei-Fei-Lee) در ابتدای سخنرانی خود به این نکته اشاره میکند که انسانها به طور طبیعی میتوانند تصاویر را درک کنند، اما این کار برای کامپیوترها بسیار دشوار است. او سپس به توضیح نحوه عملکرد بینایی کامپیوتر میپردازد.بینایی کامپیوتر شاخهای از هوش مصنوعی است که به کامپیوترها اجازه میدهد تا تصاویر و ویدیوها را درک و تفسیر کنند. او در ادامه به معرفی دیتاست ImageNet میپردازد. دیتاستی با بیش از 15 میلیون تصویر که به صورت دستی (با ناظر انسانی) برچسبگذاری (لیبل زنی) شده است. ImageNet نقش مهمی در آموزش کامپیوترها برای درک تصاویر ایفا کرده است.
در پایان به برخی از چالشهای پیش روی بینایی کامپیوتر اشاره میکند. یکی از این چالشها، درک تصاویر پیچیده و مبهم است. برای مثال، کامپیوترها ممکن است در تشخیص اشیاء در تصاویر با نور کم یا تصاویر تار مشکل داشته باشند.
منبع ویدیو: https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures
[1] resolution
[2] label
[3] train
[4] validation
[5] test
دیدگاهتان را بنویسید