نقش هوش مصنوعی پیشرفته و تراشه‌ها در تقویت فرایند تشخیص صدا

به نقل از تک‌اکسپلور، شرکت IBM و دانشگاه‌های کالیفرنیا در سان فرانسیسکو و برکلی، اخبار خوبی را برای بیمارانی که با مشکلاتی مانند فلج صدا و از دست دادن توانایی گفتار روبرو هستند، ارائه می‌دهند. این پیشرفت ها در فناوری تشخیص گفتار، امیدوارکننده‌اند.

شرکت آی‌بی‌ام (IBM) اعلام کرده است که توانسته است یک تراشه کامپیوتری با سرعت بالا و کارایی و انرژی بالاتر تولید کند که قادر است بهبود قابل توجهی در خروجی مدل‌های تشخیص گفتار را فراهم آورد.

با رشد سریع مدل‌های زبانی بزرگ برای پروژه‌های هوش مصنوعی، محدودیت‌های عملکرد سخت‌افزاری که منجر به طولانی شدن دوره‌های آموزش و مصرف انرژی بیشتر می‌شود، به وضوح مشخص شده است.

با توجه به مصرف انرژی، مجله MIT Technology Review اخیراً گزارش کرده است که آموزش یک مدل هوش مصنوعی منجر به تولید بیش از ۶۲۶،۰۰۰ پوند دی‌اکسید کربن می‌شود، که تقریباً پنج برابر مقداری است که یک خودرو به طور متوسط در طول عمر خود تولید می‌کند.

یکی از عوامل اصلی مصرف بالای انرژی در عملیات هوش مصنوعی، تبادل داده‌ها بین حافظه و پردازنده است.

محققان شرکت IBM در جستجوی یافتن راه حلی هستند و می‌گویند که نمونه اولیه آنها شامل دستگاه‌های حافظه تغییر فاز درون تراشه است که عملیات اساسی هوش مصنوعی به نام ضرب و جمع (MAC) را بهینه می‌کند و فعالیت تراشه را به طور قابل توجهی سریع‌تر می‌کند. این امر باعث می‌شود که فرآیند زمان‌بر و مصرف‌کننده انرژی انتقال داده بین حافظه و پردازنده نادیده گرفته شود.

Stefano Ambrogia از شرکت IBM در تحقیقی که در تاریخ 23 اوت در ژورنال آنلاین Nature منتشر شده است، اظهار داشت: این تحقیق نمونه‌هایی را ارائه می‌دهد که بر اساس دقت و کارایی خود، می‌توانند در بخش تجاری و صنعتی بهره‌برداری شوند.

در تصویر، می‌توانید یک تراشه هوش مصنوعی آنالوگ را که با استفاده از فناوری 14 نانومتری ساخته شده است، روی یک برد آزمایشی مشاهده کنید. این تصویر توسط رایان لاوین برای شرکت IBM گرفته شده است.

نتایج تحقیقات نشان می‌دهد که با ترکیب بهینه زمان، فضا و انرژی درون تراشه، می‌توان بهبود قابل توجهی در مصرف انرژی و ظرفیت ارسالی سیستم‌های هوش مصنوعی آنالوگ داشت. این به این معنی است که با استفاده از روش‌های پیشرفته‌ای برای بهینه‌سازی زمان، مکان و مصرف انرژی درون تراشه، می‌توان کارایی و عملکرد سیستم‌های هوش مصنوعی را بهبود بخشید. این پیشرفت‌ها می‌توانند منجر به ارتقاء قابل توجه در مصرف انرژی و ظرفیت ارسالی این سیستم‌ها شوند.

که این نتایج می‌تواند در حوزه صنعتی استفاده شود.

در عملیات شناسایی صوت که نیازمند پردازش‌های سنگین هستند، نمونه آزمایشی شرکت IBM توانست در هر وات 12.4 تریلیون عملیات در ثانیه را انجام دهد. این سطح کارآیی به صورت صد‌ها برابر قدرت پردازنده‌های قویترین واحدهای مربوط به پردازش و گرافیکی که در حال حاضر استفاده می‌شوند، بهبود چشمگیری را ارائه می‌دهد.

دراین میان، پژوهشگران دانشگاه UC San Francisco و UC Berkeley یک رابط مغز-کامپیوتر برای افرادی که قدرت صحبت کردن خود را از دست داده‌اند، ابداع کرده‌اند. این رابط قادر است کلمات را بر اساس افکار و تلاش‌های کاربر برای صحبت کردن تولید کند.

ادوارد چانگ، رییس بخش جراحی عصبی در دانشگاه UC San Francisco، به این صورت توضیح داد: “هدف ما این است که یک روش کامل و جسمانی برای ارتباط را بازیابی کنیم، که بهترین و طبیعی‌ترین راه برای صحبت کردن با دیگران است.”

چانگ و تیمش دو حسگر کوچک را بر روی سطح مغز یک زنی که به بیماری) ALS سکته عضلانی آمیوتروفیک) مبتلا بود، جراحی کردند. ALS, یک بیماری عصبی است که به طور تدریجی قابلیت حرکت و صحبت کردن را از بیماران می گیرد.

اگرچه این فرد هنوز می‌توانست صداها را تولید کند، اما ALS باعث محدود شدن استفاده از لب، زبان و حنجره برای صحبت کردن وی شده بود.

این حسگرها از طریق یک رابط مغز-کامپیوتر به بانک‌هایی از کامپیوترها متصل شدند که در آنها نرم‌افزارهایی برای تفسیر زبان نصب شده بود.

به منظور ساخت تراشه‌های هوش مصنوعی آنالوگ، از یک وافر با قطر 1300 میلیمتر استفاده می‌شود. تصویر مربوطه توسط رایان لاوین برای شرکت IBM تهیه شده است.

زن مورد مطالعه(نمونه)، در طی 25 جلسه آموزشی به مدت چهار ساعته ، مجموعه‌هایی شامل بین 260 تا 480 جمله را می‌خواند. در این جلسات، فعالیت مغزی او در هنگام خواندن توسط دیکودر ترجمه شد و صداها را شناسایی کرد و آنها را به کلمات ترکیب کرد.

پس از آن، پژوهشگران بر اساس ضبطی از صدای زن که در یک مراسم عروسی سال‌ها پیش موجود بود ، گفتار او را ترکیب کردند و یک آواتار طراحی کردند که حرکات صورت او را نمایش می‌دهد.

پس از چهار ماه آموزش، مدل توانست سیگنال های صدای فرد را _با استفاده از ترکیبی از تکنیک‌ها و الگوریتم‌های پردازش سیگنال صوتی و تشخیص گفتار )پیگیری کند و آنها را به کلمات قابل فهم تبدیل کند.

وقتی واژگان آموزشی که تقریباً هرچه فرد مورد مطالعه بخواهد بگوید را پوشش می‌دهد شامل 125,000 کلمه بود ، نرخ دقت 76٪ بود.

وقتی واژگان محدود به 50 کلمه بود، سیستم ترجمه بهتری داشت و در 90٪ موارد گفتار او را به درستی شناسایی کرد.

سیستم مورد مطالعه توانست با سرعت 62 کلمه در دقیقه، گفتار فرد را ترجمه کند. این نرخ سه برابر نرخ تشخیص کلمات در تست ‌های قبلی بود، اما پژوهشگران بهبودهایی را برای دستیابی به نرخ 160 کلمه در دقیقه، ضروری می‌دانند.

فرانک ویلت، همکار نویسنده مقاله منتشر شده در تاریخ 23 اوت در نشریه Nature، اظهار داشت: “این یک مفهوم علمی است و نه یک دستگاه واقعی که مردم بتواننددر زندگی روزمره خود استفاده کنند.” او افزود: “اما این یک پیشرفت بزرگ در جهت بازگرداندن ارتباطات سریع برای افرادی است که قادر به صحبت کردن نیستند.”

منبع: https://techxplore.com/news/2023-08-advances-ai-chips-boost-voice.html