مجموعه دادهی صوتی ارقام فارسی
با افتخار دیتاست صوتی ارقام فارسی را معرفی میکنیم. این مجموعه شامل اصوات ضبط شدهی اعداد ۰ تا ۹ به زبان فارسی توسط افراد مختلف است. این دیتاست با دقت و به منظور حمایت از تحقیقات و توسعه در زمینههای تشخیص گفتار، یادگیری عمیق و سایر کاربردهایی که نیاز به شناسایی صوتی ارقام فارسی دارند، جمعآوری شده است.
معرفی دیتاست
این مجموعه داده شامل ضبطهای چندین گوینده است و ده کلاس را پوشش میدهد که هر کدام به یک عدد فارسی از صفر تا نه اختصاص دارد. این دیتاست منبع ارزشمندی برای آموزش و تست مدلهای تشخیص گفتار است.
فرآیند افزایش دادهها
برای افزایش پایداری و کاربردی بودن دیتاست در شرایط صوتی مختلف، مجموعهای از افزایشدهندهها اعمال شده است:
- اضافه کردن نویز: نویز گوسی و نویزهای پسزمینه برای شبیهسازی محیطهای شنیداری مختلف اضافه شدهاند.
- تغییرات زمانی و زیر و بمی صدا: کشش زمانی و تغییر زیر و بمی صدا برای مدلسازی نرخهای گفتاری و تنهای صوتی مختلف اعمال شده است.
- اعوجاجهای مصنوعی: فشردهسازی MP3 و کاهش بیت برای شبیهسازی ورودیهای صوتی با کیفیت پایینتر استفاده شده است.
- تغییرات سیگنال: جابجایی زمانی و وارونگی قطبیت تنوع بیشتری ایجاد میکنند. این افزایشها اطمینان حاصل میکنند که مدلهایی که با این دیتاست آموزش داده میشوند، مقاومتر بوده و در سناریوهای مختلف صوتی عملکرد خوبی دارند.
مشارکتکنندگان
این پروژه با نظارت علیرضا اخوانپور و با کمک دانشجویان زیر جمعآوری شده است:
- علیرضا کمیاب
- ریحانه زارع
- نگار بقائینژاد
- مبینا شفیعی
- سید محمدرضا دریابک
- محمد تخت فیروزه
- مهتره مقدم
- آیدا فرقانی
- مهدی شیخانصاری
- محمدرضا قادری
- مجتبی شفیعحسینی
- سروش میرزوندی
- رضا چشمسیماب
- رضا قنبرزاده
- محمدامین کیانفر
- مصطفی مدبری
- محمد عبدلی
- فاطمه طبسی
نحوه استناد به این دیتاست
اگر از دیتاست صوتی اعداد فارسی در تحقیقات یا پروژه خود استفاده میکنید، لطفاً آن را به صورت زیر استناد دهید:
اخوانپور، علیرضا و همکاران. (۲۰۲۴). دیتاست صوتی اعداد فارسی. دریافت شده از https://class.vision/persian-audio-digits
یا
Akhavanpour, A., Kamiab, A., Zare, R., Baghaei Nejad, N., Shafiei, M., Daryabak, S. M., Takht Firooze, M., Moghaddam, M., Farqani, A., Sheikh Ansari, M., Ghaderi, M., Shafie Hosseini, M., Mirzavandi, S., Cheshmesimab, R., Ghanbarzadeh, R., Kianfar, M., Madbari, M., Abdoli, M., & Tabsi, F. (2024). Persian Digits Audio Dataset. Retrieved from https://class.vision/persian-audio-digits
دیدگاهتان را بنویسید