drift در دیتاست
اصطلاح data-drift یا dataset drift که در فارسی به جابجایی داده یا رانش داده ترجمه میشود زمانی اتفاق میافتد که مجموعه داده مورد استفاده در آموزش مدل تفاوت زیادی با دادههایی که در زمان استقرار یا محیط عملیاتی ( اصطلاحا deploy یا production) مشاهده خواهد شد دارد و در نتیجه مدل شما نتایج نامطلوب و عجیب ایجاد کرده و عملکرد ضعیفی خواهد داشت.
تفاوت بین داده های آموزشی و تولید میتواند ناشی از عوامل متعددی باشد. برای مثال اگر از یک مجموعه داده ی متنباز رایگان بدون اطلاع از جزئیات آن استفاده کنید ممکن است در محیط عملیاتی با مشکل مواجه شوید چرا که مثلا اگر از مجموعه داده جادهای که در اروپا ساخته شده است استفاده کنید، با جادههای ایران بسیار متفاوت خواهد بود و کارامد نیست. پس میتوانیم بگوییممدل آموزش دیده بینایی کامپیوتری روی جاده های اروپا وقتی روی جاده های ایران قرار است تست شود دچار drift خواهد شد! دلیل دیگر می تواند به تفاوت فصلی در جمع آوری داده اشاره کرد. مثلا مدل شما فقط در فصلی که مجموعه داده اولیه خود را در آن جمع آوری کرده اید پاسخ می دهند (مثلاً داده های زمستان/تابستان).
جهت مطالعه بیشتر:
https://www.picsellia.com/post/what-is-data-drift-and-how-to-detect-it-with-mlops
دیدگاهتان را بنویسید