مجموعه دادهی گرافی TUDatasets
در شبکه های عصبی گرافی، یکی از مهمترین کاربردهای دسته بندی گراف، پیشبینی ویژگیهای مولکولی است. در این کاربرد، مولکولها به صورت گراف نمایش داده میشوند و وظیفه ما میتواند شامل پیشبینی این باشد که آیا یک مولکول قادر به جلوگیری از تکثیر ویروس اچآیوی (HIV) است یا خیر.
دانشگاه TU Dortmund مجموعهای از دادههای مختلف دسته بندی گراف را جمعآوری کرده است که با نام TUDatasets شناخته میشوند و همچنین از طریق کلاس torch_geometric.datasets.TUDataset در PyTorch Geometric قابل دسترسی هستند. ما میتوانیم یکی از کوچکترین مجموعه دادهها را در اینجا بررسی کنیم: مجموعه داده MUTAG.
مجموعه داده MUTAG یک مجموعه داده دسته بندی گرافی است که شامل ۱۸۸ ترکیبات نیتروآروماتیک و هتروآروماتیک، موتاژنیک و ۱۴۸ ترکیبات غیر موتاژنیک است. هر مولکول در این مجموعه داده به صورت یک گراف نشان داده شده است که هر گره را یک اتم و هر پیوند را یک پیوند بین دو اتم میتواند نشان دهد. گرهها با عناصر شیمیایی برچسب گذاری شدهاند و پیوندها با انواع پیوند (پیوند تک، دوتایی و یا سه تایی) برچسب گذاری شدهاند. در این مجموعه داده، وظیفه پیش بینی این است که آیا یک مولکول خاص موتاژنیک است یا خیر بر اساس نمایش گرافی آن است. مجموعه داده MUTAG یک مجموعه داده بنچمارک شناخته شده در حوزه دسته بندی گراف است و اغلب برای ارزیابی عملکرد مدلهای شبکه عصبی گراف در این حوزه مورد استفاده قرار میگیرد.
موتاژنیک به معنای توانایی یک ماده برای ایجاد تغییرات در ساختار ژنتیکی سلولها است که میتواند منجر به بروز بیماریهای مختلف شود. با داشتن توانایی تحریکی بر روی DNA، مواد موتاژنیک میتوانند به عنوان آلودگی های محیطی و عوامل خطرزا برای سلامتی انسان اثر کنند. در این مجموعه داده برای هر مولکول مورد نظر، باید پیشبینی کنیم که آیا این مولکول موتاژنیک است یا خیر.
دیدگاهتان را بنویسید