دیتاست گرافی نفوذپذیری سد خونی مغزی (BBBP)
دیتاست های زیادی برای کار با شبکه های عصبی گرافی وجود دارد. این مجموعه داده مرتبط با شیمی که حاوی مولکول های متفاوت است نیز یکی از داده های رایج این زمینه است.
انگیزه:
از آنجایی که مولکول ها به طور طبیعی به عنوان یک گراف بدون جهت نشان داده می شوند G = (V, E)، که در آن V یک مجموعه یا رئوس (گره ها یا همان اتم ها) و E مجموعه ای از یال ها (پیوندها) است، GNN ها (مانند MPNN) یک روش مفید برای پیش بینی خواص مولکولی هستند.
RDKit
RDKit مجموعهای از نرمافزارهای شیمیفورماتیک و یادگیری ماشینی است که با زبان C++ و Python نوشته شدهاند. در کار با این دیتاست معمولا از RDKit برای تبدیل راحت و کارآمد SMILES به اجسام مولکولی، و سپس به دست آوردن مجموعهای از اتمها و پیوندها از آنها استفاده میشود.
SMILES
SMILES ساختار یک مولکول معین را در قالب یک رشته ASCII را بیان می کند. رشته SMILES یک رمزگذاری فشرده است که برای مولکول های کوچکتر، نسبتاً برای انسان قابل خواندن است. رمزگذاری مولکولها بهعنوان یک رشته، جستجوی پایگاه داده و/یا وب را برای یک مولکول معین تسهیل میکند. RDKit از الگوریتمهایی برای تبدیل دقیق یک SMILES به یک شیء مولکولی استفاده میکند، که سپس میتوان از آن برای محاسبه تعداد زیادی از خواص/ویژگیهای مولکولی استفاده کرد.
مجموعه داده
اطلاعات دقیق مربوط به این مجموعه داده را می توان در دو مقالهی A Bayesian Approach to in Silico Blood-Brain Barrier Penetration Modeling و MoleculeNet: A Benchmark for Molecular Machine Learning مطالعه کنید. همچنین خود این مجموعه داده را از سایت MoleculeNet.org میتوانید دانلود کنید.
معرفی مجموعه داده
مجموعه داده شامل 2050 مولکول است. هر مولکول دارای یک نام، برچسب و رشته SMILES است.
سد خونی مغزی (BBB) غشایی است که خون را از مایع خارج سلولی مغز جدا میکند و از این رو مانع از رسیدن بیشتر داروها (مولکولها) به مغز میشود. به همین دلیل، BBBP برای توسعه داروهای جدید که هدف آن هدف قرار دادن سیستم عصبی مرکزی است، مهم بوده است. برچسبهای این مجموعه داده باینری (1 یا 0) هستند و نفوذپذیری مولکولها را نشان میدهند.
در زیر چند نمونه از این داه نمایش داده شده است.
name | p_np | smiles | |
---|---|---|---|
96 | cefoxitin | 1 | CO[C@]1(NC(=O)Cc2sccc2)[C@H]3SCC(=C(N3C1=O)C(O… |
97 | Org34167 | 1 | NC(CC=C)c1ccccc1c2noc3c2cccc3 |
98 | 9-OH Risperidone | 1 | OC1C(N2CCC1)=NC(C)=C(CCN3CCC(CC3)c4c5ccc(F)cc5… |
99 | acetaminophen | 1 | CC(=O)Nc1ccc(O)cc1 |
100 | acetylsalicylate | 0 | CC(=O)Oc1ccccc1C(O)=O |
101 | allopurinol | 0 | O=C1N=CN=C2NNC=C12 |
102 | Alprostadil | 0 | CCCCC[C@H](O)/C=C/[C@H]1[C@H](O)CC(=O)[C@@H]1C… |
103 | aminophylline | 0 | CN1C(=O)N(C)c2nc[nH]c2C1=O.CN3C(=O)N(C)c4nc[nH… |
معرفی ویژگی ها
از روی این مولکولها با پیش پردازشی ویژگی هایی برای رئوس (اتم ها) و یالها (پیوندها) استخراج میگردد.
ویژگی های اتمی نظیر تعداد الکترون های ظرفیت، تعداد پیوندهای هیدروژنی ، هیبریداسیون مداری و ویژگی های پیوند (مثلا کووالانسی) نوع پیوند و کونژوگه میتواند باشد.
دیدگاهتان را بنویسید