%53تخفیف

پيش بيني برهمكنش پروتئين – پروتئين بين انسان و ويروس HIV با استفاده از روش¬هاي يادگيري ماشين

تعداد 88صفحه در فایل word

چکیده

ویروس قطعه‌ای از نوکلئیک اسید است که به‌وسیله یک پوشش پروتئینی در برگرفته شده ‌است. ویروس‌ها به خودی خود خنثی می‌باشند و توانایی هیچ‌گونه سوخت‌وساز و فعل‌وانفعال شیمیایی ندارند و قادر به مشابه‌سازی خود نیستند. بر همین اساس ویروس‌ها وارد سلول میزبان شده و به کمک آن تکثیر می‌یابند. از آنجا که تنها راه ورود ویروس به سلول میزبان به‌وسیله برهمکنش پروتئین‌های ویروس با غشاء سلول امکان‌پذیر است و از آنجا که تمام عملیات تکثیر آن نیز تحت برهمکنش پروتئین-پروتئین صورت می‌پذیرد، تشخیص پروتئین‌های هدف ویروس می‌تواند کمک بزرگی به متخصصین کند. در ابتدا از رویکردهای آزمایشگاهی برای تشخیص پروتئین-پروتئین استفاده شده است که چالش اساسی آن‌ها هزینه زیاد و عدم دقت مناسب بوده است، از همین رو روش‌های محاسباتی برای پیش‌بینی برهمکنش پروتئین-پروتئین پیشنهاد شدند که علاوه بر کم بودن هزینه آن‌ها، دقت مناسب برای این تشخیص‌ها را نیز فراهم آوردند. روش‌های یادگیری ماشین بهترین رویکردهای محاسباتی استفاده شده در این حوزه بوده است. عمده اطلاعات استفاده شده در روش‌های یادگیری ماشین برای پیش‌بینی برهمکنش پروتئین-پروتئین، اطلاعاتی مانند داده‌های ژنی، ساختاری و نحوه بیان پروتئین‌ها بوده است. بعضی از این داده‌ها برای بعضی از پروتئین‌ها می‌تواند در دسترس نباشد. اما اطلاعات ساختار اول یا همان توالی پروتئین‌ها همیشه در دسترس بوده و برخلاف سایر داده‌های پروتئینی نیاز به دانش اولیه از پروتئین‌ها نمی­باشد، بر همین اساس ما در کار خود از این داده‌ها استفاده کردیم. مبحث برهمکنش پروتئین-پروتئین مبحثی دودسته‌ای می‌باشد ولی تنها مجموعه­داده یک دسته و آن هم دسته برهمکنشی موجود می‌باشد. با توجه به این موضوع محقق خود مجبور است که جفت‌های غیربرهمکنشی را تولید کند که بر اساس روش‌های پیشین ارائه شده اطمینانی به عدم برهمکنش این جفت‌ها نمی‌باشد. از جمله روش‌هایی که وجود دارد، تولید داده‌های غیربرهمکنشی بر اساس انتخاب تصادفی از ترکیبات مختلف پروتئین‌های موجود در مجموعه‌داده برهمکنشی به شرطی که داده انتخابی بین مجموعه‌داده برهمکنشی نباشد. البته جفت‌هایی که از ترکیبات مختلف پروتئین‌های موجود در مجموعه‌داده برهمکنشی تولید می‌شوند (به‌جز جفت‌های برهمکنشی) در حقیقت مجموعه‌ای هستند که وضعیت برهمکنشی و یا غیربرهمکنشی بودن آن‌ها مشخص نیست، به عبارتی این داده‌ها بدون برچسب می‌باشند. بر همین اساس ما دو رویکرد ارائه دادیم که اساس روش اول کشف جفت‌های غیربرهمکنشی از جفت‌های بدون برچسب و روش دوم علاوه بر کشف جفت‌های غیربرهمکنشی، جفت‌های برهمکنشی را نیز کشف و برچسب گذاری می‌کند. دقت نتایج حاصل از رویکردهای ارائه شده در مقایسه با روش‌های معمول تولید جفت‌های غیربرهمکنشی بهبود یافته است. رویکرد‌های ارائه شده بر روی دو مجموعه‌داده برهمکنشی بین پروتئین‌های انسان و پروتئین‌های ویروس‌های HIV و HCV اجرا شده که برای هر دو مجموعه‌داده بهبود دقت حاصل شده است.

   واژگان کليدي: پروتئين، برهمكنش‌ پروتئين-پروتئين، پيش‌بينی برهمكنش‌هاي پروتئين-پروتئين، روش‌های محاسباتی، ماشين بردار پشتيبان، ویروس، جفت‌های برهمکنشی ، جفت‌های غیربرهمکنشی.

فهرست مطالب

عنوان………………………………………………………………………………………………………………………………………………. صفحه

فصل 1 : کلیات… 1

1-1- مقدمه: 1

1-2- اهمیت موضوع: 2

1-3- اهداف پایان‌نامه  2

1-4- نوآوری‌های پایان‌نامه  3

1-5- ساختار پایان‌نامه  4

فصل 2 : مفاهیم پایه در بیوانفورماتیک و روش‌های یادگیری ماشین.. 6

2-1- مقدمه  6

2-2- مفاهیم پایه در بیوانفورماتیک   7

2-2-1- پروتئین.. 7

2-2-1-1- اسیدآمینه  7

2-2-1-2- انواع تقسیم‌بندی اسیدآمینه‌ها 9

2-2-1-3- تولید پروتئین  11

2-2-1-4- ساختارهای پروتئین  14

2-2-2- ویروس…. 17

2-2-3- برهمکنش پروتئین-پروتئین.. 20

2-2-4- پیش‌بینی برهمکنش پروتئین-پروتئین.. 21

2-2-5- اهمیت پیش‌بینی برهمکنش بین پروتئین ویروس و پروتئین انسان.. 21

2-3- رویکردهای یادگیری ماشین  22

2-3-1- یادگیری بدون ناظر. 22

2-3-2- یادگیری نیمه‌نظارتی.. 23

2-3-3- روش‌های باناظر. 24

2-3-3-1- ماشین بردار پشتیبان  24

2-3-3-2- نایو بیز 27

2-3-3-3- نزدیک‌ترین k– همسایه  27

2-3-3-4- درخت تصمیم: 28

2-3-3-5- یادگیری تجمیعی  28

2-4- جمع‌بندی  29

فصل 3 : روشهای پیش‌بینی برهمکنش پروتئین-پروتئین (پیشینه پژوهش) 30

3-1- مقدمه  30

3-2- روش‌های آزمایشگاهی تشخیص برهمکنش بین پروتئین‌ها 30

3-3- روش‌های محاسباتی  32

3-3-1- روش‌های محاسباتی بر اساس نوع داده استفاده شده 32

3-3-2- روش‎‌های محاسباتی بر اساس رویکردهای یادگیری ماشین.. 35

3-3-2-1- روشهای بدون ناظر 36

3-3-2-2- روشهای نیمهنظارتی  38

3-3-2-3- روش‌های بانظارت   39

3-3-2-4- رویکرد پیش‌بینی و مرتب‌سازی برهمکنش‌ها به‌وسیله یک دسته  50

3-4- جمع‌بندی  50

فصل 4 : روش‌های پیشنهادی برای پیش‌بینی برهمکنش بین پروتئین انسان و پروتئین ویروس…. 52

4-1- مقدمه  52

4-2- مجموعهدادههای استفاده شده جهت پیش‌بینی برهمکنش بین پروتئین‌های انسان و ویروس   53

4-3- تولید بردار ویژگی  53

4-4- بررسی روش‌های معمول تولید داده‌های غیربرهمکنشی(منفی) 56

4-5- رویکرد اول: برچسب‌گذاری چند دیدی کاهشی(Shrinking-MVL) 57

4-6- رویکرد دوم: برچسب‌گذاری چند دیدی در حال گسترش (Expanding-MVL) 61

4-7- جمع‌بندی  63

فصل 5 : مقایسه و ارزیابی روش‌های پیشنهادی.. 64

5-1- مقدمه  64

5-2- روش‌های اعتبار سنجی  و معیارهای ارزیابی الگوریتمهای دستهبند  64

5-2-1- روش‌های اعتبارسنجی دسته‌بند. 64

5-2-2- معیارهای ارزیابی کارایی الگوریتم‌های دسته‌بند. 65

5-3- تحلیل روشهای پیشنهادی  67

5-3-1- تأثیر الگوریتم Shrinking-MVL در اجراهای مختلف  بر نتایج ارزیابی.. 67

5-3-2- تأثیر الگوریتم Expanding-MVL در اجراهای مختلف  بر نتایج ارزیابی.. 73

5-3-3- بررسی کارایی روش Shrinking-MVL برای تمام دادهها 80

5-4- مقایسه رویکردهای پیشنهادی با کارهای پیشین  82

5-5- جمع‌بندی  88

فصل 6 : نتیجه‌گیری و پژوهش‌های آتی.. 90

6-1- نتیجه‌گیری  90

6-2- پژوهش‌های آتی  92

فهرست شکل‌ها

عنوان………………………………………………………………………………………………………………………………………………. صفحه

شکل ‏2‑1 ساختار یک اسیدآمینه [10] 8

شکل ‏2‑2 بیست نوع اسیدآمینه موجود در بدن انسان[10] 8

شکل ‏2‑3  ساختار مولکولی چهار اسید نوکلئوتيد تشکیل‌دهنده DNA [15] 12

شکل ‏2‑4 ساختار DNA  [16] 13

شکل ‏2‑5 مراحل تولید پروتئین از ژن[10] 14

شکل ‏2‑6 ساختارهای مختلف پروتئین [17] 15

شکل ‏2‑7 ساختار دوم قسمتی از یک پروتئین، مارپیچ آلفا به رنگ خاکستری و صفحه بتا به رنگ قرمز نشان داده شده است[17] 16

شکل ‏2‑8 یادگیری نیمه‌نظارتی[22] 23

شکل ‏2‑9 نمایش هندسی ماشین بردار پشتیبان.. 25

شکل ‏2‑10 تبدیل فضا برای یافتن یک جداکننده‎ی خطی.. 26

شکل ‏3‑1 روش تشخیص برهمکنش توسط Y2H[36] 31

شکل ‏3‑2 همسایگی ژنی بین ژن‌های A و B [34] 33

شکل ‏3‑3 ژن جوشی حاصل از دو ژن A و B [34] 33

شکل ‏3‑4 پروفایل تکامل نژادی را برای 4 ژنA وB وC وD نشان میدهد [34] 34

شکل ‏3‑5 جفت‌های با برچسب ناقص برهمکنشی که با خط‌چین سبز مشخص شده است… 39

شکل ‏3‑6 چگونگی انتخاب جفت‌های غیربرهمکنشی[68] 49

شکل ‏4‑1 تبدیل توالی اسیدآمینه پروتئین به بردار ویژگی.. 55

شکل ‏4‑2 نمای کلی از مرحله پیش‌پردازش و اجرای الگوریتم S-MVL (Hi نشان‌دهنده پروتئین انسان، HIVi معرف پروتئین HIV ، دایره نشان‌دهنده جفت‌های بدون برچسب، ستاره نشان‌دهنده جفت‌های برهمکنشی و مستطیل معرف جفت‌های غیربرهمکنشی کاندید می‌باشد). 58

شکل ‏4‑3 رویکرد S-MVL . دید‌های هفتگانه منطبق بر جدول ‏4‑1 می‌باشد. 61

شکل ‏4‑4  رویکرد E-MVL. 62

شکل ‏5‑1  نمودار  تغییرات معیارهای بازخوانی و  specificity برای دیدهای 1و 2 و 3  بر اساس تکرارهای مختلف   71

شکل ‏5‑2 نمودار  تغییرات معیارهای بازخوانی و  specificity برای دیدهای 4و 5 و 6  بر اساس تکرارهای مختلف   71

شکل ‏5‑3 نمودار  تغییرات معیارهای بازخوانی و  specificity برای انواع دیدها  بر اساس تکرارهای مختلف   72

شکل ‏5‑4 تغییرات معیارهای ارزیابی برای اجراهای مختلف رویکرد E-MVL برای مجموعه‌داده برهمکنشی پروتئین‌های HIV و انسان (دید 7) 76

شکل ‏5‑5 تغییرات معیارهای ارزیابی برای اجراهای مختلف رویکرد E-MVL برای مجموعه‌داده برهمکنشی پروتئین‌های HCV و انسان (دید 7) 76

شکل ‏5‑6 نمودار تغییرات دقت روش E-MVL برای دو حالت انتخاب داده‌های غیربرهمکنشی به روش S-MVL و انتخاب داده‌های غیربرهمکنشی به‌صورت تصادفی برای مجموعه‌داده برهمکنشی HIV.. 77

شکل ‏5‑7 نمودار تغییرات دقت روش E-MVL برای دو حالت انتخاب داده‌های غیربرهمکنشی به روش S-MVL و انتخاب داده‌های غیربرهمکنشی به‌صورت تصادفی برای مجموعه‌داده برهمکنشی HCV.. 77

شکل ‏5‑8 نمایش Outlier و رفتار SVM… 82

شکل ‏5‑9 مقایسه معیارهای دقت، بازخوانی و Specificity برای روش‌های ارائه‌شده و روش‌های پیشین برای مجموعه‌داده HIV  85

شکل ‏5‑10مقایسه معیارهای صحت، AUC و MCC برای روش‌های ارائه‌شده و روش‌های پیشین برای مجموعه‌داده HIV  85

شکل ‏5‑11  مقایسه معیارهای دقت، بازخوانی و Specificity برای روش‌های ارائه‌شده و روش‌های پیشین برای مجموعه‌داده HCV.. 86

فهرست جدول‌ها

عنوان………………………………………………………………………………………………………………………………………………. صفحه

جدول ‏3‑1 کارهای انجام شده برای پیش‌بینی برهمکنش بین پروتئین انسان و پروتئین ویروس…. 51

جدول ‏4‑1 تقسیم‌بندی اسیدآمینه‌ها 54

جدول ‏5‑1 معیارهای ارزیابی کارایی دستهبند. 66

جدول ‏5‑2 نتایج روش S-MVL در اولین اجرا به ازای هر دسته، برای مجموعه‌داده NIAID (مجموعه برهمکنشی پروتئین-پروتئین بین پروتئین‌های انسان و ویروس HIV) . داده‌های غیربرهمکنشی 20070 جفت… 68

جدول ‏5‑3  نتایج روش S-MVL در اجرای 2 برای مجموعه‌داده NIAID. داده‌های غیربرهمکنشی 12025 جفت   69

جدول ‏5‑4 نتایج روش S-MVL در اجرای سوم  برای مجموعه‌داده NIAID. داده‌های غیربرهمکنشی 9239 جفت   70

جدول ‏5‑5 نتایج روش S-MVL در سه اجرا برای مجموعه‌داده برهمکنشی بین پروتئین انسان و پروتئین HCV  72

جدول ‏5‑6 نتایج 7 اجرای متوالی روش E-MVL بر روی مجموعه‌داده برهمکنشی HIV.. 74

جدول ‏5‑7  نتایج 7 اجرای متوالی روش E-MVL بر روی مجموعه‌داده برهمکنشی HCV.. 75

جدول ‏5‑8 مقایسه نتایج نهایی دو روش انتخاب داده غیربرهمکنشی برای رویکرد E-MVL برای مجموعه‌داده برهمکنشی پروتئین‌های  انسان و HIV.. 78

جدول ‏5‑9 مقایسه نتایج نهایی دو روش انتخاب داده غیربرهمکنشی برای رویکرد E-MVL برای مجموعه‌داده برهمکنشی پروتئین‌های  انسان و HCV.. 79

جدول ‏5‑10 مقایسه دو روش آزمون برای رویکرد S-MVL بر اساس برهمکنش‌های پروتئین‌های HIV و  انسان  80

جدول ‏5‑11 مقایسه دو روش آزمون برای رویکرد S-MVL بر اساس مجموعه‌داده برهمکنش‌های پروتئین‌های HCV و  انسان  81

جدول ‏5‑12 مقایسه روش‌های پیشنهادی بر اساس مجموعه‌داده برهمکنش‌های پروتئین‌های HIV و انسان  83

جدول ‏5‑13 مقایسه روش‌های پیشنهادی بر اساس مجموعه‌داده برهمکنش‌های پروتئین‌های HCV و انسان  84

جدول ‏5‑14 واریانس معیارهای مختلف برای اجراهای مختلف رویکردهای پیشنهادی با توجه به مجموعه‌داده برهمکنشی  HIV  87

جدول ‏5‑15 واریانس معیارهای مختلف برای اجراهای مختلف رویکردهای پیشنهادی با توجه به مجموعه‌داده برهمکنشی  HCV.. 87

قبلا حساب کاربری ایجاد کرده اید؟
گذرواژه خود را فراموش کرده اید؟
Loading...
enemad-logo