فهرست مطالب
فصل اول: کلیات تحقیق ………………………………………………………………………………………………………… 13
1-1-مقدمه…………………………………………………………………………………………………………………………….. 14
1-2-تعریف مسئله و سوالات اصلی تحقیق ………………………………………………………………………………. 17
1-3-سابقه و ضرورت انجام تحقیق………………………………………………………………………………………….. 20
1-4-فرضیهها………………………………………………………………………………………………………………………… 21
1-5-اهداف اصلی تحقیق……………………………………………………………………………………………………….. 21
1-6-کاربردها………………………………………………………………………………………………………………………… 21
1-7-جنبههای نوآوری تحقیق………………………………………………………………………………………………….. 22
1-8-روش تحقیق………………………………………………………………………………………………………………….. 23
1-9-مراحل انجام تحقیق………………………………………………………………………………………………………… 24
1-10-ساختارگزارش تحقیق……………………………………………………………………………………………………. 25
فصل دوم: مبانی نظری و پیشینه تحقیق……………………………………………………………………… 26
2-1-مبانی نظری……………………………………………………………………………………………………. 27
2-1-1-تعریف داده کاوی.. 27
2-1-2-کاربردهای مختلف داده کاوی.. 27
2-1-3-روشهای کشف دانش در داده کاوی.. 27
2-1-4-مراحل انجام داده کاوی.. 28
2-1-4-1-پیش پردازش دادهها 29
2-1-5-تفاوت آمار و داده کاوی…………………………………………………………………………………………….30
2-1-6-روشهای داده کاوی.. 31
2-1-6-1-تعریف دسته بندی و پیش بینی.. 32
2-1-6-2-الگوریتمهای برتر داده کاوی.. 33
2-1-6-2-1-طبقهبندی ساده بیزی.. 33
2-1-6-2-2-شبکه عصبی.. 35
2-1-6-2-2-1-مزایا و معایب شبکههای عصبی.. 35
2-1-6-2-2-2-شبکه عصبی پرسپترون. 37
2-1-6-2-2-3-شبکههای چند لایه. 38
2-1-6-2-3-ماشین بردار پشتیبانی (SVMs). 38
2-1-6-2-4-نزدیکترین همسایگی.. 39
2-1-6-2-5-درخت تصمیم. 40
2-1-6-2-5-1-مدلهای درختی.. 43
2-1-6-2-5-2-ساختن مدل طبقه بندی درختی.. 44
2-1-6-2-5-3-اساس ساختار درختی.. 45
2-1-6-2-5-4-ساخت مدل درختی.. 46
2-1-6-2-5-5–اجزای رشد درخت… 46
2-1-6-2-5-6-توقف ساخت درخت… 47
2-1-6-2-5-7-فرآیند هرس درخت… 47
2-1-6-2-5-8-هرس کردن و اجتناب از بیش برازشی.. 48
2-1-6-2-5-9-روشهای هرس درخت رده بندی.. 49
2-1-6-2-5-10-الگوریتم درخت ID3 و C4.5. 50
2-1-6-2-6-رگرسیون. 51
2-1-6-3-خوشه بندی.. 52
2-1-6-3-2-الگوریتم k-means. 53
2-1-6-3-3-الگوریتم Farthest First 53
2-1-6-4-روشهای ارزیابی مدلها 54
2-1-6-4-1-یادگیری حساس به هزینه با استفاده از الگوریتم MetaCost 54
2-1-6-4-2-روش ارزیابی مدل k-fold cross validation. 55
2-1-7-تعریف اصطلاح تروما……………………………………………………………………………………….58
2-1-8-روشهای سنجش کمی تروما 58
2-2-پیشینه تحقیق …………………………………………………………………………………………………………61
2-2-1-استخراج ویژگی و ساخت مدل پیش بینی از دادههای بیماران شدید ترومایی.. 61
2-2-2- مدل سازی درخت طبقه بندی برای شناسایی جراحات شدید و متوسط ناشی از تصادفات با وسایل نقلیه موتوری درافراد جوان و میانسال 62
2-2-3- مقایسه روشهای داده کاوی درخت رگرسیون جهت پیشگویی مرگ ومیر ناشی از ضربه به سر………….. 63
2-2-4-یک مدل پیشگویانه برای تخمین خطر علائم ضربههای مهلک (له شدگی) با کمک از تکنولوژیهای داده کاوی 64
2-2-5-پیشگویی نوع بیماری و درمان بیماران بستری در بخش اورژانس…. 64
2-2-6- مدل پیشگویی متاپلاستیکی مصنوعی برای شناخت نتیجه توانبخشی در بیماران آسیب دیده مغزی… 65
2-2-7-کاربرد داده کاوی در شناخت نحوه توانبخشی بیماران آسیب دیده مغزی.. 66
2-2-8- یک سیستم داده کاوی برای تولید اطلاعات تحلیلی بر روی تومورهای مغزی برای کمک به سازندگان تصمیم سلامت عمومی 66
2-2-9-تعیین عوامل موثر در ابتلا به انواع سرطان و تعیین روش درمانی بهینه آن. 67
2-2-10-ابزارهای بیوتکنولوژی.. 68
2-2-10-1-رادیوتراپی.. 68
2-2-10-2-تحلیل دادههای میکروسکوپی.. 68
2-2-10-3-علم اعصاب تخمینی (computational neuroscience) 69
2-2-11-پیش بینی مدت زمان بستری بیماران دستگاه گوارشی در بیمارستان. 69
2-2-12-تحلیل بیماران دیابتی از طریق تاریخچه آزمایشات آنها 70
2-2-13-ارائه یک مدل ترکیبی به جهت پیش بینی بیماری دیابت نوع2. 70
2-2-14-شناسایی و پیشگویی حملات قلبی.. 71
فصل سوم: روش تحقیق…………………………………………………………………………………………..72
3-1- جامعه آماری و عملیات لازم پیش پردازش اطلاعات:……………………………………………………….73
3-1-1-مشخصات بانکهای اطلاعاتی موجود. 73
3-1-2-آماده سازی و پاکسازی دادهها 75
3-1-2-1-آماده سازی و پاکسازی دادههای بانک اطلاعات… 75
3-1-2-2-تبدیلات لازم بر روی دادهها 78
3-1-2-3-ترکیب بانکها 82
3-1-2-4-مدت زمان بستری و تاثیر آن بر روی مرگ و میر. 84
3-1-3-تعداد نمونهها و ویژگیهای مورد بررسی نهایی.. 85
3-1-3-1-مشکل بایاس دادهها و رفع آن. 87
فصل چهارم: نتایج تحقیق………………………………………………………………………………………..88
4-1- آمارهای توصیفی و ارتباط سنجی معنایی بین متغیرها………………………………………………………..89
4-2- روشهای داده کاوی و ارزیابی مدلها…………………………………………………………………………….92
4-2-1-مشکل بایاس دادهها و رفع آن……………………………………………………………………………………. 92
4-2-2-انتخاب ویژگیها……………………………………………………………………………………………………… 93
4-2-3-روش خوشه بندی الگوریتم FarthestFirst: 96
4-2-4-استخراج قواعد بین ویژگیها 96
4-2-5-هرس کردن درخت… 97
4-2-6-بررسی بیماران ضربه به سر. 101
فصل پنجم :بحث و نتیجه گیری…………………………………………………………………………………….104
5-1- نتایج حاصل ازتحقیق………………………………………………………………………………………………………106
5-2- نوع آوری های تحقیق……………………………………………………………………………………………………..109
5-3- پیشنهادات و کارهای آتی……………………………………………………………………………………………….. 110
فهرست منابع ……………………………………………………………………………………………………………………………………. 111
پیوست ها ………………………………………………………………………………………………………………………………………… 118
فهرست جدول ها :
جدول2-1) ماتریس هزینه |
54 |
جدول 2-2) معیارهای عملکرد |
57 |
جدول 3-1)لیست فیلدهای نهایی حاصل از ترکیب 3 بانک |
85 |
جدول شماره 4-1) وضعیت ترخیص بیمار |
89 |
جدول 4-2) فراوانی نسبی و ارزشp مناطق آسیب دیده بدن در مقایسه با وضعیت ترخیص بیمار |
90 |
جدول شماره 4-3)جدول ارتباط مدت بستری و وضعیت ترخیص بیمار |
91 |
جدول 4-4) الگوریتمهای انجام شده و مقایسه درصد درستی آنان در قبل و بعد از رفع مشکل بایاس |
93 |
جدول 4-5)مقایسه دقت (accuracy) الگوریتمهای مختلف داده کاوی در حالات مختلف دادهها |
95 |
جدول 4-6) قواعد مهم استخراج شده از درخت تصمیم بر روی 18 ویژگی موثر |
97 |
جدول4-7) مقایسه درصد درستی مدل با توجه به تغییر فاکتورها جهت هرس درخت |
98 |
جدول4-8) مقایسه درصد درستی مدل با توجه به تغییر فاکتورها جهت هرس درخت بر روی 18 ویژگی موثر |
98 |
جدول4-9) برخی قوانین مهم استخراج شده از درخت هرس شده |
100 |
جدول 4-10) ارتباط بین مدت بستری و وضعیت ترخیص بیماران |
101 |
جدول 5-1) مقایسه کارهای پیشینیان مشابه |
107 |
فهرست شکل ها:
شکل 2-1) مراحل انجام داده کاوی |
28 |
شکل 2-2) مدل ریاضی پیشنهادی برای شبکه عصبی مصنوعی |
37 |
شکل 2-3) شبکه های چند لایه |
38 |
شکل 2-4) نمایش ساختار کاملی از یک درخت تصمیم |
41 |
شکل 2-5) نمونهای از درخت رده بندی با توجه به سه متغیر کمکی و متغیر پاسخی با سه رده |
42 |
نمودار 2-1) روند تغییرات خطای درخت رده بندی در دو نمونه آزمون و نمونه یادگیری |
49 |
شکل 3-1) نمایی از چگونگی ترکیب بانکهای اطلاعاتی محتلف ایجاد شده از اطلاعات بیماران |
82 |
شکل 4-1) درخت تولید شده بعد از هرس با فاکتور اعتماد 0.001 و حداقل تعداد 10 نمونه در هر دسته |
99 |