%34تخفیف

دانلود پروژه: ارائه یک روش ساخت درخت تصمیم مبتنی بر نزدیک‌ترین همسایه در الگوریتم درخت ژنتیک

تعداد 96صفحه در فایل word

 

چکیده

الگوریتم درخت تصمیم یک موضوع مهم و کاربردی در حوزه داده کاوی است که معمولاً برای طبقه‌بندی و پیش‌بینی به کار می­رود. روش­های دسته­بندی مبتنی بر درخت تصمیم، ساده و قابل‌فهم هستند و این به عنوان مزیتی برای آن‌ها محسوب می‌شود ولی درعین‌حال دارای دقت پایین‌تری نسبت به دیگر روش‌های طبقه‌بندی هستند. در این پژوهش قصد داریم با استفاده از برنامه‌نویسی ژنتیک و الگوریتم K- نزدیک‌ترین همسایه روشی جهت طبقه‌بندی داده‌های مختلف با دقت بالا ارائه دهیم. مهم‌ترین نوآوری این تحقیق ساخت درخت تصمیم براساس برنامه‌نویسی ژنتیک چند سنی است که میزان درصد درستی تابع هزینه آن براساس الگوریتم KNN بهبود یافته است. این روش که KNN-MGP نام دارد، از سه مرحله اساسی تشکیل شده است که عبارتند از: 1) مقداردهی جمعیت اولیه که توسط روش دسته‌بندی C4.5 انجام می‌گیرد. 2) ساخت درخت تصمیم با استفاده از الگوریتم برنامه‌نویسی ژنتیک می‌باشد. 3) ایجاد بهترین ضریب جداکننده با استفاده از الگوریتم KNN. روش ارائه‌شده مزیت‌هایی دارد که آن را از سایر روش‌ها متمایز می‌کند از جمله جداسازی داده‌های که در کلاس‌های مختلف هستند؛ همچنین کاهش اندازه درخت به دست آمده.

جهت ارزیابی روش پیشنهادی از یازده مجموعه داده مختلف استفاده شده است. نتایج ارزیابی‌شده با دیگر روش‌های طبقه‌بندی معروف نشان می‌دهد که روش KNN-MGP نه تنها دارای کارایی قابل رقابت و نسبتاً خوبی است بلکه جهت یافتن راه حل بهینه زمان کمتری را صرف می‌کند.

واژه‌های کلیدی:

طبقه­بندی، درخت تصمیم، برنامه‌نویسی ژنتیک، الگوریتم K-نزدیک‌ترین همسایه

فهرست مطالب

عنوان                                                                                                                                                 صفحه

فصل  1   مقدمه    1

1-1 مقدمه    2

1-2 تعريف مسئله و بیان سؤالهای اصلي تحقيق.. 3

1-3 سابقه و ضرورت انجام تحقیق.. 5

1-4 فرضیه ها 7

1-5 هدف ها 7

1-6 کاربردها 7

1-7 جنبه نوآوری تحقیق.. 8

1-8 ساختار پایان نامه. 9

فصل 2    مفاهیم عمومی داده کاوی… 10

2-1 مقدمه. 11

2-2 مفاهیم کلی داده کاوی.. 11

2-3 روش‌های یادگیری مدل در داده کاوی.. 14

1-3-2 طبقه‌بندی.. 14

2-4 سيستم‌هاي محاسبات نرم. 23

2-4-1 الگوريتم‌هاي تکاملي.. 24

فصل 3    مروری بر کارهای انجام‌شده. 27

3-1 مقدمه. 28

3-2 روش یادگیری ترکیبی.. 28

3-3 درختان تصمیم بر اساس برنامه‌نویسی ژنتیک برای طبقه‌بندی کیفیت نرم‌افزار. 29

3-4 برنامه‌نویسی ژنتیک در درختان طبقه‌بندی.. 31

3-5 ارتقای عملکرد طبقه بندی GP به وسیله تزریق درختان تصمیم. 33

3-6 برنامه‌نویسی ژنتیکی چند سنی.. 33

3-7 درخت تصمیم چند متغیره براساس برنامه نویسی ژنتیک…. 36

فصل 4    معرفی روش پیشنهادی… 38

4-1 مقدمه. 39

4-2 برنامه نویسی ژنتیک چند سنی بهبودیافته برای ساخت درخت تصمیم. 40

4-2-1 مقداردهی جمعیت اولیه. 43

4-2-2 ساخت درخت با الگوریتم GP.. 44

4-3 روش پیشنهادی مبتنی بر الگوریتم K- نزدیکترین همسایه. 45

4-3-1 ایجاد بهترین ضریب یا ماتریس جداکننده 46

4-3-2 گروهبندی افراد. 48

4-3-3 محاسبه شایستگی.. 49

4-3-4 عملگرهای ژنتیکی.. 50

4-3-5 شرط خاتمه. 51

4-3-6 انتخاب صفت با استفاده از روش KNN… 51

4-4 جمع‌بندی.. 53

فصل 5    ارزیابی روش پیشنهادی… 54

5-1 مقدمه. 55

5-2 روش‌های ارزیابی الگوریتم‌های طبقه‌بندی.. 56

5-2-1 ماتریس درهم ریختگی.. 56

5-2-2 سطح زیر نمودار ROC 57

5-2-3 اعتبارسنجی K- تایی.. 59

5-3 مجموعه آزمایشی و شبیهسازی روش پیشنهادی.. 60

5-4 داده های مورد استفاده 61

5-5 تنظیم پارامترها 63

5-6 ارزیابی.. 67

5-7 جمع‌بندی.. 72

فصل  6   نتیجه گیری و پیشنهادها 73

6-1 مقدمه. 74

6-2 نتایج حاصل از تحقیق.. 74

6-3 نوآوری تحقیق.. 75

6-4 پیشنهادها 75

مراجع……………………. 77

واژه نامه……………. 82

 

 

فهرست شکل­ها

 

عنوان                                                                                                                   صفحه

شکل ‏2‑1. فرایند داده کاوی.. 13

شکل ‏2‑2. فرایند طبقه‌بندی.. 15

شکل ‏2‑3. الگوریتم C4.5.. 20

شکل ‏2‑4. الگوریتم‌های تکاملی.. 24

شکل ‏2‑5. ساختار کلی برنامه تکاملی.. 25

شکل ‏3‑1. فلوچارت تکنیک برنامه‌نویسی ژنتیک در درختان طبقه‌بندی.. 32

شکل ‏3‑2. فلوچارت الگوریتم MGP.. 35

شکل ‏3‑3. روش اجرای درخت تصمیم چند متغیره براساس GP.. 36

شکل ‏4‑1.  دو کلاس را از هم جدا نمیکند، ولی خط  و خط  به درستی دو کلاس را از هم جدا میکنند. 46

شکل ‏4‑2. انتخاب k نزدیکترین نمونه به خط جداکننده 52

شکل‏5‑1. نمودار ROC.. 58

شکل ‏5‑2. تأثیر پارامتر  بر روی دقت دسته بندی.. 64

شکل ‏5‑3. تأثیر پارامتر  بر روی اندازه درخت… 65

شکل‏5‑4. گروه‌بندی شده و گروه‌بندی نشده در الگوریتم MGP.. 66

شکل ‏5‑5. برش و جهش در حالت گروه‌بندی شده و گروه‌بندی نشده 66

شکل ‏5‑6. نمودار مقایسه دقت روش KNN-MGP با سایر روش­های استفاده شده 68

شکل ‏5‑7. نمودار مقایسه میانگین دقت روش KNN-MGP با سایر روش­های استفاده شده 69

شکل‏5‑8. مقایسه زمان اجرای روش پیشنهادی با سایر روشها بر حسب ثانیه. 70

شکل ‏5‑9. مقایسه اندازه درخت در روش پیشنهادی با روش MGP در حالت .. 71

شکل ‏5‑10. مقایسه روش پیشنهادی با روش MGP.. 72

 

فهرست جدول­ها

عنوان                                                                                                                      صفحه

جدول ‏5‑1. ماتریس درهم ریختگی.. 56

جدول ‏5‑2. مشخصات مربوط به مجموعه داده‌ها 62

جدول ‏5‑3. پارامترهای قابل تنظیم توسط کاربر. 63

جدول ‏5‑4. در نظر گرفته‌شده برای پارامترهای ورودی.. 66

جدول ‏5‑5. نتایج دقت روش KNN-MGP در مقایسه با سایر روش‌های استفاده­شده 67

جدول ‏5‑6. میانگین دقت روش KNN-MGP با سایر روش­های استفاده­شده 69

جدول ‏5‑7. مقایسه زمان اجرای روش پیشنهادی با سایر روش‌ها بر حسب ثانیه. 69

فهرست علائم اختصاري

شبکه عصبی مصنوعی

Artifitial Neural Networks

ANN

سطح زیر منحنی

Area Under Curve

AUC

ارتقای تزریق برنامه‌نویسی ژنتیک با تزریق درخت تصمیم

Decision Tree injection Genetic Programming

DTiGP

الگوریتم‌های تکاملی

Evolutionary Algorithms

EA

منفی غلط

False Negative

FN

مثبت غلط

False Positive

FP

سیستم­های فازی

Fuzzy Systems

FS

الگوریتم ژنتیک

Genetic Algorithms

GA

برنامه‌نویسی ژنتیک

Genetic Programming

GP

K– نزدیک‌ترین همسایه

K Nearest neighbor

KNN

برنامه‌نویسی چند سنی

Multiage Genetic Programming

MGP

طبقه‌بندی کیفیت نرم‌افزار

Software Quality Classification

SQC

منفی صحیح

True Negative

TN

مثبت صحیح

True Positive

TP

قبلا حساب کاربری ایجاد کرده اید؟
گذرواژه خود را فراموش کرده اید؟
Loading...
enemad-logo