فهرست مطالب:
عنوان صفحه
فصل اول. مقدمه………………………………………………………………………………………..……. 3
1-1- مقدمه……………………………………………………………………………………………………. 4
1-2- سرفصل مطالب……………………………………………………………………………………….. 8
فصل دوم. ادبیات موضوعی ……………………………………………………………………………. 11
2-1- معرفی علم داده کاوی و کاربرد های آن………………………………………………… 12
2-2- دلایل پيدايش داده کاوی……………………………………………………………………. 13
2-3- معرفی معیارها و الگوریتم های استفاده شده……………………………………………. 15
2-4- معرفی بازیابی اطلاعات…………………………………………………………………….. 21
2-5- تفاوت بازیابی اطلاعات و بازیابی داده………………………………………………….. 23
فصل سوم. پیشینه تحقیق……………………………………………………………………………… 25
3-1-کارهای گذشته ……………………………………………………………………………….. 26
فصل چهارم. ابزارهای استفاده شده ………………………………………………………………. 30
4-1- فرایند استفاده از نرم افزار وردنت ………………………………………………………. 31
4-2-مراحل استفاده از نرم افزار وردنت و استفاده آن در جاوا …………………………….. 31
4-3- نحوه کار با دیکشنری وردنت ……………………………………………………………… 33
4-4- مراحل کار با Weka ………………………………………………………………………… 39
فصل پنجم. دسته بندی مقالات و استخراج جملات مشابه …………………………………. 44
5-1- مقدمه……………………………………………………………………………………………………….. 45
5-2- فرآیند کلی پیاده سازی پایان نامه………………………………………………………….. 46
5-3- استخراج و دسته بندی مقالات مشابه ویکی پدیا ……………………………………….. 48
5-4- فرآیند استخراج جملات مشابه…………………………………………………………….. 53
5-5- وزن دهی به خصیصه ها و استخراج جملات موازی…………………………………… 60
فصل ششم. آزمایشات و نتایج بدست آمده…………………………………………………….. 63
6-1- آزمایشات صورت گرفته…………………………………………………………………….. 64
6-2- بررسی کارایی روش پیشنهادی در استخراج مقالات مشابه …………………………. 64
6-3- استخراج جملات موازی از دسته های ساخته شده ……………………………………. 69
منابع………………………………………………………………………………………………………. 78
فهرست اشکال
عنوان صفحه
شکل 2-1:داده کاوی به عنوان یک مرحله از فرایند کشف دانش……………………………. 13
شکل 2-2:درخت حاصل از مرحله اول با انتخاب خصیصه درآمد…………………………. 18
شکل 2-3:درخت نهایی……………………………………………………………………………. 19
شکل 4-1جستجوی کلمات در وردنت…………………………………………………………. 32
شکل 4-2 کار با نرم افزار وردنت در جاوا……………………………………………………… 34
شکل 4-3: کار با نرم افزار وردنت در جاوا…………………………………………………….. 36
شکل 4-4:خروجی نرم افزار وردنت…………………………………………………………….. 37
شکل 4-5: کار با نرم افزار وردنت در جاوا…………………………………………………….. 39
شکل 4-6:باز کردن فایل……………………………………………………………………………. 40
شکل 4-7: انتخاب فیلتر……………………………………………………………………………. 41
شکل 4-8: وارد کردن شماره فیلتر……………………………………………………………….. 41
شکل 4-9: نحوه حذف……………………………………………………………………………… 42
شکل 4-10:انتخاب فیلتر…………………………………………………………………………… 42
شکل 4-11: انجام تنظیمات………………………………………………………………………… 43
شکل 4-12: وارد کردن شماره فیلد………………………………………………………………. 43
شکل 5-1: استخراج متون ویکی پدیا…………………………………………………………….. 50
شکل 5-2: اندیس گذاری و جستجوی داده ها به وسیله روش های بازیابی اطلاعات….. 51
شکل 5-3: استفاده از وردنت در استخراج معانی………………………………………………. 52
شکل 5-4:فرآیند استخراج میزان ترازشدگی به کمک الگوریتم EM……………………….. 54
شکل 5-5: فرآیند استخراج میزان ترازشدگی به کمک الگوریتم EM………………………. 55
شکل 5-6: فرآیند استخراج میزان ترازشدگی به کمک الگوریتم EM………………………. 55
شکل 5-7: فرآیند استخراج میزان ترازشدگی به کمک الگوریتم EM………………………. 55
شکل 5-8: فرآیند ایجاد مدل زبانی……………………………………………………………….. 56
شکل 5-9:فرآیند ایجاد مدل زبانی………………………………………………………………… 57
شکل 5-10:استفاده از معیار لونشتاین……………………………………………………………. 60
فهرست نمودارها
عنوان صفحه
نمودار 6-1:دقت بدست آمده توسط الگوریتم رگرسیون منطقی…………………………….. 71
نمودار 6-2: دقت بدست آمده توسط الگوریتم رگرسیون خطی………………………………….. 71
نمودار 6-3: دقت بدست آمده توسط معیار Info-Gain…………………………………….. 72
نمودار 6-4: دقت بدست آمده توسط Chi-Squre…………………………………………… 73
نمودار 6-5: دقت دسته های مختلف در استخراج جملات موازی…………………………. 74
عنوان صفحه
جدول 2-1:نمونه ای از یک داده آزمایشی………………………………………………………. 16
جدول 5-1:وزن بدست آمده توسط الگوریتم رگرسیون منطقی……………………………… 60
جدول 5-2: وزن بدست آمده توسط معیار Chi-Squre…………………………………….. 60
جدول 5-3: وزن بدست آمده توسط معیار Info Gain………………………………………. 61
جدول 5-4: وزن بدست آمده توسط الگوریتم رگرسیون خطی……………………………… 61
جدول 6-1: لیست مقالات 10 دسته مختلف……………………………………………………. 68
جدول 6-2:میزان دقت هر یک از دسته ها………………………………………………………. 69
جدول 6-3: مقایسه روش ترازبندی جمله با دسته…………………………………………….. 75
جدول 6-4: ارزیابی توسط ماشین ترجمه……………………………………………………….. 77