%37تخفیف

دانلود پروژه:استفاده از روش¬های داده¬کاوی به منظور تسهیل جستجو در موتورهای جستجوگر متنی

تعداد 116صفحه در فایل word

چکیده

 

استفاده از روش­های داده­کاوی به منظور تسهیل جستجو در موتورهای جستجوگر متنی

شبکه جهانی اطلاعات (وب) روز به روز در حال گسترش است. کاربران از موتورهای جستجوی وب برای یافتن اطلاعات مورد نیاز خود بهره می­گیرند. یکی از مهم­ترین اهداف شبکه جهانی اطلاعات، طراحی موتورهای جستجویی است که اطلاعاتی را به کاربر نمایش دهد که با پرس­وجوی ثبت شده او از لحاظ مفهومی مرتبط باشد. حجم زیاد اطلاعات در این شبکه جهانی و همچنین عدم توانایی کاربر در بیان دقیق نیاز اطلاعاتی او، مانع بزرگی برای دستیابی به این هدف است.

کاوش فایل­های رویدادنگاری موتور جستجو، مجموعه روش­هایی است که هدف آن­ها استخراج دانش با ارزش از فایل­های رویدادنگاری پرس­وجو می­باشد. در این پژوهش کلیک­های ثبت شده کاربر در فایل­های رویدادنگاری موتور جستجو مورد کاوش قرار گرفته است تا الگوی رفتاری کاربران شناسایی شده و بتوان الگوریتمی جهت بهبود دقت نتایج حاصل از پرس­وجوی کاربر پیشنهاد نمود. در این پژوهش از نرم­افزار داده­کاوی رپیدماینر و روش خوشه­بندی K-Means بهره گرفته شده است. تحلیل صورت گرفته روی حدود سه میلیون رکورد از داده­های واقعی یک موتور جستجوی تجاری به کار گرفته شده است. با به کارگیری تکنیک­های خوشه­بندی قادر به ایجاد خوشه­های حاوی پرس­وجوهای مشابه خواهیم بود. با استفاده از این خوشه­ها، روش­هایی برای پیشنهاد نتایج بهتر به پرس­وجوی کاربر جهت بهبود لیست نتایج، ارائه شده است.

واژگان کلیدی : شبکه جهانی اطلاعات، موتور جستجو، کاوش فایل­های رویدادنگاری، خوشه­بندی، روش خوشه­بندی K-Means

فهرست مطالب

عنوان                                                                                                                      صفحه

مقدمه و کلیات پایان نامه. 2

1-1-مقدمه. 2

1-2-تعریف مساله. 3

1-3-روش و ضرورت انجام تحقیق.. 6

1-3-1- از نقطه نظر داده کاوی.. 6

1-3-2- از نقطه نظر جستجو در وب.. 7

1-4-ساختار پایان نامه. 8

ادبیات تحقیق.. 11

2-1-مقدمه. 11

2-2-داده کاوی.. 11

2-2-1- روشهای داده کاوی.. 13

2-2-1-1- رده بندی و پیش بینی. 15

2-2-1-1-1- انواع روشهاي رده بندي و پیش بینی. 17

2-2-1-2-قواعد وابستگی. 18

2-1-1-3- خوشه بندی. 19

2-2-1-3-1- انواع روشهاي خوشه بندی. 21

2-2-1-3-2- الگوریتم K-Means. 21

2-3- موتور جستجوي وب.. 22

2-3-1- اجزای موتور جستجو. 24

2-3-2- معماري موتورهاي جستجو. 25

2-4-كاوش فایل های رویدادنگاری پرس وجو. 27

2-5-توصيف پرس وجوهاي موتور جستجوي وب.. 32

2-6- تحليل زماني فایل هاي رویدادنگاری پرس وجو. 34

2-7- نشست های جستجو. 35

2-8- برخی برنامه های کاربردی کاوش فایلهای رویدادنگاری پرس وجو. 39

2-8-1- بسط پرس وجو. 39

2-8-2-پیشنهاد پرس وجو. 40

2-9-مساله حریم خصوصی در فایل های رویدادنگاری پرس وجو. 41

مروری بر تحقیقات انجام شده. 44

3-1-مقدمه. 44

3-2-پژوهش های انجام شده 45

روش پیشنهادی.. 56

4-1-مقدمه. 56

4-2- روش اجرای پژوهش بر اساس کریسپ.. 57

4-2-1- درک فضای کسب وکار 57

4-2-1-1- شناخت اهداف کسب وکار 57

4-2-1-2- ارزیابی شرایط.. 58

4-2-1-3- درک اهداف داده کاوی. 58

4-2-2- درک داده ها 59

4-2-2-1- جمع آوری داده های اولیه. 59

4-2-2-2- تشریح دادهها 60

4-2-2-3- اکتشاف در داده ها 61

4-2-2-4- بررسی کیفیت داده ها 61

4-2-3- آماده سازی داده 62

4-2-3-1- انتخاب داده ها 62

4-2-3-2- پاکسازی داده ها 62

4-2-3-3- تولید داده 64

4-2-3-4- انتخاب زیرمجموعه ای از ویژگی ها 67

4-2-4- مدلسازی.. 68

4-2-4-1- انتخاب روش مدلسازی. 68

4-2-4-2- درست کردن مدل اولیه. 68

4-2-4-2-1- روش K-Means. 69

4-2-4-2-2- روش بر پایه چگالی(DBSCAN) 70

4-2-4-3- درست کردن مدل نهایی. 71

4-2-4-4- ارزیابی اولیه مدل. 71

4-2-5- ارزیابی.. 72

4-2-5-1- ارزیابی نتایج. 72

4-2-5-1-1- ارزیابی روش های رده بندی. 72

4-2-5-1-2- ارزیابی روش های تشریحی. 73

4-2-5-2- مرور فرآیند. 77

4-2-6- به کارگیری.. 77

4-3- نرم افزارهای تحقیق.. 78

4-4- مدل کلی تحقیق.. 80

نتایج روش پیشنهادی.. 82

5-1- مقدمه. 82

5-6- اعمال تکنیک های متن کاوی.. 82

5-8- نتایج حاصل از مدل سازی.. 84

5-8-3- مدل سازی اولیه. 84

5-8-3- ارزیابی اولیه مدل. 84

5-8-4- مدل سازی نهایی.. 87

5-9- تحلیل خوشه ها 88

5-10- جمع بندی و نتیجه گیری.. 92

خلاصه و نتیجه گیری و ارائه پیشنهادات آتی.. 94

6-1- مقدمه. 94

6-2- مرور کلیات تحقیق.. 94

6-3- جمع بندی روش اجرا و مدلسازی تحقیق.. 96

6-4- پیشنهادات آینده 97

  منابع…………………………………………………………………………………………………………………………………………… 99

چکیده و صفحه عنوان به انگلیسی……………………………………………………………………………………………… 104

 

 

 

 

 

 

 

 

 

 

 

 

 

فهرست شکل­ها

 

عنوان                                                                                                                      صفحه

 

شکل 2-1- انواع روش­های داده­کاوی ……………………………………………………………………………..           13

شکل 2-2- بخشی از خروجی برنامه Apriori وکا با استفاده از داده­های آب­وهوا ………           19

شکل 2-3- ساختار موتورهای جستجوی وب …………………………………………………………………           26

شکل 2-4- ساختار موتور جستجوی توزیع شده ……………………………………………………………           27

شکل 2-5- مثالی از فایل رویدادنگاری موتور جستجوی AOL …………………………………..           31

شکل 2-6- برچسب ابری از 250 کلمه پرکاربرد در فایل­های رویدادنگاری AOL ……..           32

شکل 2-7- کلمات پرس­وجوی 20 پرس­وجوی Excite و Altavista ………………………           33

شکل 2-8- تکرارهای پرس­وجوهای ثبت شده در AOL در طول شبانه­روز ………………..           34

شکل 2-9- احتمال فشردن دکمه “بعدی” در سه فایل رویدادنگاری   ………………………..           37

شکل 2-10- خلاصه­ای از دسته­بندی 4960 پرس­وجوی تحلیل شده ………………………….           38

شکل 4-1- مدل فرآیندی کریسپ …………………………………………………………………………………           57

شکل 4-2- نمای کلی از نرم­افزار رپیدماینر …………………………………………………………………..            79

شکل 4-3- مدل کلی تحقیق ………………………………………………………………………………………….           80

شکل 5-1- فرآیند متن­کاوی استفاده شده در پژوهش ………………………………………………….           83

شکل 5-2- خروجی حاصل از متن­کاوی ………………………………………………………………………..           83

شکل 5-3- نمودار خطی مقایسه شاخص دیویس بولدین برای Kهای مختلف ……………           86

شکل 5-4- ارزیابی مدل­سازی اولیه ………………………………………………………………………………..           86

شکل 5-5- مدل­سازی نهایی در نرم­افزار رپیدماینر ………………………………………………………..           87

شکل 5-6- خروجی حاصل از خوشه­بندی ………………………………………………………………………           88

شکل 5-7- نحوه محاسبه سایت­های با بهترین رتبه برای هر خوشه …………………………….           91

 

 

 

فهرست جدول­ها

 

عنوان                                                                                                                      صفحه

 

جدول 2-1- مقایسه روش­های رده­بندی و پیش­بینی ……………………………………………………           18

جدول 2-2- مشخصه­های مهم­ترین فایل­های رویدادنگاری پرس­وجو …………………………..           30

جدول 2-3- طبقه­بندی پرس­وجوها بر اساس مطالعات صورت گرفته از کاربران ………….           36

جدول 4-1- داده­های ورودی ………………………………………………………………………………………….           60

جدول 4-2- اعمال تکنیک متن­کاوی بر روی داده­های ورودی …………………………………….           66

جدول 4-3- عملیات متن­کاوی استفاده شده ………………………………………………………………..           67

جدول 4-4- مقادیر پارامترهای استفاده شده در مدل ………………………………………………….           68

جدول 4-5- ماتریس اغتشاش ……………………………………………………………………………………….           73

جدول 5-1- ارزیابی مدل­سازی اولیه باروش K-Means با پارامترهای مختلف …………           85

جدول 5-2- برچسب­های تخصیص داده شده به خوشه­ها ……………………………………………           89

جدول 5-3- نتیجه تحلیل خوشه­ها جهت استخراج سایت­های با بهترین رتبه ……………           90

قبلا حساب کاربری ایجاد کرده اید؟
گذرواژه خود را فراموش کرده اید؟
Loading...
enemad-logo