%38تخفیف

دانلود پروژه:بهبود عملکرد کاوشگر وب با استفاده از روش جدید وزن دهی ویژگیWTF-IDF

تعداد 84 صفحه در فایلword

چکیده

امروزه سیستم‌های جستجوی وب برای جمع‌آوری و تجزیه‌وتحلیل ساختار اطلاعات موجود در وب حیاتی هستند. یک کاوشگر وب یک جزء نرم‌افزار است که به‌صورت تکراری، اطلاعات را از وب جمع‌آوری می‌نماید، صفحات را دانلود و لینک‌های URL را دنبال می‌نماید. سندهای خروجی یک کاوشگر وب که از وب جمع‌آوری می‌گردند، می‌توانند به منظورهای گوناگون از قبیل جستجوی وب مورداستفاده قرار گیرند. از سوی دیگر، دانش در مورد ساختار وب، به ما در طراحی یک مکانیزم مؤثرتر برای کاوش و شاخص گذاری کمک می‌نماید. برای نمونه، رتبه‌بندی صفحات ممکن است برای یافتن و شاخص گذاری URL های باکیفیت بالا ، مفید باشد.

در این پایان نامه برای بهبود عمل کاوشگر وب و رتبه بندی صفحات وب راهکار وزن دهی Tf-idf (Term Frequency-Inverse Document Frequency) با بهره گیری از  مستندات نیمه ساخت‌یافته XML ارائه گردیده است که علاوه بر توجه به چگونگی توزیع ویژگی‌ها در مستندات مختلف و مستندات کل مجموعه به مشخصات ویژگی‌ها در قالب HTML صفحات وب نیز توجه شده است.

نتایج شبیه‌سازی نشان‌دهنده بهبود در دقت الگوریتم کاوشگر وب در مقایسه با روش‌های متداول وزن دهی ویژگی نظیر روش‌های مبتنی بر Tf، روش‌های IDF و روش‌های ترکیبی دیگر می‌باشد.

 

واژه‌های کلیدی: وب، اینترنت ،کاوشگر وب، وزن دهی ویژگی، موتور جستجو، بازیابی

 

 

فهرست مطالب

عنوان                                                                                                     صفحه

فصل اول: مقدمه

1-1-مقدمه. 2

2-1- بیان مسأله. 3

3-1- ضرورت و اهمیت موضوع. 3

4-1- هدف از ارائه این تحقیق.. 4

5-1- سئوال تحقیق.. 4

6-1- ساختار پایان نامه. 4

فصل دوم: پیشینه ی پژوهش

1-2- موتور جستجو : 6

1-1-2-  عنکبوت (Spider) 7

2-1-2-  کاوشگر  (Crawler) 8

3-1-2- بایگانی کننده (Indexer) 9

4-1-2-  پایگاه داده (DataBase) 9

5-1-2- سیستم رتبه‌بندی (Ranker) 10

2-2- کاوشگر وب… 10

1-2-2- معماری کاوشگر وب11

2-2-2- نحوه عملکرد کاوشگر وب12

3-2- رفتار و سیاست‌های کاوشگروب… 14

1-3-2- سیاست انتخاب15

فهرست مطالب

عنوان                                                                                                     صفحه

2-3-2- سیاست باز مشاهده 15

3-3-2- سیاست ادب18

4-3-2- سیاست موازی.. 19

4-2- استراتژی‌های خزیدن. 19

1-4-2- حرکت عمق-شروع. 20

2-4-2- حرکت توزیع شروع. 21

3-4-2-  حرکت بهترین شروع. 22

5-2- انواع کاوشگر وب… 23

1-5-2- کاوشگر تناوبی.. 23

2-5-2- کاوشگر موازی.. 23

3-5-2- کاوشگر متمرکز. 24

4-5-2- کاوشگر افزایشی.. 24

5-5-2- کاوشگر توزیع شده 25

6-2- چالش های کاوشگر وب… 25

1-6-2- دقت : 25

2-6-2- قابلیت انعطاف پذیری : 25

3-6-2 پوشش : 25

4-6-2 تازگی : 26

5-6-2 ادب : 26

فهرست مطالب

عنوان                                                                                                     صفحه

6-6-2 مقیاس پذیری : 27

7-6-2 پایداری : 27

8-6-2 تحمل خطا : 27

7-2- انواع الگوریتم‌های کاوشگر وب… 28

1-7-2 معماری جدید Mercator کاوشگر وب مقیاس پذیر و توسعه پذیر متمرکز. 28

2-7-2-   طراحی کاوشگر وب مهاجر موازی.. 31

3-7-2- تشخیص کاوشگر وب با زمان واقعی Real-time)) 32

4-7-2 کاوشگر وب کاملا توزیع شده و مقیاس پذیر Ubi Crawler)) 34

5-7-2 طراحی معماری کاوشگر وب موضوع گرا 34

6-7-2- سرعت بخشیدن به روند کاوشگر وب در پردازنده‌های چند هسته‌ای با استفاده از ماشین مجازی   40

7-7-2- مدل سازگار با عملکرد بهینه یک کاوشگر وب افزایشی.. 42

8-7-2- بهینه‌سازی عملکرد کاوشگر متمرکز با استفاده از تقسیم‌بندی بلوک محتوا 43

9-7-2- طراحی و پیاده‌سازی کاوشگر وب توزیع شده با کارایی بالا.. 44

10-7-2-  چالش‌ها و مسائل مربوط به طراحی یک کاوشگر وب عربی.. 44

11-7-2- کاوشگر وب توزیعی با عملکرد بالا بر اساس شبکه‌های نظیر به نظیر. 47

12-7-2- مدلسازی عملکرد یک کاوشگر وب توزیع شده با استفاده از شبکه‌های فعالیت تصادفی.. 47

13-7-2- یک مدل تطبیقی برای بهینه‌سازی کارایی یک کاوشگر وب افزایشی.. 48

14-7-2- کاوش متمرکز یاد گرفتنی در وب48

 

فهرست مطالب

عنوان                                                                                                     صفحه

15-7-2- استخراج کلمه بلاگ کوچک مبتنی بر الگوریتم  Tf-idf بهبود یافته. 49

16-7-2- طراحی معماری برای بازیابی موثر اطلاعات در وب معنایی.. 50

17-7-2-   بهبود بخشیدن به خزیدن متمرکز با CBP-SLC.. 53

8-2- خلاصه کارهای انجام شده 54

9-2- نتیجه‌گیری.. 58

فصل سوم: روش تحقیق

1-3-  مقدمه. 60

2-3- روش‌های وزن دهی ویژگی: 60

1-2-3- روش‌های مبتنی بر TF: 60

2-2-3- روش‌های مبتنی بر IDF: 63

3-2-3-روش‌های مبتنی بر TF-IDF: 63

3-3- روش وزن دهی ویژگی پیشنهادی WTF-IDF.. 64

4-3- الگوریتم پیشنهادی.. 68

5-3- معماری پیشنهادی.. 69

فصل چهارم: نتایج و تفسیر آن‌ها

1-4- مقدمه. 72

2-4- پارامترهای الگوریتم. 72

3-4- نتایج الگوریتم پیشنهادی و مقایسه با الگوریتم TF-IDF (تعداد صفحات مرتبط) 73

4-4- نتایج الگوریتم پیشنهادی و مقایسه با الگوریتم TF-IDF (فرکانس واژه) 74

فهرست مطالب

عنوان                                                                                                     صفحه

5-4- نتایج الگوریتم پیشنهادی و مقایسه با الگوریتم TF-IDF (معیار دقت ) 75

6-4- نتایج الگوریتم پیشنهادی و مقایسه با الگوریتم TF-IDF (معیار بازخوانی) 76

7-4- نتایج الگوریتم پیشنهادی و مقایسه با الگوریتم TF-IDF (معیار پوشش) 77

8-4- نتایج الگوریتم پیشنهادی و مقایسه با الگوریتم TF-IDF (معیار سرعت) 78

فصل پنجم: جمع‌بندی و پیشنهادها

1-5-  نتیجه گیری.. 80

2-5- راهکار پیشنهادی.. 81

منابع. 83

مراجع. 84

 

فهرست جدول ها

عنوان                                                                                                     صفحه

جدول1-2: انواع کاوشگر وب،خصوصیات و اهداف… 54

جدول2-3: تگ های انتخابی html. 66

 

 

فهرست شکل‌ها

عنوان                                                                                      صفحه

شکل1-2 معماری روند موتورهای جستجو. 6

شکل2-2:  معماری پایه کاوشگر وب… 11

شکل3-2: نحوه کار کاوشگر وب… 13

شکل4-2: تغییرات تازگی و سن صفحه‌ی p با گذر زمان. 17

شکل5-2: حرکت کاوشگر به صفحات مختلف با استفاده از الگوریتم عمق-شروع. 20

شکل6-2:‌ترتیب حرکت کاوشگر با استفاده از الگوریتم توزیع-شروع. 21

شکل 7-2: معماری سیستم Mercator 29

شکل 8-2: کاوشگر وب متمرکز. 30

شکل 9-2: معماری سیستم کاوشگر مهاجر موازی.. 31

شکل 10-2: معماری سیستم Real-time.. 33

شکل11-2: معماری کاوشگر وب موضوع گرا. 36

شکل12-2: معماری داخلی کاوشگر وب موضوع گرا 37

شکل13-2: معماری Distiller.. 38

شکل14-2: معماری Storage proxy… 39

شکل15-2 : معماری مدل کاوشگر توزیع شده مبتنی بر VM… 41

شکل 16-2: عملکرد سیستم افزایشی.. 42

شکل17-2: لایه‌ها نشان می‌دهند که چطور صفحات رمزگذاری شده پردازش می‌شوند. 45

شکل18-2 : نام دامنه و تعداد و درصد آن‌ها 46

شکل 19-2: یک دید کلی از مدل شبکه‌های فعالیت تصادفی.. 48

فهرست شکل‌ها

عنوان                                                                                      صفحه

شکل 20-2: معماری (SBIRS) 51

شکل 21-2: روند بازیابی محتوای معنایی.. 52

شکل 22-2: معماری کاوشگر موضوعی بهبود یافته با استفاده از انتخاب محتوای لینک ها 53

شکل 1-3 نمونه سند وب… 65

شکل 2-3 فلوچارت روش پیشنهادی.. 68

شکل 3-3 معماری پیشنهادی.. 70

شکل 1-4: نمودار تعداد صفحات مرتبط.. 73

شکل 2-4: نمودار فرکانس واژه 74

شکل 3-4: نمودار دقت… 75

شکل 4-4: نمودار بازخوانی.. 76

شکل 5-4: نمودار پوشش…. 77

شکل 6-4: نمودار سرعت سیستم. 78

قبلا حساب کاربری ایجاد کرده اید؟
گذرواژه خود را فراموش کرده اید؟
Loading...
enemad-logo