%41تخفیف

دانلود پروژه:ارائه یک چارچوب وب کاوی برای دسترسی به وب سایت‌های مطلوب

تعداد 100صفحه در فایل word

چکيده

 

 

ارائه یک چارچوب وب کاوی برای دسترسی به وب سایت‌های مطلوب

 

صفحات گسترده وب به عنوان یک سرویس اطلاعاتی بزرگ، سراسری و توزیع شده، در زمینه‌های مختلف خدماتی را ارائه می‌دهد. وب همچنین شامل مجموعهای غنی و پویا از اطلاعات پیوندهای افراد به صفحات وب و استفاده از آن می‌باشد که منابع با ارزشی را برای وب‌کاوی فراهم می‌‌کند. كاربران وب داراي علاقيات متفاوتي مي‌باشند. به دليل گستردگي اطلاعات و محدودیت‌های موتورهاي جستجو در ارائه مطالب مرتبط با اهداف كاربران، مسئله پيشنهاد صفحات متناسب با جستجوي كاربران به عنوان يك چالش مطرح مي‌گردد. وب‌كاوي دارای فعالیت‌هایی می‌‌باشد که ساختارهای وب را جستجو، محتوای وب را رتبه‌بندی و نظم و پویایی موجود در محتوای وب را کشف می‌کند. داده‌هاي دسترسي كاربران به وب، كه توسط سرويس دهندگان وب ثبت مي‌گردند و محتواي متني اين وب سايت‌ها، منابع اطلاعاتي ارزشمندي را برای شناسايي و پيش بيني رفتار كاربران فراهم مي‌كنند.

در اين پایان نامه، ما یک چارچوب وبکاوی را ارائه مي‌دهيم كه رفتارهای كاربران و علاقيات آن‌ها به بخش‌های موضوعي وب را كشف كرده و صفحاتي كه داراي بيشترين ارتباط با جستجوي كاربر مي‌باشند را به وي پيشنهاد مي‌دهد. اين چارچوب از داده‌هاي دسترسي كاربران به وب و محتواي متنی آن‌ها و همچنين از استراتژي‌هاي جديد و تكنيك‌هاي وب‌كاوي استفاده مي‌كند. در نهایت، اطلاعات دسترسي كاربران به وب و محتواي وب آن‌ها را خوشه بندي كرده و قوانين وابستگي بين آن‌ها را استخراج مي‌كند. اين سيستم اطلاعات بدست آمده از كل كاربران را مجتمع كرده و دانش بدست آمده از اين اطلاعات را بين كاربران به اشتراك مي‌گذارد. نتايج بدست آمده، نشاندهنده بهبود در روند پيشنهاد‌‌‌‌‌دهي به كاربران ‌وب و شخصی‌سازی وب مي‌باشد.

فهرست مطالب

 

 

عنوان                                                                                                                  صفحه

1- مقدمه   10

1-1- مقدمه  10

1-2- راهکارهایی برای حل چالش‌های موجود  11

2- وب کاوی: الگوریتم‌ها و تکنیک‌ها  14

2-1- کاوش استفاده وب    14

2-1-1- پیش پردازش داده‌های استفاده  15

2-1-2- ثبت وقایع توسط سرویس‌دهنده وب    16

        2-1-2-1- آدرس IP میزبان   20

        2-1-2-2- عملیات http  20

        2-1-2-3- تاریخ و زمان   20

        2-1-2-4- آدرس درخواستی کاربر (URL)  21

        2-1-2-5- عامل مرورگر  21

        2-1-2-6- کد نتیجه  21

        2-1-2-7- شیء منبع   22

        2-1-2-8- قانون   22

        2-1-2-9- نوع عمل   23

        2-1-2-10- حجم فایل   23

2-1-3- آماده سازی داده‌های استفاده از وب    23

        2-1-3-1- پاکسازی داده‌ها 24

        2-1-3-2- شناسایی ربات‌ها 24

        2-1-3-3- شناسایی کاربر  26

        2-1-3-4- شناسایی نشست    28

        2-1-3-5- تکمیل مسیر  29

        2-1-3-6- شناسایی تراکنش     30

2-1-4- تعیین شاخص علاقه مندی در نشست کاربران   31

2-1-5- کشف قوانین وابستگی و الگوریتم Apriori 33

        2-1-5-1- الگوریتم Apriori 36

        2-1-5-2- قوانین وابستگی وزن دار  38

2-1-6- نمایش علاقه‌مندی کاربر و خوشه‌بندی کاربر  39

2-2- کاوشمحتوایوب    41

2-2-1- روال مدلسازی برداری   42

2-2-2- اندیس گذاری مستندات محتوا 42

2-2-3- وزن‌دارکردن واژگان اسناد محتوا 44

2-2-4- شباهت سنجی اسناد متنی   46

        2-2-4-1- فاصله اقلیدسی   47

        2-2-4-2- فاصله کسینوسی   47

        2-2-4-3- ضریب جاکارد  48

        2-2-4-4- ضریب همبستگی   49

        2-2-4-5- شباهت سنجی میان اسناد با استفاده از معیار N-Gram   49

2-2-5- نمایش شباهت محتوا 50

2-2-6- خوشه‌بندی محتوا 51

        2-2-6-1- الگوریتم‌های خوشه‌بندی سلسله مراتبی و انباشتگی   52

        2-2-6-2- الگوریتم‌های قسمت‌بندی   54

        2-2-6-3- روش‌های خوشه‌بندی Scatter-Gather  56

2-3- کاوش ساختار وب    58

2-3-1- الگوریتم HITS  61

2-3-2- الگوریتم Page Rank  64

3- مروری بر روی کارهای انجام شده  67

3-1- چارچوب‌های پیشنهاد دهنده تکی مبتنی بر کاوش استفاده از وب    69

3-2- چارچوب‌های پیشنهاد دهنده ترکیبی مبتنی بر کاوش استفاده از وب و محتوای وب    71

3-3- چارچوب‌های پیشنهاد دهنده ترکیبی استفاده از وب و ساختار وب    73

3-4- چارچوب‌های پیشنهاد دهنده ترکیبی مبتنی بر سه تکنیک داده کاوی   74

4- چارچوب پیشنهادی    77

4-1- چارچوب وب کاوی پیشنهادی   78

4-1-1- ماژول آفلاین   79

        4-1-1-1- زیر سیستم مدیریت کاربران   79

        4-1-1-2- زیرسیستم مدیریت محتوا 81

4-1-2- ماژول آنلاین   82

5- ارزیابی نتایج    86

5-1- نتایج ارزیابی   88

5-2- نتیجه گیری و کارهای آتی   92

فهرست منابع   94

فهرست جداول

 

عنوان                                                                                                                  صفحه

جدول 2-1-نمونه گزارش ISA- مقصدهای نمونه  18

جدول 2-2-فایل ثبت وقایع پاکسازی شده برای وب ساختگی   27

جدول 2-3-مجموعه اقلام به ازای تراکنش‌ها 37

جدول 2-4-ماتریس علاقه‌مندی کاربر به صفحات وب    40

جدول 2-5-ماتریس شباهت صفحات وب    50

جدول 5-1-نمایش آماری داده‌های پیش‌پردازش شده  86

 

 

فهرست شکل‌ها

 

 

عنوان                                                                                                                  صفحه

شکل 2-1-ساختار ارتباطی وب ساختگی   27

شکل 2-2-نمایش صفحات معتبر و مرکز  59

شکل 2-3-مثال گراف ارتباطی صفحات وب    62

شکل 3-1-چارچوب‌های پیشنهاد دهنده تکی مبتنی بر کاوش استفاده از وب    69

شکل 3-2-چارچوب‌های پیشنهاد دهنده ترکیبی مبتنی بر کاوش استفاده از وب و محتوای وب    71

شکل 3-3-چارچوب‌های پیشنهاد دهنده ترکیبی مبتنی بر کاوش استفاده از وب و ساختار وب    73

شکل 3-4-چارچوب‌های پیشنهاد دهنده ترکیبی مبتنی بر کاوش استفاده وب و محتوای وب و ساختار وب    74

شکل 4-1-نمای کلی از چارچوب پیشنهادی   79

شکل 4-2-زیر سیستم مدیریت کاربران   80

شکل 4-3-زیر سیستم مدیریت محتوا 81

شکل 4-4-بخش آنلاین: ایجاد پیشنهاد متناسب با علاقه مندی کاربران   83

شکل 5-1- مقایسه میزان رضایتمندی کاربران از دو سیستم مدیریت کاربران و سیستم پیشنهاددهنده ترکیبی با استفاده از اندازه مختلف پنجره پیشنهاد  88

شکل 5-2- مقایسه میزان رضایتمندی کاربران از دو سیستم مدیریت کاربران و سیستم پیشنهاددهنده ترکیبی با استفاده از متوسط تعداد صفحات تاریخچه ناوبری کاربران   89

شکل 5-3-مقایسه مقدار precision به ازای دو متد شباهت سنجی TF/IDF و N-Gram با استفاده از اندازه مختلف پنجره پیشنهاد  90

شکل 5-4- مقایسه مقدار Recall به ازای دو متد شباهت سنجی TF/IDF و N-Gram با استفاده از اندازه مختلف پنجره پیشنهاد  90

شکل 5-5-مقایسه مقدار F-Score به ازای دو متد شباهت سنجی TF/IDF و N-Gram با استفاده از اندازه مختلف پنجره پیشنهاد  90

شکل 5-6-مقايسه روش‌هاي TF/IDF و N-Gram در ارائه صفحات پیشنهادی مناسب به كاربران مختلف    91

قبلا حساب کاربری ایجاد کرده اید؟
گذرواژه خود را فراموش کرده اید؟
Loading...
enemad-logo