%36تخفیف

دانلود پروژه: بررسی راهکارهای موجود و بهینه سازی مبتنی بر شبکه های عصبی جهت استخراج از مستندات نیم ساخت­یافته XML

تعداد 78 صفحه در فایل word

کارشناسی ارشد

مهندسی کامپیوتر گرایش هوش مصنوعی

بررسی راهکارهای موجود و بهینه سازی مبتنی بر شبکه های عصبی جهت استخراج از مستندات نیم ساخت­یافته XML

مقدمه

1-1) ضرورت انجام پروژه

     در آینده کتابها و مجلات کاغذی بخشی از تاریخ بشریت خواهد بود و مستندات الکترونیکی بعنوان اصلی­ترین ابزار ارتباطات نوشتاری مطرح خواهد شد. از سوی دیگر با گسترش شگرف اینترنت و استفاده روزافزون از آن برای  ارائه و یا کسب اطلاعات، شاهد حجم انبوهی از مستندات و مقالات الکترونیکی خواهند بود. در این میان دسترسی تند و صحیح به منابع مهم و مورد علاقه، یکی از دغه­غه­های استفاده کنندگان از این منابع اطلاعاتی بسیار بزرگ است. آنچه امروز از اهمیت بسیار زیادی برخوردار گردیده، کمبود یا نبود اطلاعات نیست بلکه کمبود روش­هایی در جهت استخراج و بهره­برداری از اطلاعات در دسترس به صورت بهینه است. در حالیکه حجم داده­های متنی قابل دسترس به صورت مداوم افزایش می­یابد، توانایی ما برای درک و پردازش این اطلاعات ثابت مانده است. یک ویراستار، تنها با دنبال کردن دقیق همه صفحات وب و یا سایر منابع متنی می­تواند متوجه وقوع یک مساله جدید شود.

     واضح است این روش کار برای حجم بالای اطلاعات با پیچیدگی زیاد آنها، نامناسب است. بنابراین نیاز به کشف و استخراج خودکار اطلاعات مفید از این حجم بالای داده­های متنی برای کمک به تجربه و تحلیل انسانی امری اجتناب ناپذیر است. لذا امروزه گونه جدید از تکنولوژی در حوزه مدیریت اطلاعات روی کار آمده است که قابلیت ارائه راهکارهایی برای مواجهه با این حجم عظیم اطلاعات در جهت کشف دانش­های جدید، الگوها و ارتباطات که در مجموعه وسیعی از مستندات پنهان شده است را به صورت خودکار میسر می­سازد. این تکنولوژی با نام متن­کاوی شناخته شده است. دسته بندی مستندات، بر اساس محتوی به یک یا چند طبقه از قبل تعیین شده، یکی از مهمترین مسائل در متن کاوی است.

     اساس کار طبقه­بندی کننده مستندات بر اساس ویژگی­های کلیدی و مهمی است که از خود مستندات استخراج می­شود. بدیهی است بهبود فرایند شناسایی و استخراج ویژگی­ها از مستندات نقش بسزایی در بالا بردن کارایی طبقه­بندی کننده مستندات دارد. هر چه ویژگی­های استخراج شده از مستندات بهتر باشد عملکرد و کارایی طبقه­بندی بهتر خواهد شد. از این رو در این پروژه ضمن بررسی راهکارهای موجود جهت استخراج بهتر ویژگی­ها از مستندات نیمه­ ساختیافته XML، روش جدیدی برای این منظور ارائه می­شود به گونه­ای که کارایی طبقه­بندی کننده این دسته از مستندات بهبود یابد.

بررسی راهکارهای موجود و بهینه سازی مبتنی بر شبکه های عصبی جهت استخراج از مستندات نیم ساخت¬یافته XML

فهرست مطالب

عنوان                                                                                                                              صفحه

فصل اول

مقدمه

1-1) ضرورت انجام پروژه ……………………………………………………………………………………………………………………………..1

1-2) تعریف پروژه ………………………………………………………………………………………………………………………………………..2

1-3) ساختار پایان نامه …………………………………………………………………………………………………………………………………..2

فصل دوم

شبکه های عصبی

2-1) مقدمه ………………………………………………………………………………………………………………………………………………… 3

2-2) تاریخچه شبکه های عصبی …………………………………………………………………………………………………………………… 4

2-3)  ویژگی شبکه عصبی …………………………………………………………………………………………………………………………… 6

2-3-1) قابلیت آموزش ………………………………………………………………………………………………………………….. 7

2-3-2)قابلبت تعمیم ……………………………………………………………………………………………………………………… 7

2-3-3)پردازش توزیع شده …………………………………………………………………………………………………………….. 7

2-3-4)تحمل پذیری خطا ………………………………………………………………………………………………………………  8

2-4)کاربرد شبکه های عصبی ………………………………………………………………………………………………………………………. 8

2-4-1)تشخیص الگو ……………………………………………………………………………………………………………………… 8

2-4-2)تقریب تابع …………………………………………………………………………………………………………………………. 8

2-4-3)شناسایی ساختار ………………………………………………………………………………………………………………….. 9

2-5)روند استفاده از شبکه های عصبی ……………………………………………………………………………………………………………. 9

2-5-1)مرحله آموزش …………………………………………………………………………………………………………………….. 9

2-5-1-1)آموزش نظارتی ……………………………………………………………………………………………………………… 9

2-5-1-2)آموزش نظارت نشده ……………………………………………………………………………………………………… 10

2-5-1-3)آموزش تقویت شده ……………………………………………………………………………………………………….. 10

2-5-1-4)یادگیری ……………………………………………………………………………………………………………………….. 11

2-5-2)الگوهای ورودی و آموزش ورودی ها ……………………………………………………………………………………. 11

2-5-2-1)تقسیم الگوهای آموزشی …………………………………………………………………………………………………….11

2-5-2-2)ترتیب ارائه الگوها …………………………………………………………………………………………………………….12

2-5-2-3)معیار توقف یادگیری …………………………………………………………………………………………………………12

2-5-2-3-1)رویه های بهینه سازی گرادیان ………………………………………………………………………………………..12

2-5-3)مرحله بازخورد …………………………………………………………………………………………………………………….14

2-6)الگوریتم پس انتشار خطا …………………………………………………………………………………………………………………………15

2-6-1)مرحله رفت …………………………………………………………………………………………………………………………15

2-6-2)مرحله بازگشت و اصلاح وزن ها ……………………………………………………………………………………………16

2-6-3)تکرار محاسبات ……………………………………………………………………………………………………………………16

2-6-4)توابع فعالیت (تبدیل) …………………………………………………………………………………………………………….16

2-6-4-1)تابع همانی ……………………………………………………………………………………………………………………….16

2-6-4-2) تابع پله باینری ………………………………………………………………………………………………………………..17

2-6-4-3)تابع پله دو قطبی ………………………………………………………………………………………………………………17

2-6-4-4)تابع آستانه ……………………………………………………………………………………………………………………….17

2-6-4-5)تابع خطی چند تکه ای ………………………………………………………………………………………………………18

2-6-4-6)تابع سیگموئید ………………………………………………………………………………………………………………….18

2-6-4-7)تابع تانژانت هیپربولیک ………………………………………………………………………………………………………18

2-6-4-8)تابع پایه شعاعی ………………………………………………………………………………………………………………..19

2-7)ساختار شبکه عصبی ………………………………………………………………………………………………………………………………..19

2-8)پرسپترون ………………………………………………………………………………………………………………………………………………19

2-8-1) معرفی شبکه پرسپترون ………………………………………………………………………………………………………..19

2-8-2) فرایند یادگیری ……………………………………………………………………………………………………………………21

2-8-2-1)الگوریتم یادگیری پرسپترون و قضیه همگرایی ……………………………………………………………………..21

2-8-2-2)قانون دلتا ………………………………………………………………………………………………………………………..22

2-8-3)نکات مهم در مورد شبکۀ پرسپترون ……………………………………………………………………………………….23

2-8-4)بهبود قانون یادگیری پرسپترون تک لایه ………………………………………………………………………………….24

2-8-5) ویژگیهای پرسپترون …………………………………………………………………………………………………………….24

   2-9)پرسپترون چندلایه ……………………………………………………………………………………………………………………………….25

2-9-1) معرفی شبکه پرسپترون چند لایه ……………………………………………………………………………………………25

2-9-2) فرایند یادگیری ……………………………………………………………………………………………………………………26

                 2-9-2-1) لایه های مختلف- فاکتور یادگیری مختلف ………………………………………………………….30

                 2-9-2-2) پیکربندی اولیة یک پرسپترون چند لایه ……………………………………………………………….30

                 2-9-2-3) تعداد لایه ها ………………………………………………………………………………………………..30

                 2-9-2-4) تست تعداد نرون ها ……………………………………………………………………………………. 31

                 2-9-2-5) انتخاب یک تابع تحریک ………………………………………………………………………………..31

                 2-9-2-6) مقدار دهی اولیه وزن ها ………………………………………………………………………………….32

                 2-9-2-7) توسعه و تغییر پس انتشار ………………………………………………………………………………..32

2-9-3) ویژگیهای شبکه های پرسپترون چند لایه ………………………………………………………………………….33

2-9-4) کاربرد شبکه پرسپترون چند لایه ……………………………………………………………………………………………34

2-10) جمع بندی ………………………………………………………………………………………………………………………………………34

فصل سوم

انواع روشهای وزن دهی و دسته بندی متون

3-1) مقدمه …………………………………………………………………………………………………………………………………………………..35

3-2) دسته بندی مجموعه ها برای آموزش و آزمایش………………………………………………………………………………………….35

3-3) پیش پردازش­های اولیه بر روی متون ……………………………………………………………………………………………………….37

3-4) انواع روش های وزن دهی ……………………………………………………………………………………………………………………..37

3-4-1 ) وزن­دهی دودویی ……………………………………………………………………………………………………………….38

3-4-2) وزن­دهی با تکرار کلمات ………………………………………………………………………………………………………38

3-4-3) وزن­دهی TFIDF ………………………………………………………………………………………………………………38

3-4-4)وزن­دهی TFC ……………………………………………………………………………………………………………………38

3-4-5) وزن­دهی LTC. ………………………………………………………………………………………………………………….39

3-4-6) وزن دهی TFCRF. …………………………………………………………………………………………………………..39

3-4-7) وزن­دهی آنتروپی ………………………………………………………………………………………………………………..40

3-5) انواع روش­های تصیح خطا …………………………………………………………………………………………………………………….41

3-5-1) روش آستانه­یابی تکرار سند (DF) ……………………………………………………………………………………….42

3-5-2) روش بهره اطلاعاتی (IG) …………………………………………………………………………………………………..42

3-5-3) روش اطلاعات متقابل (MI) ……………………………………………………………………………………………….42

3-5-4) روش CHI (X2 –statistic) ……………………………………………………………………………………………43

3-5-5)روش ضریب همبستگی ……………………………………………………………………………………………………….43

3-5-6) روش SCHI …………………………………………………………………………………………………………………….44

3-6) انواع روش­های دسته­بندی متون ……………………………………………………………………………………………………………..45

3-6-1) روش Rocchio. ………………………………………………………………………………………………………………45

3-6-2) روش بیزین ساده ……………………………………………………………………………………………………………….46

3-6-3) روش KNN ……………………………………………………………………………………………………………………..47

3-6-4) روش درخت تصمیم­گیری …………………………………………………………………………………………………..48

3-6-5) روش رگرسیون …………………………………………………………………………………………………………………48

3-6-6) روش براساس قاعده …………………………………………………………………………………………………………..49

3-6-7)  شبکه­های عصبی ………………………………………………………………………………………………………………49

3-6-8) روش SVM …………………………………………………………………………………………………………………….50

3-7) جمع بندی ……………………………………………………………………………………………………………………………………..50

فصل چهارم

پیاده سازی دسته بندی متون با استفاده از شبکه عصبی پرسپترون چند لایه (MLP)

4-1) مقدمه ………………………………………………………………………………………………………………………………………………..51

45-2) مستندات نیمه ساختیافته ………………………………………………………………………………………………………………………51

4-2-1)مستندات نیمه ساختیافتهXML …………………………………………………………………………………………..52

4-3) آزمایش و پیاده سازی …………………………………………………………………………………………………………………………53

4-3-1) پیاده سازی زیر سیستم وزن دهی ویژگی …………………………………………………………………………54

4-3-1-1)کلاس KKN_TFCRF_Last ………………………………………………………………….54

                        4-3-1-2) کلاس  TFCRF ……………………………………………………………………………………….56

  4 -3-2) پیاده سازی زیر سیستم طبقه بندی کننده ………………………………………………………………………….56

4-3-2-1)کلاس MLP_Approximation ………………………………………………………………56

4-3-2-2) کلاس  MLP_MapProcessing ……………………………………………………………57

4-4) ارزیابی و تحلیل عملکرد شبکه عصبی چند لایه پرسپترون ………………………………………………………………………57

4-5) تشکیل کمیتیه نوع اول با شبکه عصبی…………………………………………………………………………………………………..57

4-6) جمع بندی ………………………………………………………………………………………………………………………………………..58

    فصل پنجم

نتیجه­گیری کلی

5-1) مقدمه ………………………………………………………………………………………………………………………………………………59

5-2) جمع بندی نهایی ………………………………………………………………………………………………………………………………59

5-3) پیشنهاداتی برای آینده ………………………………………………………………………………………………………………………..59

مراجع ………………………………………………………………………………………………………………………………61

فهرست اشکال

عنوان                                                             صفحه

شکل (2-1) حالت هایی از گرادیان نزولی در مورد توابع دوبعدی ………………………………………………………………………….13

شکل (2-2) مشکلات ممکن در گرادیان نزولی ……………………………………………………………………………………………………14

شکل (2-3) الگوریتم  یادگیری پرسپترون ……………………………………………………………………………………………………………21

شکل (2-4) نمونه های از شبکه MLP ………………………………………………………………………………………………………………26

شکل (2- 5) مراحل انجام مشتقات …………………………………………………………………………………………………………………….28

شکل (4-1) نمونه ای از یک مستد نیمه ساختیافته در حالت درختی………………………………………………………………………..52

شکل (4-2) نمونه ای از یک مستد نیمه ساختیافتهXML………………………………………………………………………………………53

شکل (4-3) شبه کد مربوط به محاسبه تکرار کلمات در سند …………………………………………………………………………………55

شکل (4-4) شبه کد مربوط به حذف ویژگیهای کم تکرار …………………………………………………………………………………….55

فهرست جدول

عنوان                                                                                                                                                       صفحه

جدول (4-1) تعداد هر سند متنی ……………………………………………………………………………………………………………………..54­

جدول (4-2) مقایسه روش­ها……………………………………………………………………………………………………………………………58

قبلا حساب کاربری ایجاد کرده اید؟
گذرواژه خود را فراموش کرده اید؟
Loading...
enemad-logo