%41تخفیف

دانلود پروژه: خلاصه سازی چند سندی بر اساس تحلیل معنایی پنهان

تعداد 77 صفحه در فایل word

کارشناسی ارشد

رشته علوم کامپیوتر-گرایش علوم تصمیم و مهندسی دانش

 

 

خلاصه سازی چند سندی بر اساس تحلیل معنایی پنهان

چکیده

خلاصه سازی خودکار متن، نقش مهمی در بازیابی اطلاعات و طبقه بندی متن ایفا می کند و روشی برای مشکل اطلاعات بیش از حد می باشد. خلاصه سازی متن فرایند کاهش اندازه متن و در عین حال حفظ محتوای اطلاعاتی آن می باشد.

در این پایان نامه یک روش خلاصه سازی چند سندی متن مبتنی بر تحلیل روابط معنایی پنهان پیشنهاد شده است .  خلاصه سازی گزینشی چند سندی ، خلاصه سازی است که چند سند را به عنوان ورودی می گیرد و گزیده ای از جملات اسناد ورودی را به عنوان خلاصه بازمی گردارند. بخش های اصلی روش پیشنهادی شامل خوشه بندی معنایی جملات با استفاده از شبکه واژگان انگلیسی و اعمال روش تحلیل معنایی پنهان بر روی خوشه ها برای استخراج مفاهیم کلی متن می باشد.

تحلیل معنایی پنهان روشی برای استخراج و نمایش معنای کلمات در متن، با استفاده از محاسبات آماری بر روی مجموعه بزرگی از متن می باشد. در این روش ، برای خوشه بندی جملات، با استفاده از شبکه واژگان شباهت معنایی جملات را بدست می آوریم. شبکه واژگان در واقع شبكه ای متشکل از هزاران مفهومی است كه بوسیله روابط معنایی به هم مرتبط می باشند. نحوه استفاده از تحلیل معنایی پنهان در این پایان­نامه، باعث افزایش قابل توجه دقت نسبت به کاربردهای قبلی این تکنیک در روش­های پیشین شده است.

ارزیابی سیستم پیشنهادی برروی داده­های کنفرانس DUC و با استفاده از معیار ارزیابی ROUGE صورت گرفته است.

كلمات كلیدی:

خلاصه­سازی متن، خلاصه­سازی چندسندی، مفهوم، زمینه، آنالیز استخراج روابط معنایی پنهان، شباهت معنایی

فهرست مطالب

1-  مقدمه          2

2-  مرور ادبیات 6

2-1-  تعاریف پایه در پردازش زبان طبیعی.. 6

2-1-1 ریشه یابی.. 6

2-1-2-  برچسب زنی معنایی کلمات.. 7

2-1-3-  حذف ایست واژه ها 7

2-1-4-  خلاصه سازی تک سنده 8

2-1-5-  خلاصه سازی چند سنده 8

2-1-6- خلاصه‌های استخراجی.. 9

2-1-7- خلاصه سازی چکیده ای.. 9

2-1-8-  شبکه واژگان. 10

2-2- بررسی روش‌های خلاصه سازی.. 12

2-2-1-    روش فرکانس کلمه. 12

2-2-2-    روش مبتنی بر موقعیت یا جایگاه 13

2-2-3-    روش مبتنی بر همپوشانی با عنوان یا پرس و جو. 14

2-2-4-    روش مبتنی بر عبارات اشاره 14

2-2-5-    روش ترکیبی.. 15

2-2-6-     خلاصه سازی موضوع محور 15

2-2-7-    روش‌های مبتنی بر قواعد فازی.. 16

2-2-8-  روش مبتنی بر دسته بندی کننده های بیزین.. 18

2-2-9- روش مبتنی بر زنجیرههای مارکوف.. 18

2-2-10-  روش‌های مبتنی بر هم‌وقوعی کلمات.. 19

2-2-11- روش مبتنی بر شباهت لغوی.. 20

2-2-12-  روش‌های مبتنی بر گراف.. 22

2-2-13-  روش‌های مبتنی بر خوشه‌بندی.. 23

2-2-14- روش های مبتنی بر آنالیز معنایی پنهان در متن.. 25

2-2-15- استفاده از یاگو در خلاصه سازی.. 29

2-2-16- خلاصه‌سازی با استفاده از رویکرد انسان شناختی.. 29

2-3- سیستم‌های خلاصه‌ساز خودکار 30

2-3-1- MEAD.. 30

2-3-2- WebInEssence  31

2-3-3- NEATS  31

2-3-4- GISTexter 31

2-3-5- NetSum.. 32

2-3-6- سیستم SweSum.. 32

2-3-7-  سایت Newsfeedresearcher 32

2-3-8-  سایت Iresearch-reporter 33

2-3-9-  سایت Shablast 33

2-3-10- سیستم  Newsblaster 33

2-3-11-   QCS. 33

2-4- روشهای ارزیابی خلاصه سازی.. 33

2-4-1- روش ارزیابی بیرونی.. 34

2-4-2- روش ارزیابی درونی.. 36

2-5-مجموعه داده های استاندارد برای خلاصه سازی.. 39

2-5-1-    داده های استاندارد DUC.. 39

3-  روش پیشنهادی.. 42

3-1- کاهش ابعاد. 43

3-2- روش پیشنهادی.. 44

3-2-1-  فاز پیش پردازش… 46

3-2-2-  خوشه بندی جملات از نظر معنایی.. 47

3-2-3-  استخراج مفاهیم کلی اسناد. 52

3-2-4-  انتخاب جملات برای قرار گیری در خلاصه. 53

3-3-  روش های مختلف وزن دهی.. 54

4-  پیاده سازی و ارزیابی   57

4-1- نتایج آزمایش روی داده های DUC 2007. 58

4-1-1 بررسی آستانه میزان شباهت در حذف افزونگی.. 58

4-1-2-  ارزیابی دقت خلاصه ها 59

5- نتیجه گیری و کارهای آینده. 67

6- منابع           68

 

فهرست شکل ها

شکل 2-1-  نمونه هایی از نقشهای معنایی و برچسبهای آنها 7

شکل 2-2- قسمتی از سلسله مراتب شبکه واژگان. 11

شکل 2-3- برخی از عبارات اشاره در زبان انگلیسی.. 14

شکل 2-4- خلاصه‌ساز خودکار بر اساس قواعد فازی.. 17

شکل 2-5- گراف هم‌وقوعی کلمات.. 20

شکل 2- 6-  نمونه ای از زنجیرههای لغوی.. 22

شکل 2-7-تجزیه ماتریس با اعمال SVD بر روی ماتریس… 26

شکل 3- 1- تجزیه ماتریس A به سه ماتریس U، Σ و VT کاهش یافته با استفاده از اعمال SVD بر روی آن. 44

شکل 3-2- معماری روش پیشنهادی.. 45

(شکل 3-3): نمونه ای از ساختار شبکه واژگان. 51

شکل 4-1-  نمودار فراخوانی ROUGE 2 برای DUC 2007. 60

شکل 4-2-  نمودار دقت  ROUGE-2 برای DUC 2007. 60

شکل 4-3-  نمودار فاکتور F معیار ROUGE-2 برای DUC 2007. 61

شکل 4-4-  نمودار فراخوانی ROUGE SU4 برای DUC 2007. 62

شکل 4-5-  نمودار دقت ROUGE SU4 برای DUC 2007. 63

شکل 4-6-  نمودار F-Measure معیار ROUGE SU4 برای DUC 2007. 63

شکل 4-7- نمونه ای از خلاصه های تولید شده برای موضوع 719 توسط سیستم پیشنهادی.. 65

فهرست جداول

جدول 2-1-  نمونه ای از ایست واژه ها 8

جدول ‏2‑2- تعدادی از روشهای وزندهی کلمات.. 13

جدول 2-3- اطلاعات مربوط به مجموعه داده هایDUC.. 40

جدول 4-1- مشخصات کلی پیکره داده های DUC 2007. 57

جدول 4-2- مشخصات موضوع 719 موجود در پیکره 58

جدول 4-3-  بررسی میزان آستانه شباهت جملات در حذف افزونگی.. 59

قبلا حساب کاربری ایجاد کرده اید؟
گذرواژه خود را فراموش کرده اید؟
Loading...
enemad-logo