%34تخفیف

دانلود پروژه:ارائه روشي نوين جهت خلاصه‌سازي خودکار متون

تعداد 110صفحه در فایل word

چکيده

 

خلاصه سازی اتوماتیک متون با استفاده از تکنیک سه سطحی

 

با افزایش مطالب آنلاین اینترنتی نیاز به ایجاد سیستم‌های خلاصه‌ساز توسط انجمن پردازش زبان طبیعی بسیار احساس می‌شود. خلاصه‌سازی متن، روشی است که هدف آن تولید چکیده‌ای از یک یا چندین سند است به گونه ای که اطلاعات ضروری و مهم متن حفظ شود. خلاصه‌سازی خودکار متن، همواره یکی از شاخه های پر طرفدار پردازش زبان طبیعی بوده است. از سال 1957 تا کنون روش‌ها و مقالات متعددی جهت خلاصه سازی متون انگلیسی ارائه شده است. در این پایان‌نامه، روش نوینی جهت یافتن قسمت‌های منسجم متن و به کمک آن استخراج جمله‌های مهم ارائه شده است. مزیتی که این روش را از روش‌های دیگر متمایز می‌کند، مدلسازی نحوه‌ی خلاصه‌سازی انسان‌ها با یافتن قسمت‌های منسجم متن است که در سه سطح بررسی می‌گردد که سیستم‌های دیگر این بررسی را به این شکل انجام نداده‌اند. علت اتخاذ نام این سیستم به سیستم سه سطحی نیز بدین دلیل بوده است. دیتا‌ستی که استفاده می‌شود DUC  است که اکثر سیستم‌های خلاصه‌ساز برای مقایسه کار خود از این پیکره استفاده می‌کنند. نتایج و آزمایشات بر روی این پیکره میزان مؤثر بودن این روش را بر روی  خلاصه سازهای چند سندی نسبت به روش‌های پیشین نشان می دهد.

واژگان کلیدی: خلاصه سازی چند سنده، خلاصه سازی تک سنده، تکنیک سه سطحی

فهرست مطالب

عنوان                                                                                                                      صفحه

فصل اول: کلیات

1-1- مقدمه. 2

1-2- ضرورت وجود سیستمهای خلاصهساز 3

1-3- تعاریف خلاصهسازی.. 4

1-4- انواع سیستمهای خلاصهساز 5

1-5- هدف از انجام این پژوهش…. 8

1-6- ساختار پایاننامه. 9

فصل دوم: مفاهیم مورد نیاز در خلاصهسازی متن

2-1- کلمات سراسری.. 11

2-2- محاسبه‌ی فرکانس کلمه- معکوس فرکانس سند. 12

2-3- هستانشناسی.. 14

2-3-1- شبکه معنایی وردنت… 14

2-4- دیتاست DUC.. 17

2-5- معیارهای ارزیابی.. 18

2-5-1- معیار دقت و معیار صحت 18

2-5-2- معیار f.. 21

2-5-3- معیار ارزیابی ROUGE.. 22

عنوان                                                                                                                      صفحه

2-5-3-1- ROUGE-N.. 23

2-5-3-2- ROUGE-L، بیشترین دنباله‌ی مشترک… 23

2-5-3-3- ROUGE-W، بیشترین دنباله‌ی مشترک وزن‌دار 24

2-5-3-4- ROUGE-S، دوتایی- پرش آماری هم رخداد. 25

2-5-3-5- ROUGE SU، گسترده یافته‌ی ROUGE-S. 26

2-5-4- الگوریتم ژنتیک…. 26

فصل سوم: مروری بر کارهای انجام شده

3-1- روش‌های سطحی.. 29

3-2- روش‌های یادگیری ماشین.. 32

3-3- روش‌ خلاصه‌سازی به کمک روش مرکزیت… 37

3-4- روش‌هایی به کمک روش‌های پردازش  زبان طبیعی.. 39

3-5- روش‌های مبتنی بر گراف و ارتباط بین جملات… 51

3-5-1- فاز امتیاز دهی جملات… 52

3-5-2- فاز دسته بندی جملات… 52

3-6- روش‌های مبتنی بر پایه‌ی دانش‌نامه ویکی‌پدیا 55

3-6-1- استخراج عبارات… 58

3-6-3- امتیازدهی جملات… 60

3-6-4- HITS عبارت-جمله. 61

3-7- روش‌های مبتنی بر الگوریتم‌های تکاملی.. 62

عنوان                                                                                                                      صفحه

فصل چهارم: سیستم سه‌سطحی خلاصه‌سازی خودکار متون

4-1- مشکلات روش‌های پیشین.. 67

4-2- ایده‌ی روش سه‌سطحی.. 69

4-3- پیاده‌سازی روش سه سطحی.. 73

4-3-1- امتیازدهی در لایه‌ی سند. 73

4-3-1-1- امتیاز انسجام سند. 73

4-3-1-2- معیار اندازه‌گیری میزان ارتباط معنایی.. 75

4-3-1-3- امتیاز عنوان سند. 78

4-3-2- امتیازدهی در لایه‌ی پاراگراف… 79

4-3-2-1- امتیاز انسجام پاراگراف… 79

4-3-2-2- امتیازدهی عنوان پاراگراف… 80

4-3-3- امتیازدهی در لایه‌ی جمله. 81

4-3-3-1- امتیاز انسجام جملات… 81

4-3-3-2- امتیاز عنوان جمله. 82

فصل پنجم: ارزیابی سیستم سه سطحی

5-1- سیستم سه سطحی با استفاده از سه معیار  Wu & Palmer, Lin و  Path.. 84

5-2- سیستم سه سطحی ابتدایی با کمک وردنت Rita.. 90

5-3- نتیجه‌گیری.. 91

5-4- پیشنهادات… 92

منابع.. 93

چکیده و صفحه عنوان به انگلیسی

فهرست جداول

عنوان                                                                                                                      صفحه

جدول 3-1- نتایج سیستم خلاصه‌سازی بر پایه‌ی ویکی پدیا تک سنده 56

جدول 5-1- خلاصه‌سازی انجام شده بر روی دو وظیفه. 84

جدول 5-2- سیستم‌های پیاده شده با سه معیارمتفاوت Wu & Palmer, Lin
و Path. 85

جدول 5-3- نتایج ارزیابی Task 2 بر مجموعه‌ی ده سند اول خلاصه شده
از DUC 2002، با سه معیار محاسبه ارتباط معنایی متفاوت
WUP, Lin, Path. 85

جدول 5-4- مقایسه‌ی بین سیستم‌های سه سطحی و انتخاب ویژگی و الگوریتم ژنتیک
بر روی 10 سند اول DUC 2002.. 87

جدول 5-5- عملیات امتیازدهی مجدد مربوط به TASK 1. 88

جدول 5-6- مقایسه بین سیستم‌های سه سطحی پیاده‌سازی شده با روش‌های
بر پایه‌ی ویکی پدیا 88

جدول 5-7- مقایسه بین سیستم‌های سه سطحی و سیستم‌های برتر DUC
و سیستم بر پایه‌ی گراف در Task 1. 89

جدول 5-8- مقایسه‌ی بین سیستم‌های سه سطحی و سیستم‌های برتر  DUC
و روش بر اساس گراف، بر روی Task 2. 89

عنوان                                                                                                                      صفحه

جدول 5-9- مقایسه‌ی بین سیستم سه سطحی ابتدایی با سیستم‌های برتر مسابقه‌ی
DUC و سیستم بر پایه‌ی گراف… 90

جدول 5-10- نتایج به دست آمده از مقایسه‌ی بین سیستم سه‌سطحی و سیستم
بر پایه‌ی گراف و 5 سیستم برتر DUC.. 91

فهرست اشکال

عنوان                                                                                                                      صفحه

شکل 1-1- مراحل ساخت خلاصه به روش چکیده‌ای و استخراجی.. 7

شکل 1-2- دسته‌بندی سیستم‌های مختلف خلاصه‌ساز 8

شکل 2-1- نمونه‌ای از ساختار وردنت و ارتباط بین کلمات… 16

شکل 2-2- ساختار کلی DUC 2002.. 18

شکل 2-3- تعریف دقت و صحت… 19

شکل 2-4- گراف دقت-صحت… 20

شکل 3-1- روش HMM… 36

شکل 3-2- گام اول تعابیر 1 و 2.. 41

شکل 3-3- گام دوم تعبیر 1.. 41

شکل 3-4- گام دوم تعبیر 2.. 41

شکل 3-5- گام دوم تعبیر 3.. 42

شکل 3-6- گام دوم تعبیر 4.. 42

شکل 3-7- گام دوم تعبیر1.. 42

شکل 3-8- گام دوم تعبیر2.. 42

شکل 3-9- پروسه‌ی ساخت خلاصه. 45

شکل 3-10- مقایسه‌ی روش خلاصه‌ساز TextSumIt با روش خلاصه‌ساز
اتوماتیک ورد. 47

شکل 3-11- مراحل ساخت خلاصه با روش الگوریتم lesk تغییر یافته. 48

عنوان                                                                                                                      صفحه

شکل 3-12- مراحل انجام شده در ماژول یک…. 49

شکل 3-13- مراحل صورت گرفته در ماژول دوم برای تولید خلاصه. 50

شکل 3-14- مراحل دسته‌بندی متون در این روش…. 54

شکل 3-15- گراف دوبخشی مفاهیم ویکی‌پدیا- جملات… 56

شکل 3-16- عملیات استخراج شبکه‌ی عبارات… 59

شکل 3-17- شبکه‌ی عبارات درون سندات و عملیات امتیازدهی.. 60

شکل 3-18- شبکه‌ی عبارت-جمله. 61

شکل 4-1- امتیازدهی انسجام سند. 75

شکل 4-2- بخشی از شبکه‌ی معنایی وردنت. 76

قبلا حساب کاربری ایجاد کرده اید؟
گذرواژه خود را فراموش کرده اید؟
Loading...
enemad-logo