%41تخفیف

دانلود پروژه: ارائه ی روشی برای ارزیابی سیستم خلاصه‏ سازی متون

دانلود پروژه: ارائه ی روشی برای ارزیابی سیستم خلاصه‏ سازی متون

تعداد 92صفحه در فایل word

کارشناسی ارشد در رشته مهندسی کامپیوتر- نرم‌افزار

ارائهی روشی برای ارزیابی سیستم خلاصه‏سازی متون

کلید واژه‏ها: پردازش زبان طبیعی، زبان فارسی، ارزیابی خلاصه‏سازهای سیستمی، معیار ارزیابی.

چکیده:

امروزه ابزارهايي نظير خلاصه‏سازهاي خودکار و مترجم‌هاي سیستمی توجه زيادي را به خود جلب نموده‌اند و فعاليت‌هاي زيادي براي طراحي چنين ابزارهايي در سرتاسر جهان انجام شده است. با توجه به اهمیت بسیار زیاد خلاصه‏سازها، موضوع مهمی که در این زمینه، مطرح است آنست که پس از تولید خلاصه چطور کیفیت آن‌ها را ارزیابی کنیم. بنابراین در اين پایاننامه، به ارائهی ابزاري به اسم TabEval برای ارزيابي خودکار خلاصه‏سازهاي سیستمی میپردازیم که از آن در ديگر کاربردهاي پردازش زبان طبيعي و بازيابي اطلاعات از جمله بررسي ميزان تشابه دو متن هم مي‌توان استفاده نمود.

دادهی استفاده شده در این ارزیاب، پیکرهای شامل خبرهای روزنامههای معروف میباشد. هریک از خبرهای موجود در پیکره برای به حداقل رساندن سلیقههای شخصی توسط چند فرد خبره بصورت دستی خلاصه‏سازی شده است (خلاصه‏ی انسانی).

در این پایاننامه ابزار ارزیابی ارائه شده برای ارزیابی کیفیت خلاصه‏ی سیستمی به محاسبهی میزان تشابه بین خلاصه‏ی سیستمی و خلاصههای انسانی میپردازد و شامل معیارهایی است که این معیارها تعداد واحدهایی را که از نظر ظاهری و معنایی بین خلاصههای سیستمی و خلاصههای انسانی همپوشانی دارند محاسبه مینمایند. بدیهی است برای انجام مقایسهی متون در سطح معنا بهرهگیری از شبکه‏ی واژگان، ضروری به نظر میرسد.

روش کار به این ترتیب است که ابتدا برای اینکه مشخص شود در تولید خلاصههای انسانی، افراد خبره بر کدام جملهها تاکید بیشتری داشتهاند خلاصههای انسانی را به مجموعههای N تایی ، N-1 تایی و … و 1 تایی تقسیم کردیم بطوریکه مجموعهی N تایی شامل جملههایی با N بار تکرار در خلاصههای انسانی است. سپس خلاصه‏ی سیستمی به دو قسمت مشترک و غیر مشترک تقسیم میشود بدین صورت که اگر جملهای از خلاصه‏ی سیستمی در مجموعه جملات خلاصه‏ی انسانی باشد، در قسمت مشترک و در غیر اینصورت در قسمت غیر مشترک قرار میگیرد.

در مرحله بعدی عملیات پیشپردازش از جمله حذف کلمات توقف و جداکردن جملات و جدا کردن کلمات و ریشه‌یابی و برچسب زدن نحوی انجام میگیرد و سپس به امتیازدهی قسمت‌های مشترک و غیر مشترک بر اساس معیارهایی پرداخته میشود و در نهایت میانگین امتیازات جملات خلاصه‏ی سیستمی نشاندهندهی امتیاز سیستم خلاصه‏ساز خواهد بود.

تاکنون برای ارزیابی سیستم‏های خلاصه‏ساز معیارهای دقت/فراخوانی را محاسبه میکردند و بر اساس این معیارها کیفیت خلاصه‏ی سیستمی را ارزیابی میکردند. برای ارزیابی ابزار ارائه شده (TabEval)، ابتدا خلاصه‏ی اسناد پیکره توسط سیستم‏های خلاصه‏ساز مورد ارزیابی تولید و ذخیره میشوند. سپس برای کلیهی خلاصههای سیستمی تولید شده ترکیبی از معیارهای دقت و فراخوانی (F-measure) را محاسبه میکنیم. مقدار بدست آمده نشان‌دهنده‌ی عملکرد سیستم‏های خلاصه‏ساز است. سپس همان خلاصههای سیستمی تولید شده را با ابزار ارائه شده (TabEval) ارزیابی میکنیم. در نهایت مقایسهی نتایج بدست آمده از دو ارزیاب نشان داد که ابزار ارائه شده از لحاظ ظاهری و معنایی نتایج بهتر و قابل‌قبول‌تری ارائه میدهد.

دسته: فنی و مهندسی, مهندسی کامپیوتر برچسب: ارزیابی خلاصه‏سازهای سیستمی, زبان فارسی, کلید واژه‏ها: پردازش زبان طبیعی, معیار ارزیابی.دانلود-پروژه-کارشناسی-ارشد-فایل ناب-خرید

توضیحات

فهرست مطالب

1- مقدمه 1

1-1- مقدمه 1

1-2- ساختار پایان‏نامه. 2

2- مفاهیم پایه. 5

2-1- مقدمه 6

2-2- ابزارهاي لازم براي پردازش متن 7

2-2-1- تشخیص‌دهنده‌ی جمله 7

2-2-2- جداکننده 7

2-2-3- ریشه‌یاب 8

2-2-4- برچسب زن 8

2-2-5- برچسب زن معنايي 9

2-2-6- Chunker 10

2-2-7- Named entity recognition 10

2-2-8- Annotator 10

2-3- خلاصه‏سازی خودکار متن.. 11

2-3-1- تاريخچه سيستم‏هاي خلاصه‏ساز. 11

2-3-2- انواع سيستم‏هاي خلاصه‏ساز. 12

2-3-3- منبع 13

2-3-4- هدف 13

2-3-5- خروجي 13

2-4- شبکه‏ی واژگان.. 16

2-4-1- تشابه معنایی متون مبتنی بر شبکه واژگان.. 17

2-5- تعیین میزان شباهت بین جملات… 18

2-5-1- معیار اشتراک کلمات 19

2-5-2- معیارهای TF-IDF 19

2-5-3- معیارهای زبان‌شناسی 20

2-6- روشهای ارزیابی خلاصه‏سازها 21

2-6-1- روش ارزیابی بیرونی 22

2-6-2- روش ارزیابی درونی 23

2-7- مجموعه داده‌های استاندارد برای خلاصه‏سازی (پیکره) 24

2-8- جمع‌بندی.. 25

3- كارهاي پیشین.. 27

3-1- مقدمه. 28

3-2- سیستم‏های خلاصه‏ساز در زبان فارسی 28

3-2-1- سیستم FarsiSum 28

3-2-2- سیستم خلاصه‏ساز ایجاز 29

3-2-3- سیستم خلاصه‏ساز TabSum 31

3-3- ابزارهای ارزیابی خلاصه‏سازها 31

3-3-1- محيط ارزيابي خلاصه‏ها 32

3-3-2- MEADeval 33

3-3-3- بستهي ارزيابي خودکار خلاصه ISI ROUGE.. 33

3-4- جمع‌بندی 35

4- روش پیشنهادی 36

4-1- مقدمه. 37

4-2- ابزارهای لازم برای پیش‌پردازش متون 38

4-2-2- یکدستسازي متن 38

4-2-2- جداکننده جملات 39

4-2-3- جداکننده کلمات 40

4-2-4- حذف‌کننده واژه‏های عمومی (ایست واژه‏ها). 40

4-2-5- ریشه‌یاب 41

4-2-6- برچسب زن (POS tagger). 43

4-3- معماری روش پیشنهادی.. 46

4-4- امتیازدهی خلاصه‏ی سیستمی.. 49

4-4-1- امتیازدهی قسمت مشترک خلاصه‏ی سیستمی.. 50

4-4-2- امتیازدهی قسمت غیر مشترک خلاصه‏ی سیستمی.. 51

4-5- جمع‌بندی.. 54

5- ارزيابي…………………………………………………………………………………………………………………………………………….. …………………………………………………………………………………………………………. 55

5-1- مقدمه. 56

5-2- تهیه پیکره مناسب… 56

5-3- نتایج TabEval در ارزیابی سیستم‏های خلاصه‏ساز فارسی.. 57

5-3-1- ارزیابی با معیار تعداد واژگان مشترک… 57

5-3-2- امتیاز تعداد دو گرم‌های مشترک… 59

5-3-3- امتیاز رابطهی معنایی با استفاده از شبکه‏ی واژگان.. 60

5-3-4- معیار ارزیابی طولانی‌ترین زیر رشته مشترک… 61

5-3-5- ارزیابی با در نظر گرفتن تمامی معیارها 62

5-4- ارزیابی روش پیشنهادی.. 63

5-4-1- ارزیابی مبتنی بر معیار دقت… 63

5-4-2- ارزیابی مبتنی بر معیار فراخوانی.. 64

5-4-3- ارزیابی سیستم‏های خلاصه‏ساز مورد ارزیابی به تفکیک اسناد. 65

5-4-4- ارزیابی کلی سیستم‏های خلاصه‏ساز مورد ارزیابی.. 66

5-5- جمع‌بندی.. 67

6- نتیجه‏گیری و کارهای آینده. 68

6-1- نتیجهگیری.. 69

6-2- کارهای آينده. 70

فهرست شکلها

شکل ‏3‑1: معماری مدل بکار گرفته شده در سیستم خلاصه‏ساز تک‏سندی ایجاز 30

شکل ‏3‑2: معماری مدل بکار گرفته شده در سیستم خلاصه‏ساز چندسندی ایجاز 30

شکل ‏4‑1: معماری کلی ریشهیابی.. 43

شکل ‏4‑2: معماری تشخیص وندها 43

شکل ‏4‑3: معماری کلی روش پیشنهادی.. 49

شکل ‏5‑1: ارزیابی خلاصه‏سازها با معیار تعداد واژگان مشترک دو متن به تفکیک اسناد. 58

شکل ‏5‑2: ارزیابی خلاصه‏سازها با معیار تعداد واژگان مشترک دو متن.. 58

شکل ‏5‑3: ارزیابی خلاصه‏سازها با بررسی تعداد دو گرم‌های مشترک به تفکیک اسناد. 59

شکل ‏5‑4: ارزیابی خلاصه‏سازها با بررسی تعداد دو گرم‌های مشترک.. 59

شکل ‏5‑5: ارزیابی خلاصه‏سازها با بررسی رابطهی معنایی به تفکیک اسناد. 60

شکل ‏5‑6: ارزیابی خلاصه‏سازها با بررسی رابطهی معنایی.. 60

شکل ‏5‑7: ارزیابی خلاصه‏سازها با بررسی طولانی‌ترین زیر رشته مشترک به تفکیک اسناد. 61

شکل ‏5‑8: ارزیابی خلاصه‏سازها با بررسی طولانی‌ترین زیر رشته مشترک.. 61

شکل ‏5‑9: ارزیابی خلاصه‏سازها و محاسبه امتیاز کلی با در نظر گرفتن تمامی معیارها به تفکیک اسناد. 62

شکل ‏5‑10: ارزیابی خلاصه‏سازها و محاسبه امتیاز کلی با در نظر گرفتن تمامی معیارها 62

شکل ‏5‑11: ارزیابی FarsiSum با روش پیشنهادی(TabEval) و با معیارهای دقت/فراخوانی به تفکیک اسناد. 65

شکل ‏5‑12: ارزیابی Ijaz با روش پیشنهادی(TabEval) و با معیارهای دقت/فراخوانی به تفکیک اسناد. 65

شکل ‏5‑13: ارزیابی TabSum با روش پیشنهادی(TabEval) و با معیارهای دقت/فراخوانی به تفکیک اسناد. 65

شکل ‏5‑14: ارزیابی کلی FarsiSumبا روش پیشنهادی(TabEval) و با معیارهای دقت/فراخوانی.. 66

شکل ‏5‑15: ارزیابی کلی Ijaz با روش پیشنهادی(TabEval) و با معیارهای دقت/فراخوانی.. 66

شکل ‏5‑16: ارزیابی کلیTabSum با روش پیشنهادی(TabEval) و با معیارهای دقت/فراخوانی.. 66

فهرست جداول

جدول ‏2‑1: اطلاعات مربوط به مجموعه داده‌های DUC.. 25

جدول ‏4‑1: مثالی از لیست واژه‏های عمومی.. 41

جدول ‏4‑2: راهنمای برچسب‌های POS در متن.. 45

جدول ‏4‑3: تعداد لغات ذخیره شده در فرهنگ لغت ضمایر شخصی منفصل.. 46

امتیاز 0 از 5 از 0 دیدگاه

قیمت اصلی: 39,000 تومان بود.قیمت فعلی: 23,000 تومان.

تاریخ ایجاد دی 24, 1399
تاریخ بروزرسانی اسفند 13, 1401
فروش 0
دیدگاه 0

شرایط استفاده از محصول

تمام محصولات به ازای پرداخت پروژه تنها قابل استفاده می باشند. این بدین معنی است که برای استفاده از یک یا چند محصول ، لازم به خرید آن محصول است.

مزایای خرید این محصول:

دسترسی به فایل به صورت همیشگی
پشتیبانی رایگان
پشتیبانی 24 ساعته محصول
بازگشت وجه در صورت عدم رضایت مشتری

مشاهده قوانین سایت