%41تخفیف
دانلود پروژه: ارائه ی روشی برای ارزیابی سیستم خلاصه سازی متون
تعداد 92صفحه در فایل word
کارشناسی ارشد در رشته مهندسی کامپیوتر- نرمافزار
ارائهی روشی برای ارزیابی سیستم خلاصهسازی متون
کلید واژهها: پردازش زبان طبیعی، زبان فارسی، ارزیابی خلاصهسازهای سیستمی، معیار ارزیابی. |
چکیده:امروزه ابزارهايي نظير خلاصهسازهاي خودکار و مترجمهاي سیستمی توجه زيادي را به خود جلب نمودهاند و فعاليتهاي زيادي براي طراحي چنين ابزارهايي در سرتاسر جهان انجام شده است. با توجه به اهمیت بسیار زیاد خلاصهسازها، موضوع مهمی که در این زمینه، مطرح است آنست که پس از تولید خلاصه چطور کیفیت آنها را ارزیابی کنیم. بنابراین در اين پایاننامه، به ارائهی ابزاري به اسم TabEval برای ارزيابي خودکار خلاصهسازهاي سیستمی میپردازیم که از آن در ديگر کاربردهاي پردازش زبان طبيعي و بازيابي اطلاعات از جمله بررسي ميزان تشابه دو متن هم ميتوان استفاده نمود.دادهی استفاده شده در این ارزیاب، پیکرهای شامل خبرهای روزنامههای معروف میباشد. هریک از خبرهای موجود در پیکره برای به حداقل رساندن سلیقههای شخصی توسط چند فرد خبره بصورت دستی خلاصهسازی شده است (خلاصهی انسانی).در این پایاننامه ابزار ارزیابی ارائه شده برای ارزیابی کیفیت خلاصهی سیستمی به محاسبهی میزان تشابه بین خلاصهی سیستمی و خلاصههای انسانی میپردازد و شامل معیارهایی است که این معیارها تعداد واحدهایی را که از نظر ظاهری و معنایی بین خلاصههای سیستمی و خلاصههای انسانی همپوشانی دارند محاسبه مینمایند. بدیهی است برای انجام مقایسهی متون در سطح معنا بهرهگیری از شبکهی واژگان، ضروری به نظر میرسد.روش کار به این ترتیب است که ابتدا برای اینکه مشخص شود در تولید خلاصههای انسانی، افراد خبره بر کدام جملهها تاکید بیشتری داشتهاند خلاصههای انسانی را به مجموعههای N تایی ، N-1 تایی و … و 1 تایی تقسیم کردیم بطوریکه مجموعهی N تایی شامل جملههایی با N بار تکرار در خلاصههای انسانی است. سپس خلاصهی سیستمی به دو قسمت مشترک و غیر مشترک تقسیم میشود بدین صورت که اگر جملهای از خلاصهی سیستمی در مجموعه جملات خلاصهی انسانی باشد، در قسمت مشترک و در غیر اینصورت در قسمت غیر مشترک قرار میگیرد.در مرحله بعدی عملیات پیشپردازش از جمله حذف کلمات توقف و جداکردن جملات و جدا کردن کلمات و ریشهیابی و برچسب زدن نحوی انجام میگیرد و سپس به امتیازدهی قسمتهای مشترک و غیر مشترک بر اساس معیارهایی پرداخته میشود و در نهایت میانگین امتیازات جملات خلاصهی سیستمی نشاندهندهی امتیاز سیستم خلاصهساز خواهد بود.تاکنون برای ارزیابی سیستمهای خلاصهساز معیارهای دقت/فراخوانی را محاسبه میکردند و بر اساس این معیارها کیفیت خلاصهی سیستمی را ارزیابی میکردند. برای ارزیابی ابزار ارائه شده (TabEval)، ابتدا خلاصهی اسناد پیکره توسط سیستمهای خلاصهساز مورد ارزیابی تولید و ذخیره میشوند. سپس برای کلیهی خلاصههای سیستمی تولید شده ترکیبی از معیارهای دقت و فراخوانی (F-measure) را محاسبه میکنیم. مقدار بدست آمده نشاندهندهی عملکرد سیستمهای خلاصهساز است. سپس همان خلاصههای سیستمی تولید شده را با ابزار ارائه شده (TabEval) ارزیابی میکنیم. در نهایت مقایسهی نتایج بدست آمده از دو ارزیاب نشان داد که ابزار ارائه شده از لحاظ ظاهری و معنایی نتایج بهتر و قابلقبولتری ارائه میدهد. |