دانلود پروژه: مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی
تعداد91 صفحه در فایل word
كارشناسي ارشد در رشته مهندسي کامپيوتر (نرم افزار)
مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی
چکيده
اغلب رویکردهای نوین ترجمه در حوزه ترجمه ماشینی از جمله ترجمه ماشینی آماری، ترجمه ماشینی مبتنی بر مثال و ترجمه ماشینی ترکیبی از مجموعه متون همترجمه تحت عنوان پیکرههای متنی موازی به عنوان داده آموزشی اصلی استفاده میکنند. اما برای اغلب زبانها پیکرههای موازی به میزان بسیار کمی در دسترس هستند و یا مربوط به دامنه خاصی از نوشتجات میشوند. در طرف دیگر پیکرههای تطبیقی قرار دارند که مواد اولیه آنها به راحتی به دست میآید. پیکرههای تطبیقی شامل متون همترجمه نیستند اما در آن هر دو متن در دو زبان مختلف از نظر شباهت معیارهایی چون محتوا، تاریخ انتشار، عنوان و … با یکدیگر قابل تطبیق هستند.
پیکرههای تطبیقی شامل جملاتی هستند که میتوانند ترجمه خوبی برای یکدیگر باشند. هدف این رساله ساخت خودکار پیکره موازی با استخراج اینگونه جملات از پیکره تطبیقی است. مدلی که در این پژوهش ارائه میشود از سه مرحله اصلی تشکیل میشود: (1) انتخاب جفت جملات کاندیدای موازی بودن با استفاده از فیلتر نسبت طول جملات و فیلتر تعداد کلمات مشترک (2) انتخاب جفت جملات موازی با استفاده از طبقهبند آنتروپی بیشینه و در نظر گرفتن ویژگیهای مربوط به طول دو جمله، کلمات مشترک آنها و ویژگیهای مبتنی بر همترازی در سطح کلمه بین دو جمله (3) بالابردن دقت جفت جملات استخراج شده با انتخاب تنها یکی از جملات جفت شده با هر جمله. این کار را میتوان بوسیله محاسبه نزدیکی آن جمله با ترجمه جملات جفت شده از طرف مقابل توسط معیار TER و انتخاب نزدیکترین جمله انجام داد.
در انتها کارآیی مدل ارائه شده در دو بخش (1) ارزیابی طبقهبند آنتروپی بیشینه طراحی شده و (2) ارزیابی میزان سودمندی جفت جملات موازی استخراج شده در بهبود کیفیت ترجمه ماشینی بررسی میشود
مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی