%38تخفیف

دانلود پروژه: ارائه روشی مستقل از زبان به منظور استخراج جملات فارسی و انگلیسی به کمک تکنیک های داده کاوی و موتور جستجوی لوسین

تعداد 89صفحه در فایل word

 چکیده

امروزه پیکره های گوناگونی برای کمک به ترجمه زبانهای رایج دنیا ساخته شده است. در حال حاضر تعدادی از زبانهای رایج در دنیا دارای پیکره های زبانی کافی گسترده می باشند، که این امر موجب شده است تا ماشین های ترجمه بتوانند با کیفیت بهتری جملات این زبانها را ترجمه نمایند. زبانهای انگلیسی، فرانسه و آلمانی از جمله این زبانها هستند. در واقع، وجود پیکره زبانی یکی از اساسی ترین نیازها به منظور ترجمه جملات از یک زبان به زبان دیگر می باشد. دلیل اینکه ماشین های ترجمه ای مانند گوگل و یا مایکروسافت جملات زبان های انگلیسی به فرانسه و یا آلمانی را با کیفیت مناسبی ترجمه می کنند وجود پیکره های زبانی بزرگ و با کیفیت برای این زبانها می باشد. حال آنکه برای زبان فارسی چنین پیکره زبانی وجود نداشته و عدم وجود چنین پیکره هایی یکی از اصلی ترین دلایل در ضعف، ترجمه جملات زبان فارسی به زبان های دیگر می باشد. در این پایان نامه در ابتدا به کمک نرم افزار وردنت یک روش به منظور استخراج و دسته بندی مقالات ارائه شده است. سپس به وسیله تکنیک های داده کاوی جملات مشابه و یا به اصطلاح موازی را استخراج می نماییم. با توجه به نتایج بدست آمده توانسته ایم به روشی کارا و امید بخش به منظور استخراج جملات زبان فارسی- انگلیسی از پایگاه برخط ویکی پدیا دست پیدا کنیم.

کلمات کلیدی:

جملات مشابه، دسته بندی مقالات، ماشین ترجمه، زبان فارسی-انگلیسی

فهرست مطالب:

 

 

عنوان                                                                                          صفحه

 

فصل اول. مقدمه………………………………………………………………………………………..……. 3

1-1- مقدمه……………………………………………………………………………………………………. 4

1-2- سرفصل مطالب……………………………………………………………………………………….. 8

فصل دوم. ادبیات موضوعی ……………………………………………………………………………. 11

2-1- معرفی علم داده کاوی و کاربرد های آن………………………………………………… 12

2-2- دلایل پيدايش داده کاوی……………………………………………………………………. 13

2-3- معرفی معیارها و الگوریتم های استفاده شده……………………………………………. 15

2-4- معرفی بازیابی اطلاعات…………………………………………………………………….. 21

2-5- تفاوت بازیابی اطلاعات و بازیابی داده………………………………………………….. 23

فصل سوم. پیشینه تحقیق……………………………………………………………………………… 25

3-1-کارهای گذشته   ………………………………………………………………………………..  26

فصل چهارم. ابزارهای استفاده شده ……………………………………………………………….  30

4-1- فرایند استفاده از نرم افزار وردنت   ………………………………………………………. 31

4-2-مراحل استفاده از نرم افزار وردنت و استفاده آن در جاوا  …………………………….. 31

4-3- نحوه کار با دیکشنری وردنت ……………………………………………………………… 33

4-4- مراحل کار با Weka ………………………………………………………………………… 39

فصل پنجم. دسته بندی مقالات و استخراج جملات مشابه ………………………………….  44

5-1- مقدمه………………………………………………………………………………………………………..   45

5-2- فرآیند کلی پیاده سازی پایان نامه………………………………………………………….. 46

5-3- استخراج و دسته بندی مقالات مشابه ویکی پدیا ……………………………………….. 48

5-4- فرآیند استخراج جملات مشابه…………………………………………………………….. 53

5-5- وزن دهی به خصیصه ها و استخراج جملات موازی…………………………………… 60

فصل ششم. آزمایشات و نتایج بدست آمده…………………………………………………….. 63

6-1- آزمایشات صورت گرفته…………………………………………………………………….. 64

6-2- بررسی کارایی روش پیشنهادی در استخراج مقالات مشابه  ………………………….  64

6-3- استخراج جملات موازی از دسته های ساخته شده  …………………………………….  69

 منابع………………………………………………………………………………………………………. 78

فهرست اشکال

 

 

عنوان                                                                                          صفحه

شکل 2-1:داده کاوی به عنوان یک مرحله از فرایند کشف دانش……………………………. 13

شکل 2-2:درخت حاصل از مرحله اول با انتخاب خصیصه درآمد…………………………. 18

شکل 2-3:درخت نهایی……………………………………………………………………………. 19

شکل 4-1جستجوی کلمات در وردنت…………………………………………………………. 32

شکل 4-2 کار با نرم افزار وردنت در جاوا……………………………………………………… 34

شکل 4-3: کار با نرم افزار وردنت در جاوا…………………………………………………….. 36

شکل 4-4:خروجی نرم افزار وردنت…………………………………………………………….. 37

شکل 4-5: کار با نرم افزار وردنت در جاوا…………………………………………………….. 39

شکل 4-6:باز کردن فایل……………………………………………………………………………. 40

شکل 4-7: انتخاب فیلتر……………………………………………………………………………. 41

شکل 4-8: وارد کردن شماره فیلتر……………………………………………………………….. 41

شکل 4-9: نحوه حذف……………………………………………………………………………… 42

شکل 4-10:انتخاب فیلتر…………………………………………………………………………… 42

شکل 4-11: انجام تنظیمات………………………………………………………………………… 43

شکل 4-12: وارد کردن شماره فیلد………………………………………………………………. 43

شکل 5-1: استخراج متون ویکی پدیا…………………………………………………………….. 50

شکل 5-2: اندیس گذاری و جستجوی داده ها به وسیله روش های بازیابی اطلاعات….. 51

شکل 5-3: استفاده از وردنت در استخراج معانی………………………………………………. 52

شکل 5-4:فرآیند استخراج میزان ترازشدگی به کمک الگوریتم EM……………………….. 54

شکل 5-5: فرآیند استخراج میزان ترازشدگی به کمک الگوریتم EM………………………. 55

شکل 5-6: فرآیند استخراج میزان ترازشدگی به کمک الگوریتم EM………………………. 55

شکل 5-7: فرآیند استخراج میزان ترازشدگی به کمک الگوریتم EM………………………. 55

شکل 5-8: فرآیند ایجاد مدل زبانی……………………………………………………………….. 56

شکل 5-9:فرآیند ایجاد مدل زبانی………………………………………………………………… 57

شکل 5-10:استفاده از معیار لونشتاین……………………………………………………………. 60

فهرست نمودارها

 

 

عنوان                                                                                           صفحه

نمودار 6-1:دقت بدست آمده توسط الگوریتم رگرسیون منطقی…………………………….. 71

نمودار 6-2: دقت بدست آمده توسط الگوریتم رگرسیون خطی………………………………….. 71

نمودار 6-3: دقت بدست آمده توسط معیار Info-Gain…………………………………….. 72

نمودار 6-4: دقت بدست آمده توسط Chi-Squre…………………………………………… 73

نمودار 6-5: دقت دسته های مختلف در استخراج جملات موازی…………………………. 74

 

عنوان                                                                                          صفحه

جدول 2-1:نمونه ای از یک داده آزمایشی………………………………………………………. 16

جدول 5-1:وزن بدست آمده توسط الگوریتم رگرسیون منطقی……………………………… 60

جدول 5-2: وزن بدست آمده توسط معیار Chi-Squre…………………………………….. 60

جدول 5-3: وزن بدست آمده توسط معیار Info Gain………………………………………. 61

جدول 5-4: وزن بدست آمده توسط الگوریتم رگرسیون خطی……………………………… 61

جدول 6-1: لیست مقالات 10 دسته مختلف……………………………………………………. 68

جدول 6-2:میزان دقت هر یک از دسته ها………………………………………………………. 69

جدول 6-3: مقایسه روش ترازبندی جمله با دسته…………………………………………….. 75

جدول 6-4: ارزیابی توسط ماشین ترجمه……………………………………………………….. 77

قبلا حساب کاربری ایجاد کرده اید؟
گذرواژه خود را فراموش کرده اید؟
Loading...
enemad-logo