%37تخفیف

دانلود پروژه: تشخیص پلاگاریسم به کمک گراف در متون فارسی

تعداد 85صفحه در فایل word

چکیده

تمرکز این پایان­نامه روی جستجوی شباهت­های مبتنی بر گراف، در متون مربوط به زبان­های طبیعی است. نیاز به یک روش قوی برای ارائه متون، مسئله مهمی در زمینه تشخیص پلاگاریسم است، ما در این پروژه با توجه به این نیاز، روشی قدرتمند را برای ارائه زبان طبیعی معرفی نموده و از آن در تشخیص پلاگاریسم بهره برده­ایم. برای این منظور مفهوم “فاصله اصلاح گراف” را بیان نموده و از آن برای محاسبه فاصله­ی بین دو گراف استفاده کرده­ایم. جملات توسط گراف­های وابستگی ارائه شده­اند که در آن­ها کلمات توسط وابستگی­هایشان به هم متصل شده­اند. گراف وابستگی ساختار گرامری جملات را استخراج می­کند. روش شباهت مبتنی بر گراف در مسئله تشخیص پلاگاریسم به کار برده شده است. مزیت اصلی ارائه مبتنی بر گراف، مربوط به توانایی این روش در تشخیص شباهت­های بین کلمات است. ارزیابی­ها نشان دادند که نتایج حاصل از گراف وابستگی نسبت به روش­های مقایسه مستقیم گراف­ها نتایج بهتری دارند. استفاده از فاصله اصلاح گراف برای مقایسه دو گراف منجر به بهبود نتایج گراف وابستگی می­شود و کارایی آن را بالا می­برد.

کلیدواژه:  فاصله اصلاح گراف، پردازش زبان طبیعی، گراف­های وابستگی، تشخیص پلاگاریسم

فهرست مطالب

مقدمه. 2

1-1 توضیح مسئله. 5

1-2 راه حلها 6

1-3 مشکلات موجود در پیادهسازی الگوریتم.. 6

1-4 ساختار پایاننامه. 7

پیشینهی تحقیق.. 9

2-1  تشخیص پلاگاریسم.. 9

2-2 ابعاد تشخیص پلاگاریسم.. 12

2-2-1   روش مبتنی بر گرامر. 12

2-2-2   روشهای مبتنی بر معنا 13

2-2-3   روشهای ترکیبی.. 14

2-2-4   روش تشخیص پلاگاریسم خارجی.. 14

2-3  روشهای محاسبه میزان شباهت گرافها 15

2-3-1   روش بزرگترین زیرگراف مشترک – کوچکترین سوپرگراف مشترک… 15

2-3-2   روش مبتنی بر جستجوی فضای حالت… 17

2-3-3   روشهای احتمالی.. 18

3-1  تشخیص پلاگاریسم.. 23

3-1-1   تطبیق   n گرام. 23

3-1-2   وزندهی عبارت… 23

3-1-3    تعمیم عبارت… 24

3-2  گرافهای وابستگی.. 25

3-2-1  وابستگیها 26

3-3  فاصله ویرایش گراف… 26

3-3-1   عملیات ویرایش…. 26

3-3-2   مسئلهی انتساب… 27

3-3-3   ماتریس هزینه. 28

3-3-4   الگوریتمهای انتساب… 29

4-1  معماری.. 32

4-2  پیشپردازش متن.. 32

4-2-1  پیدا کردن جملات… 33

4-2-2  ریشهیابی کلمات… 34

4-2-3   تشکیل گراف وابستگی.. 40

4-3   استخراج کاندیدا 44

4-3-1   شاخصگذاری جمله. 45

4-3-2   استخراج جملات کاندیدا 45

4-4   تحلیل جزئیات… 45

4-4-1   الگوریتم فاصله ویرایش دو گراف… 48

4-4-2   تشخیص پلاگاریسم مبتنی بر GEDارائه شده در این پروژه 49

5-1  تشخیص پلاگاریسم جابجایی کلمات و تغییر ساختار جملات… 55

5-1-1  تغییرات ساختاری 10 درصدی.. 56

5-1-2  تغییرات ساختاری 50 درصدی.. 57

5-2-2  تغییرات ساختاری 100  درصدی.. 59

5-2  تشخیص پلاگاریسم معنایی.. 60

5-2-1  تغییرات معنایی 10  درصدی.. 60

نتیجه گیری و پیشنهادات… 64

مراجع.. 67

جدول 4 – 1  : ساخت‌های زمان حال و امر [26]. 39

جدول 4 – 2 : ساخت‌های زمان‌ گذشته و مستقبل [26]. 39

جدول 4 – 3 : عملیات ویرایش برای تبدیل جمله 1 به جمله 2.. 47

شکل 1-  1 : توپ توسط پسری به خارج از استادیوم شوت شد.. 4

شکل 1-  2 : بازیکن توپ را به خارج از زمین شوت کرد. 4

شکل 3-  1 : مثال عملیات ویرایش برای دو گراف… 27

شکل 3-  2 : مسئله انتساب… 28

شکل 4-1 : مروری بر ماژولهای اصلی سیستم.. 32

شکل 4-2 : فاز پیشپردازش متن… 33

شکل 4-3 : پیدا کردن جملات در متن… 34

شکل 4-4 : نمایش نودها در جملات و استخراج مفاهیم از جملات و وزن بین نودها که میزان شباهت بین جملات را مشخص میکند. T1، T2، …، Tn نشان دهندهی عبارات است [11]. 42

شکل 4- 5 : ساختار نود شاخص برای مفاهیم جمله در گراف [11]. 44

شکل 4- 6 : فاز بازیابی کاندیدا 44

شکل 4- 7 : فاز تحلیل جزئیات… 45

شکل 4- 8 : گرافهای وابستگی برای جملات 1 و 2.. 46

شکل 4- 9 : دو گراف همریخت…. 48

شکل 4- 10 : الگوریتم بررسی شباهت دو جملهای که تشخیص داده شده است که ممکن است شبیه یکدیگر باشند.. 50

شکل 5- 1 : مقایسه دو متن توسط الگوریتم اولیه.. 54

شکل 5- 2 : مقایسه دو متن توسط الگوریتم بهبودیافته.. 55

شکل 5- 3 : نمودار مقایسه تغییرات ساختاری 10 درصدی متون.. 56

شکل 5- 4 : میانگین خروجی نرم افزار برای ساختاری 10 درصد.. 57

شکل 5- 5 : نمودار مقایسه تغییرات ساختاری 20 درصدی متون.. 58

شکل 5- 6 : میانگین خروجی نرم افزار برای ساختاری 20 درصد.. 58

شکل 5- 7 : نمودار مقایسه تغییرات معنایی 100 درصد.. 59

شکل 5- 8 : میانگین خروجی نرم افزار برای جابجایی 100 درصد.. 60

شکل 5- 9 : نمودار مقایسه تغییرات معنایی 10 درصد.. 61

شکل 5- 10 : میانگین خروجی نرم افزار برای معنایی 10 درصد.. 61

قبلا حساب کاربری ایجاد کرده اید؟
گذرواژه خود را فراموش کرده اید؟
Loading...
enemad-logo