%36تخفیف

دانلود پروژه: بازشناسی حروف تایپی منفرد فارسی با استفاده از پیمایش گراف‌ها

تعداد 101 صفحه در فایل word

کارشناسی ارشد رشته مهندسی کامپیوتر(M.Sc.)

گرایش: نرم‌افزار

 

بازشناسی حروف تایپی منفرد فارسی با استفاده از پیمایش گراف‌ها

 

 

چکیده

با گسترش حوزه فعالیت سامانه‌های مکانیزه، بازشناسی خودکار متون و کاراکترها موردتوجه بسیاری از پژوهشگران قرار گرفته است. با توجه به فراگیر بودن زبان انگلیسی، تحقیقات در این زمینه پیشرفت‌های بیشتری داشته است و سامانه‌هایی ایجاد شده است که با ضریب خطای نزدیک به صفر، عملیات بازشناسی را در شرایط تعیین‌شده انجام می‌دهند. در این زمینه از روشهای متفاوتی نظیر مدل مخفی مارکف، مدل‌سازی هندسی، شبکه‌های عصبی، منطق فازی و فواصل اقلیدسی استفاده شده است. از چالش‌های عمده در این زمینه تنوع نوع قلم و یا دست خط، وجود نویز و یا اختلالات تصویری و قابلیت اطمینان است که ممکن است عملیات شناسایی را با مشکل مواجه کنند. در سال‌های اخیر بازشناسی متون فارسی، عربی، هندی و سایر زبان‌های مشابه بیش‌ازپیش موردتوجه قرار گرفته است ولی پیشرفت‌های حاصل‌شده، به دلیل پیچیدگی‌های موجود، کمتر از زبان انگلیسی بوده است و تا رسیدن به نقطه مطلوب در شناسایی، راه زیادی در پیش است. از موارد استفاده از سامانه‌های بازشناسی کاراکترها، ایجاد سامانه‌های مکانیزه، دسته‌بندی نامه‌ها در ادارات پست، خواندن اطلاعات روی چک در بانک‌ها، شناسایی اسکناس، خواندن اطلاعات گذرنامه و غیره است. در این پژوهش روشی جدید برای بازشناسی حروف منفرد چاپی فارسی ارائه شده است که با مدل‌سازی الگوی ورودی در قالب گراف و پیمایش آن، حروف موجود در تصویر مورد شناسایی قرار می‌گیرند.

کلمات کلیدی: شناسایی تصویری متون، بازشناسی کاراکترها، دست خط، تشخیص نوشته‌های تصویر، شناسایی تصویری حروف

فهرست مطالب

فصل اول: کلیات تحقیق.. 2

1-1 مقدمه. 2

1-2 بیان مسئله. 4

1-2-1 مراحل شناسایی.. 5

1-3 انگیزههای پژوهش26

1-4 اهداف پژوهش26

1- 5 روش تحقیق.. 26

1-6 نوآوریها و نتایج پژوهش28

1-7 ساختار پایان‌نامه. 28

فصل دوم: مروری بر تحقیق‌های انجام‌شده. 29

2-1 مقدمه. 29

2-2 بازشناسی کاراکترهای انگلیسی با استفاده از شبکه‌های عصبی.. 30

2-3 بازشناسی کاراکترها با استفاده از موقعیت‌های هندسی و شکستن ساختاری.. 32

2-4 شناسایی اعداد فارسی با استفاده از محل قرارگیری اشکال هندسی و شبکه‌های عصبی.. 33

2-5 بازشناسی حروف تغییریافته و شکسته بر مبنای الگوهای شیب‌دار و اتصالات و روابط. 35

2-6 بازشناسی متون دست‌نویس انگلیسی با روش چند وضوحی.. 37

2-7 شناسایی حروف دست‌نویس منفرد عربی با استفاده از دسته‌بندی کننده k-امین همسایه. 39

2-8 تشخیص متون چاپی فارسی و عربی با استفاده از پویش خط زمینه. 41

2-9 شناسایی متون فارسی توسط مدل مخفی مارکوف، برنامه‌ریزی پویا و بردار پشتیبان.. 42

2-10 بازشناسی دست نوشته‌های فارسی با مدل مخفی مارکوف43

2-11 بازشناسی حروف فارسی با استفاده از روشهای استخراج ویژگی ترکیبی.. 44

2-12 بازشناسی برون‌خطی کاراکترها با استفاده از روش توری.. 44

2-13 جمع بندی و مقایسه روشهای معرفی شده 45

فصل سوم:روش‌شناسی تحقیق.. 47

3-1 مقدمه. 47

3-2 سامانه پیشنهادی برای بازشناسی کاراکتر های منفرد فارسی.. 48

3-2-1 انتخاب کاراکترها از تصویر. 50

3-2-2 نازک سازی کاراکتر انتخاب‌شده 51

3-2-3 شناسایی نقاط بحرانی (گره‌های گراف) 54

3-2-4 شناسایی همسایه‌ها (یال‌های گراف) 55

3-2-5 کاهش گره‌های گراف57

3-2-6 ارزیابی زوایای بین گره‌ها 60

3-2-7 حذف مجدد گره‌ها بر اساس زوایای ارزیابی‌شده 65

3-2-8 حذف زائده‌های تصویر. 66

3-2-9 حذف انحراف‌های ابتدایی و انتهایی.. 69

3-2-10 تحلیل و تفکیک و استخراج ویژگی‌های قطعات مختلف گراف71

3-2-11 مقایسه ویژگی‌های قطعات تفکیک‌شده و شناسایی.. 74

3-3 خلاصه ای از قوانین موجود در سامانه پیشنهادی.. 78

فصل چهارم: ارزیابی و نتایج حاصل از تحقیق.. 81

4-1 پیاده‌سازی سامانه پیشنهادی.. 81

4-2مقایسه سامانه پیشنهادی با موارد مشابه. 89

فصل پنجم: جمع‌بندی و کارهای آینده. 90

5-1 جمع بندی.. 90

5-2 کارهای آینده 91

فصل ششم: فهرست منابع. 93

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

فهرست شکل‌ها و جدول‌ها

 

 

شکل 1-1 اشکال مختلف حروف فارسی با توجه به موقعیت قرارگیری در کلمه. 3

شکل 1-2 نمودار یک سامانه بازشناسی تصویر. 5

شکل 1-3 نمونه‌ای از عملیات پیش‌پردازش7

شکل 1-4 نمونه تصویر دودویی.. 8

شکل 1-5 تصویر یک صفحه که کج اسکن شده است 9

شکل 1-6 اصلاح اریب شدگی 9

شکل 1-7 نمونه تصویر نازک سازی شده. 11

شکل 1-8 (الف) تصویر اصلی (ب) پس از نرمال‌سازی اندازه (ج) پس از نازک سازی.. 11

شکل 1-9 نمونه‌ای از جداسازی حروف فارسی و عربی.. 12

شکل 1-10 جداسازی حروف تایپی فارسی 14

شکل 1-11 برخی از خطاهای جداسازی نظیر بالا بودن دندانه اول سین، اشتباه در شناسایی خط زمینه و شکستن بعضی حروف   15

شکل 1-12 ناحیه بندی و تعیین سطح تیرگی 18

  1. a) چگالی افقی b) چگالی عمودی c,d) چگالی مورب.. 18

شکل 1-13 ارزیابی چهار نمونه نمودار تمرکز در یک الگوی 3*3.. 18

شکل 1-14 نمونه اصلاح لغوی در جستجوگر گوگل. 20

شکل 1-15 نمونه‌ای از اصلاح گرامری در مایکروسافت آفیس21

شکل 1-16 تغییر شکل حروف فارسی با توجه به موقعیت قرارگیری در کلمه. 22

شکل 1-18 جایگاه پیمایش گراف در بازشناسی کاراکترهای حروف چاپی منفرد فارسی.. 27

شکل 2-1 مجموعه‌ای از حروف دست‌نویس بزرگ انگلیسی 30

شکل 2-2 نمونه‌ای از ماتریس‌های متعلق به هر کاراکتر. 31

شکل 2-3 مراحل شکستن کاراکتر: a) تصویر اولیه b) تصویر نازک سازی شده c) چندضلعی‌های اصلاح‌شده d) شکستن به منحنی‌های دایره‌ای شکل 32

شکل 2-4 کاراکترهای عددی فارسی.. 34

شکل 2-5 نمونه تصویر هر گروه از کاراکترهای عددی فارسی a) فرم عادی b) فرم چرخش یافته c) فرم ترجمه‌شدهd ) فرم تغییر سایز یافته. 35

شکل 2-6 الگوهای کاراکتر از منظرهای متفاوت.. 36

شکل 2-7 نمونه کاراکترهای تولیدشده جهت آزمودن نرم‌افزار. 36

شکل 2-8 نرخ شناسایی صحیح برای کاراکترهای نمونه. 37

شکل 2-9 نمونه کاراکترهای نوشته‌شده توسط 5 فرد مختلف . 38

شکل 2-10 تصویر یک کاراکتر به همراه نویز و پس از حذف نویز. 39

شکل 2-11 مراحل جداسازی یک نوشته 41

شکل 2-12 نمودار جهات برای حرف “ح”.. 43

شکل 2-13 حرف A در یک‌طوری 7*5.. 45

جدول2-2  روشهای شناسایی مختلف در یک نگاه 46

شکل 3-1 مراحل کلی سامانه پیشنهادی برای بازشناسی کاراکترهای منفرد فارسی توسط گراف49

شکل 3-2 نمونه تصویر کاراکترهای منفرد فارسی.. 50

شکل 3-3 سمت راست تصویر اصلی سمت چپ تصویر پس از نرمال‌سازی اندازه 50

شکل 3-4 آرایش موقعیت و نام‌گذاری یک نقطه و نقاط اطراف آن.. 51

شکل 3-5 نقاطی که در مرحله اول نازک سازی حذف می‌شوند 52

شکل 3-6 نقاطی که در مرحله دوم نازک سازی حذف می‌شوند. 53

3-7 نمونه خروجی تابع نازک سازی.. 53

شکل 3-8 نمونه‌هایی از نقاط بحرانی تعیین‌شده در مراحل مختلف54

شکل 3-9 نمایش تصویری هفت مرحله استخراج یالهای گراف از تصویر کاراکتر ورودی.. 56

شکل 3-10 الف) نمونه الگوی ورودی ب) الگوی نازک سازی شده ج) بزرگ‌نمایی منطقه انتخاب‌شده در (ب) 57

شکل 3-11 مفهوم زاویه انحراف58

شکل 3-12 در صورتی که زاویه α کمتر از دو برابر مقدار آستانه باشد، گره b می تواند حذف شود 58

شکل3-13 گره a و b  در جهت عقربه های ساعت و گره c در خلاف جهت عقربه های ساعت.. 59

شکل 3-14 گره a انشعاب و گره c پایانه است در صورتیکه ab+bc کمتر از ده درصد از طول کل گراف باشد گره b قابل حذف است   59

شکل 3-15 الف) الگوی ورودی ب) گراف اولیه  ج) گراف خلاصه. 60

شکل 3-16 (الف) گره‌های ابتدایی/انتهایی (ب) گره‌های انشعابی  (ج) گره‌های خطی.. 60

شکل 3-17 نحوه محاسبه جهت انحنا برای گره b.. 62

شکل 3-18 نقاط شروع و جهت پیمایش گره‌های خطی.. 62

شکل 3-19 نقطه تجزیه و شکستن تصویر کاراکتر. 63

شکل 3-20  جداسازی قطعات کاراکترهای یکپارچه. 64

شکل 3-21  حذف نهایی گره‌های اضافی (به ترتیب از راست به چپ) 65

شکل 3-18 نتیجه بهینه‌سازی گراف ورودی.. 68

شکل 3 -19 سمت راست دارای انحراف ابتدایی، سمت چپ اصلاح‌شده و فاقد انحراف69

شکل 3-24 نتیجه حذف انحرافات ابتدایی و انتهایی و بهینه‌سازی نهایی گراف70

شکل 3-25 مشکلاتی که خطوط انتهایی برای محاسبه زاویه چرخش به وجود می‌آورند. 72

شکل 3-26 جهت انحنای گره b زاویه β  و جهت انحنای گره a زاویه α  است.. 73

شکل 3-27 (الف) الگوی ورودی  (ب) گراف پالایش شده     (ج) قطعات استخراج شده 76

شکل 3-28 (الف) الگوی ورودی    (ب) گراف پالایش شده    (ج)میزان تشابه با نمونه های موجود. 77

شکل 4-1 صفحه اصلی سامانه پیاده سازی شده 82

شکل 4-2 نمونه فونتهای استفاده شده در مرحله اول ارزیابی (به ترتیب از بالا، آریال، لوتوس، تیتر و هما) 83

شکل 4-4 نتیجه بازشناسی فونتهای مختلف پس از آموزش توسط فونت Arial 85

شکل 4-6 نتیجه ارزیابی نهایی سامانه. 87

شکل 4-7 ارزیابی نهایی بر اساس کیفیت چاپ و اسکن.. 88

 

 

 

 

 

قبلا حساب کاربری ایجاد کرده اید؟
گذرواژه خود را فراموش کرده اید؟
Loading...
enemad-logo