%34تخفیف

دانلود پروژه: ارائه یک روش کارآمد برای تشخیص حروف فارسی با آنالیز اجزای اصلی جهت استخراج ویژگی‌ها

تعداد 124 صفحه در فایل word

چکیده

نرم‌افزارهای «اُسي آر» برای زبان‌های مختلف تاکنون گسترش فراوانی داشته‌اند و نحوه عملکرد کلی آن‌ها تا حدودی باهم مشابه هست. چالش بزرگ در این میان نحوه نگارش متفاوت در میان زبان‌های مختلف و مشکلاتی است که در تشخیص و پردازش متون مختلف به وجود می‌آید. این موضوعات باعث شده تا برای نگارش هر زبانی، متخصصان و پژوهشگران بر آن شوند تا به راه‌هایی بهتر برای بالا بردن دقت، سرعت و عملکرد سیستم‌های OCR بپردازند.

ویژگی‌هایی که در نگارش فارسی برای سیستم‌های الگو شناسی حروف استفاده می‌شود می‌تواند برای بهبود عملکرد الگو شناسی استفاده شود که عملکرد کلی سیستم را به میزان قابل‌توجهی بهبود می‌بخشد. در این تحقیق برای پیاده‌سازی الگو شناسی از ویژگی‌هایی که بیشتر با نحوه نگارش زبان فارسی سازگار است استفاده شده و تلاش شده تا یک روش دقیق‌تر، کامل‌تر و سریع‌تر نسبت به گذشته ارائه گردد.

در نهایت یک روش کارآمد با آنالیز اجزای اصلی جهت استخراج ویژگی‌های حروف فارسی و پیاده‌سازی آن با یک شبکه عصبی کامپیوتری 3 لایه و SVM توسط نرم‌افزار متلب ارائه شده و با دیگر روش‌های انجام‌شده مقایسه شده است.

کلمات کلیدی: تشخیص حروف فارسی، آنالیز اجزای اصلی، استخراج ویژگی، شبکه‌های عصبی

 

 

فهرست مطالب

عنوان                                                                                                         شماره صفحه

چکیده………………………………………………………………………………………………… 1

فصل اول : کلیات تحقیق

1-1- مقدمه ای بر OCR…………………………………………………………………………… 3

1-2- زبان فارسی…………………………………………………………………………………… 4

1-3- خط فارسی…………………………………………………………………………………….. 4

1- 4- الفبا…………………………………………………………………………………………… 5

1-5- طبقه‌بندی حروف الفبا…………………………………………………………………………. 6

1-6- کاربردهاي پستی……………………………………………………………………………… 7

1-7- تبدیل نوشته های چاپی به متون تایپی………………………………………………………… 9

1-8- تبدیل نسخ خطی به کتب قابل‌چاپ……………………………………………………………. 9

1-9- خواندن اتوماتیک فرم‌های دست‌نویس پرشده در دوایر و ادارات دولتی …………………….. 9

1-10- برچسب‌زنی اتوماتیک و دست بندی تصاویر …………………………………………… 10

1-11- نتیجه‌گیری…………………………………………………………………………………. 10

فصل دوم:  مروری بر ادبیات و پیشینه تحقیق

2-1- مروری بر کارهای انجام‌شده ……………………………………………………………….. 12

2-2- گرافولوژی دست‌نوشته به کمک پردازش تصویر و سیستم استنتاج فازی                       12

2-2-1- شرح کلی روش …………………………………………………………………………. 12

2-2-2- نتیجه‌گیری ………………………………………………………………………………. 13

2-3- روشی نو در تشخیص حروف در متون چاپی عربی فارسی با استفاده از پویش خط زمینه   13

2-3-1- شرح کلی روش …………………………………………………………………………. 13

2-3-2- نتیجه‌گیری ………………………………………………………………………………. 14

2-4- بازشناسی برون‌خط کلمات دست‌نویس فارسی با تأکید بر تشخیص نام چند شهر               14

2-4-1- شرح کلی روش …………………………………………………………………………. 14

2-4-2- نتیجه‌گیری ………………………………………………………………………………. 14

2-5- شناسایی قطعه‌بندی مبتنی بر تشخیص کاراکتر فارسی…………………………………….. 15

2-5-1- شرح کلی روش …………………………………………………………………………. 15

2-5-2- نتیجه‌گیری ………………………………………………………………………………. 15

2-6- روش توسعه تشخیص آفلاین دست خط چاپی با استفاده از ویژگی‌های آنلاین نوشتن کاراکتر 15

2-6-1- شرح کلی روش …………………………………………………………………………. 15

2-6-2- نتیجه‌گیری ………………………………………………………………………………. 16

2-7- تشخیص فونت فارسی/عربی بر اساس قابلیت  SIFT……………………………………… 16

2-7-1- شرح کلی روش …………………………………………………………………………. 16

2-7-2- نتیجه‌گیری ………………………………………………………………………………. 16

2-8- تشخیص دست خط عربی با استفاده از ویژگی‌های الگوی ساختاری و نحوی……………… 17

2-8-1- شرح کلی روش …………………………………………………………………………. 17

2-8-2- نتیجه‌گیری ………………………………………………………………………………. 17

2-9- مدل‌های شبکه‌های عصبی برای تشخیص دست خط آفلاین………………………………… 17

2-9-1- شرح کلی روش …………………………………………………………………………. 17

2-9-2- نتیجه‌گیری ………………………………………………………………………………. 17

2-10- رویکردی مؤثر برای تشخیص دست خط عربی آفلاین…………………………………… 18

2-10-1- شرح کلی روش ……………………………………………………………………….. 18

2-10-2- نتیجه‌گیری …………………………………………………………………………….. 18

2-11- چارچوبی برای تشخیص دست‌نویس عربی بر اساس قطعه‌بندی…………………………. 18

2-11-1- شرح کلی روش ……………………………………………………………………….. 18

2-11-2- نتیجه‌گیری …………………………………………………………………………….. 19

2-12-مروری بر تشخیص کارکترهای دست نویس خط شکسته فارسی و اردو…………………. 19

2-12-1- شرح کلی روش ……………………………………………………………………….. 19

2-12-2- نتیجه گیری ……………………………………………………………………………. 24

فصل سوم : روش اجرای  تحقیق

3-1- موجک ……………………………………………………………………………………… 26

3-2- آشنایی با تبدیل موجک……………………………………………………………………… 27

3-3-آنالیز در حوزه فرکانس ……………………………………………………………………… 28

3-4- تبدیل موجک پیوسته………………………………………………………………………… 31

3-5- رزولوشن در صفحه زمان فرکانس…………………………………………………………. 32

3-6- روابط ریاضی تبدیل موجک……………………………………………………………….. 34

3-7- عکس تبدیل موجک…………………………………………………………………………. 35

3-8- گسسته سازی تبدیل موجک…………………………………………………………………. 36

3-9- تبدیل موجک گسسته………………………………………………………………………… 38

3-10- مثال کاربردی از موجک در شناسایی پارامترهای مودال در سیستم دمپینگ با دو درجه آزادی  40

3-11- شبکه عصبی………………………………………………………………………………. 42

3-11-1- ساختار مغز…………………………………………………………………………….. 42

3-12- يادگيري در سيستم‌هاي بيولوژيك………………………………………………………….. 44

3-13- شبكه عصبي مصنوعی……………………………………………………………………. 44

3-14- كاربردهاي نمونه شبکه‌های عصبي مصنوعي……………………………………………. 45

3-15- فوايد و معايب شبکه‌های عصبي مصنوعي………………………………………………. 46

3-16- انتخاب توپولوژي شبكه……………………………………………………………………. 46

3-17- k نزدیک‌ترین همسایه…………………………………………………………………….. 47

3-18- تقریب نزدیک‌ترین همسایگی…………………………………………………………….. 48

3-19- نسبت فاصله در نزدیک‌ترین همسایه……………………………………………………… 48

3-20- همسایه‌های نزدیک در شعاع ثابت………………………………………………………… 48

3-21- همه نزدیک‌ترین همسایگان……………………………………………………………….. 48

3-22- ماشین بردار پشتیبان (SVM)……………………………………………………………. 49

3-23- نتیجه گیری ……………………………………………………………………………….. 51

فصل چهارم : تجزیه تحلیل داده‌ها

4-1- مقدمه………………………………………………………………………………………… 53

4-2- روش پیشنهادی……………………………………………………………………………… 53

4-2-1- پیش‌پردازش………………………………………………………………………………. 53

4-3- تفکیک خطوط………………………………………………………………………………. 54

4- 4-یافتن خط زمینه……………………………………………………………………………… 56

4-5- تفکیک گرافم ها از یکدیگر…………………………………………………………………. 57

4-6- تشخیص الگو……………………………………………………………………………….. 58

4-7- استخراج ویژگی…………………………………………………………………………….. 68

4-7-1- ویژگی‌های استخراج‌شده از تبدیل موجک……………………………………………….. 68

4-7-2- ویژگی‌های هندسی……………………………………………………………………….. 70

4-8- پایگاه داده استفاده‌شده………………………………………………………………………… 72

4-9- کلاسه‌بندی و درصدهای به‌دست‌آمده………………………………………………………… 73

4-10- نتایج……………………………………………………………………………………….. 73

4-11- نتیجه‌گیری…………………………………………………………………………………. 77

فصل پنجم : نتیجه‌گیری و پیشنهادات

5-1- نتیجه‌گیری ………………………………………………………………………………….. 79

5-2- پیشنهادات……………………………………………………………………………………. 80

پیوست : کلاس الگوریتم پیشنهادی در این تحقیق…………………………………………………. 82

منابع و مأخذ……………………………………………………………………………………….. 83

فهرست منابع فارسی ……………………………………………………………………………… 83

فهرست منابع انگلیسی ……………………………………………………………………………. 84

چکیده انگلیسی…………………………………………………………………………………….. 86

فهرست جداول

عنوان                                                                                                         شماره صفحه

جدول (1-1)حروف الفبای فارسی…………………………………………………………………… 5

جدول (1-2) حالت‌های مختلف حروف فارسی در کلمه……………………………………………. 5

جدول (1-3) کلاسه‌بندی حروف الفبا فارسی……………………………………………………….. 7

جدول (4-1) مشخصات کمی نسخه‌های 1 و 2 مجموعه همشهری………………………………. 60

جدول (4-2) درصد تکرار نویسه‌های به هم چسبیده شده واژگان فارسی در مجموعه همشهری… 63

جدول (4-3) میزان اهمیت کاراکترهای فارسی………………………………………………….. 64

جدول (4-4) گرافم های دو کاراکتری به همراه در صد کل و درصد در دسته…………………… 65

جدول (4-5) گرافم های سه کاراکتری و درصد در کل و درصد در دسته……………………….. 67

جدول (4-6) 12 ویژگی استخراج‌شده از تبدیل موجک…………………………………………… 69

جدول (4-7) ویژگی‌های استخراج‌شده از تبدیلات هندسی………………………………………… 72

جدول (4-8) پیاده‌سازی هسته‌های مختلف الگوریتم svm……………………………………….. 76

جدول (4-9) ویژگی‌های استخراج‌شده از تبدیلات هندسی………………………………………… 76

جدول (4-10) انتخاب بهترین حالت طبقه‌بندی…………………………………………………… 77

فهرست رابطه ها

عنوان                                                                                                           شماره صفحه

رابطه (3-1) ………………………………………………………………………………………. 28

رابطه (3-2)……………………………………………………………………………………….. 28

رابطه (3-3)……………………………………………………………………………………….. 28

رابطه (3-4) ………………………………………………………………………………………. 31

رابطه (3-5)……………………………………………………………………………………….. 34

رابطه (3-6)……………………………………………………………………………………….. 34

رابطه (3-7) ………………………………………………………………………………………. 34

رابطه (3-8)……………………………………………………………………………………….. 34

رابطه (3-9)……………………………………………………………………………………….. 35

رابطه (3-10) …………………………………………………………………………………….. 35

رابطه (3-11)……………………………………………………………………………………… 35

رابطه (3-12)……………………………………………………………………………………… 36

رابطه (3-13) …………………………………………………………………………………….. 36

رابطه (3-14)……………………………………………………………………………………… 36

رابطه (3-15)……………………………………………………………………………………… 39

رابطه (3-16) …………………………………………………………………………………….. 40

رابطه (3-17)……………………………………………………………………………………… 40

رابطه (3-18)……………………………………………………………………………………… 40

رابطه (3-19)……………………………………………………………………………………… 40

رابطه (3-20) …………………………………………………………………………………….. 41

رابطه (3-21)……………………………………………………………………………………… 41

رابطه (3-22) …………………………………………………………………………………….. 41

رابطه (3-23)……………………………………………………………………………………… 41

رابطه (3-24) …………………………………………………………………………………….. 41

رابطه (3-25)…………………………………………………………………………………….. 41

رابطه (3-26) …………………………………………………………………………………….. 42

رابطه (3-27)……………………………………………………………………………………… 50

فهرست اشکال

عنوان                                                                                                           شماره صفحه

شکل(2-1) نوشتن غیریکنواخت حروف………………………………………………………….. 21

شکل(2-2) نگارش خط شکسته…………………………………………………………………… 21

شکل(2-3) اشکال مختلف سه کاراکتر……………………………………………………………. 21

شکل(3-1) نمایش گرافیکی نحوه پنجره کردن سیگنال غیر ایستا به‌منظور محاسبه تبدیل فوریه زمان کوتاه      30

شکل(3-2) نمایش رزولوشن در صفحات مختلف. (الف) صفحه زمان، (ب) صفحه فرکانس، (پ) صفحه زمان – فرکانس در تبدیل فوریه زمان – کوتاه (ت) صفحه زمان – فرکانس در تبدیل موجک……………………. 33

شکل(3-3) محل موجک ها به هنگام گسسته کردن بر روی درجه‌بندی دودویی………………… 37

شکل(3-4) نمایش نحوه محاسبه تبدیل موجک گسسته 3 مرحله‌ای با استفاده از ایده بانک فیلتر برای یک سیگنال دلخواه……………………………………………………………………………………………………… 39

شکل(3-5) مشخصات اصلي يك نرون بيولوژيك…………………………………………………. 42

شکل(3-6) پاسخ «صفر-یک» نرون به تحریک…………………………………………………. 43

شکل(3-7) اجزای مختلف يك سيناپس……………………………………………………………. 44

شکل(3-8) توپولوژی‌های شبکه‌های عصبي مصنوعي………………………………………….. 45

شکل(3-9) الگوریتم SVM در تفکیک دو کلاس با بزرگ‌ترین فاصله…………………………. 49

شکل(3-10) تفکیک دو کلاس با اعمال یک صفحه در الگوریتم ماشین بردار پشتیبان…………. 50

شکل(3-11) آموزش الگوریتم SVM……………………………………………………………. 51

شکل(3-12) استفاده از تابع کرنل در SVM…………………………………………………….. 51

شکل(4-1) یک نمونه دست خط نوشته‌شده با الفبای فارسی………………………………………. 74

شکل(4-2) تفکیک‌شده‌ی دست‌نوشته به‌صورت گرافم های مختلف………………………………. 74

شکل(4-3) تبدیل موجک گرافم “گهر”…………………………………………………………… 74

شکل(4-4) تبدیل موجک گرافم “کی”……………………………………………………………. 75

شکل(4-5) نرمال شده کاراکترها قبل از استخراج ویژگی‌های شش‌گانه هندسی…………………. 75

قبلا حساب کاربری ایجاد کرده اید؟
گذرواژه خود را فراموش کرده اید؟
Loading...
enemad-logo