%34تخفیف

طراحی وپیاده ‏سازی نرم افزارتبدیل گفتاربه انیمیشن

تعداد92 صفحه  درword

گروه مهندسی کامپیوتر و فناوری اطلاعات

کارشناسی ارشد رشتة مهندسی کامپیوتر گرایش نرم‎‏افزار

 

طراحیوپیاده‏سازینرمافزارتبدیلگفتاربهانیمیشن

 

چکیده

بخش عظیمی از مردمان این سرزمین خاکی را جامعة عزیز ناشنوا و کم‏شنوا تشکیل داده‏اند، افرادی با نیازهای خاص که تنها به تازگی مورد توجه تکنولوژی برای برآورد نیازهایشان قرارگرفته‏اند. بازار و تجارت، همواره به دنبال توسعة نرم‏افزاری بوده و هست که بتواند فاصلة بین جوامع ناشنوا و غیرناشنوا را تا حد امکان کم کند، به این‏صورت که گفتار را به زبان اشاره تبدیل کند. در جوامع بین‏الملل نرم‏افزارهایی با این قابلیت وجود دارند اما نه تنها آزاد نیستند بلکه باید برای استفاده از آنها قیمت گزافی پرداخت گردد. اما در ایران، چنین نرم‏افزاری برای تبدیل گفتار فارسی به زبان اشاره وجود ندارد. از این‏رو در این پایان‏نامه، برآن شدیم، تا با طراحی و توسعة برنامه‏ای کاربردی، گامی کوچک در جهت کاهش فاصله بین جوامع ناشنوا و غیرناشنوا برداریم.این پروژه دارای دو فاز اصلی است که به طور مجزا به آن‏ها می‏پردازیم. فاز اول تبدیل گفتار ورودی به متن است که با عنوان بازشناسی گفتار شناخته می‏شود و فاز دوم تبدیل کلمات تشخیص داده‏شده به انیمیشن‏های آماده شده به زبان اشاره است. بازشناسی گفتار، موضوعی است که چند دهة اخیر بر روی آن کار شده است و طی مطالعات، ثابت شده است که موفق‏ترین روش آن استفاده از مدل پنهان مارکوف می‏باشد.سیستم تشخیص گفتار استفاده شده در این پایان‏نامه، با بهره جستن از روش مدل پنهان مارکوف نیز خود دارای دو فاز آموزش و آزمون است. ابتدا برای تمامی کلمات پایگاه‏داده یک مدل پنهان مارکوف طراحی شده و برچسب‏گذاری می‏شود، که این همان فاز آموزش است. در فاز آزمون برای گفتار پیوسته، ابتدا جمله شکسته و کلمات استخراج می‏شود و با عبور از تمامی مدل‏های موجود، بهترین تطبیق یافت می‏شود.سپس، برای دنبالة کلمات پیش‏بینی شده، انیمیشن زبان اشارةمعادل آن، پخش می‏شود. ارزیابی روش پیشنهادی و پیاده‏سازی شده بر روی پایگاه‏دادة شخصی ایجاد شده، انجام می‏‏گردد. این پایگاه‏داده متشکل از 90 کلمة مجزا کهکلماتتشکیلدهندةجملاتکاربردیدریکمحیطدرمانیهستند، می‏باشد. تمامی کلمات و جملات با تکراهای مختلف به منظور آموزش و بررسی کارایی سیستم ضبط و نگهداری شده‏اند. سیستمپیاده‏سازی شده،بررویپایگاه‏دادةآمادهشدةوابسته به گوینده و بدون نویز،بهصورتآفلاین،بهطورمیانگینبرایکلماتمجزابادقتحدود 92% وبرایجملاتبادقت 89% درستیعملمی‏کنند.

کلمات کلیدی- بازشناسی گفتار، مدل پنهان مارکوف، انیمیشن، زبان اشاره.

 

فصلاول:کلیاتتحقیق.. 1

1-1-             مقدمه…………………………………………………………………………………………………………….. 2

1-2- پیشینةتحقیق………………………………………………………………………………………………………………… 3

1-2-1- پیشینةبازشناسیگفتار.. 3

1-2-2- پیشینةتبدیلگفتاربهزباناشاره.. 5

1-3-         ساختارپایان‏نامه……………………………………………………………………………………………………………… 6

فصلدوم:تشریحمفاهیماولیةبازشناسیگفتار.. 7

2-1- مقدمه.. 8

2-2- اجزایتشکیل‏دهندةیکسیستمبازشناسیگفتار.. 8

2-2-1- نمونه‏برداریازسیگنالصوتی.. 9

2-2-2- پیش‏پردازش.. 9

2-2-3- تعیینابتداوانتهایعباراتوقطعه‏بندیآن.. 10

2-2-4- استخراجویژگیازسیگنالگفتار.. 10

2-2-4-1- آنالیزبانکفیلتر.. 11

2-2-4-2- آنالیزپیشگوییخطی(LP). 12

2-2-4-3- آنالیزکپسترال.. 14

2-2-4-4- مشتقاتضرایبکپسترال.. 15

2-2-4-5- استفادهازمقیاسملدرآنالیزکپسترال.. 15

2-2-5- انطباقالگو.. 16

2-2-6- پردازشزبان.. 17

2-3- عواملمؤثردربازشناسیگفتار.. 18

2-3-1- پيوستهياگسستهبودنگفتار.. 19

2-3-2- وابستهیامستقلبودنازگوینده.. 19

2-3-3- حجملغات.. 20

2-3-4- گرامر.. 20

2-3-5- شرایطمحیط.. 21

2-3-6- ابهامآکوستيکيوميزاناشتباهبينکلمات.. 21

2-4- ارزیابیکاراییسیستم‏هایبازشناسیگفتار.. 21

2-5- خلاصةفصل.. 23

فصلسوم: روش‏هايبازشناسيخودکارگفتار.. 24

3-1- مقدمه.. 25

3-2- روشبرنامه‏ریزیپویا(DTW). 27

3-2-1- الگوریتمDTWبرایتطابقدوگفتار.. 32

3-3- شبکه‏هایعصبیمصنوعی.. 33

3-3-1- شبکةعصبیمصنوعیدربازشناسیگفتار.. 36

3-4-                       مدلپنهانمارکوف.. 37

3-4-2-………………………………………………………………………………………………. یادگیری.. 42

3-4-2-1- معیاربیشترینشباهت.. 42

3-4-2-1-1- الگوریتمبام- ولش.. 43

3-4-2-1-1-1- الگوریتمحداکثرسازیامیدریاضی.. 44

3-4-2-1-2- روشمبتنیبرگرادیان.. 45

3-4-3- استفادهازمدلHMM درشناساییگفتار.. 46

3-5-                       خلاصةفصل………………………………………… 46

فصلچهارم: پیاده‏سازیروشپیشنهادی.. 47

4-1- مقدمه.. 48

4-2- پایگاه‏داده.. 48

4-3- استخراجویژگی.. 49

4-3-1- استخراجویژگیبااستفادهازLPCوLPCC.. 50

4-3-2- استخراجویژگیبااستفادهازMFCC.. 50

4-4- متدولوژی.. 55

4-4-1- الگوریتمپیشرو.. 56

4-4-2- الگوریتمبام- ولش.. 57

4-4-3- آموزش.. 59

4-4-4- تشخیصفعالیتصوتی(VAD). 59

4-4-5- طبقه‏بندی.. 60

4-5- پیاده‏سازیسیستم.. 60

4-6-طراحیوپیاده‏سازینرم‏افزارکاربردیارتباطباناشنوایان.. 64

4-7- خلاصةفصل.. 66

فصلپنجم: آزمایش‏هاونتایج.. 67

5-1- ارزیابیزماناجرایفازآموزش.. 68

5-2-  نتایجتشخیصگفتاربرایکلماتمجزا.. 69

5-3- نتایجتشخیصگفتاربرایگفتارپیوسته.. 75

5-6- خلاصةفصل.. 77

فصلششم: نتیجه‏گیریوکارهایآینده.. 78

5-1- نتیجه‏گیری.. 79

5-2- کارهایآیندهوپیشنهادات.. 80

پیوست: زباناشاره.. 81

فهرست شکل‏ها

شکل 2-1) بلوک دیاگرام سیستم بازشناسی گفتار…………………………………………………………………………………………………8

شکل 2-2) بلوک دیاگرام بانک فیلتر…………………………………………………………………………………………………………………11

شکل 2-3) مدل تولید گفتارLPC …………………………………………………………………………………………………………………..13

شکل 2-4) تبدیل از هرتز به مل………………………………………………………………………………………………………………………..16

شکل 3-1)  انطباق بین دو سری زمانی در طول زمان……………………………………………………………………………………………..28

شکل 3-2) مسیر بهینة ترازبندی شده بین دو توالی A و B……………………………………………………………………………………..29

شکل 3-3) روش محاسبه DTW………………………………………………………………………………………………………………………31

شکل 3-4) ناحیه Itakura…………………………………………………………………………………………………………………………….32

شکل 3-5) بلوک دیاگرام تشخیص کلمه با استفاده از روشDTW…………………………………………………………………………32

شکل 3-6) نمونه‏ای از اجرای DTWبر روی سیگنال ورودی و سیگنال نمونه……………………………………………………………33

شکل 3-7) سلول عصبی مصنوعی……………………………………………………………………………………………………………………..34

شکل 3-8) توابع عملکرد معمول مورد استفاده در شبکه‏های عصبی………………………………………………………………………….34

شکل 3-9) معماری کلی یک HMM……………………………………………………………………………………………………………….38

شکل 4-1) بلوک دیاگرام MFCC…………………………………………………………………………………………………………………..50

شکل 4-2) قاب‏بندی سیگنال گفتار……………………………………………………………………………………………………………………51

شکل 4-3) فیلتربانک در مقیاس مل……………………………………………………………………………………………………………………53

شکل 4-4) واسط کاربری سیستم تشخیص گفتار طراحی شده………………………………………………………………………………..62

شکل 4-5) اجرای فاز آموزش HMMبرای کلمة “وجود” با استفاده از روش استخراج ویژگی MFCC……………………….62

شکل 4-6) نمونه‏ای از اجرای برنامه …………………………………………………………………………………………………………………..64

شکل 4-7) واسط کاربری برنامة تبدیل گفتار به انیمیشن زبان اشاره برای جملة “تشخیص بیماری چیست”………………………65

شکل 4-8) واسط کاربری برنامة تبدیل متن به انیمیشن زبان اشارة جملة “با اورژانس تماس بگیرید.” …………………………….65

شکل 4-9) واسط کاربری برنامة تبدیل متن به گفتار جملة “می‏خواهم وقت بگیرم” ……………………………………………………66

شکل 5-1) مقایسة میانگین زماناجرایآموزشپایگاهدادهبرای 1423 سیگنار گفتار کلمة مجزا با استفاده از سه روش استخراج ویژگی LPC، LPCCو MFCC…………………………………………………………………………………………………………………….69

شکل 5-2) مقایسة دقت تشخیص صحیح کلمات مجزا برای کل دیتاست با استفاده از روش استخراج ویژگی LPC. محور افقی تعداد حالت‏های HMMو محور عمودی، درصد دقت تشخیص می‏باشد…………………………………………………………………..71

شکل 5-3) مقایسة دقت تشخیص صحیح کلمات مجزا برای کل دیتاست با استفاده از روش استخراج ویژگی LPCC. محور افقی تعداد حالت‏های HMMو محور عمودی، درصد دقت تشخیص می‏باشد……………………………………………………………73

شکل 5-4) مقایسة دقت تشخیص صحیح کلمات مجزا برای کل دیتاست با استفاده از روش استخراج ویژگی MFCC. محور افقی تعداد حالت‏های HMMو محور عمودی، درصد دقت تشخیص می‏باشد……………………………………………………………74

شکل 5-5) مقایسة دقت تشخیص صحیح کلمات مجزا برای کل دیتاست با استفاده از هر سه روش استخراج ویژگی با پارامترهای مختلف آنها. محور افقی تعداد حالت‏های HMMو محور عمودی، درصد دقت تشخیص می‏باشد…………………………………75

فهرست جدول‏ها

جدول 2-1) مثال‏های از خطاهای بازشناسی گفتار………………………………………………………………………………………………… 23

جدول 4-1) جملات تعریف شده دیکشنری………………………………………………………………………………………………………..48

جدول 4-2) مشخصات نمونه‏های ضبط شده در پایگاه‏داده…………………………………………………………………………………… 49

جدول 4-۳) مشخصات ویژگی‏های MFCCاستخراج شده…………………………………………………………………………………….54

جدول 5-1) زمان اجرای آموزش پایگاه داده (تعداد 1423 کلمة آموزشی) با استفاده از روش استخراج ویژگی LPC (برحسب دقیقه) برای p=12…………………………………………………………………………………………………………………………………………68

جدول 5-2) زمان اجرای آموزش پایگاه داده (تعداد 1423 کلمة آموزشی) با استفاده از روش استخراج ویژگی LPCC (برحسب دقیقه)برای p=12……………………………………………………………………………………………………………………………68

جدول 5-3) زمان اجرای آموزش پایگاه داده (تعداد 1423 کلمة آموزشی) با استفاده از روش استخراج ویژگی MFCC (برحسب دقیقه) با 13 ویژگی……………………………………………………………………………………………………………………………69

جدول 5-4) درصد صحت تشخیص گفتار برای کلمات مجزا (تعداد 360 کلمة تست) با استفاده از روش استخراج ویژگی LPCو مقدار P=8………………………………………………………………………………………………………………………………………70

جدول 5-5) درصد صحت تشخیص گفتار برای کلمات مجزا (تعداد 360 کلمة تست) با استفاده از روش استخراج ویژگی LPCو مقدار P=12…………………………………………………………………………………………………………………………………….70

جدول 5-6) درصد صحت تشخیص گفتار برای کلمات مجزا (تعداد 360 کلمة تست) با استفاده از روش استخراج ویژگی LPCو مقدار P=16……………………………………………………………………………………………………………………………………..70

جدول 5-7) درصد صحت تشخیص گفتار برای کلمات مجزا (تعداد 360 کلمة تست) با استفاده از روش استخراج ویژگی LPCCو مقدار P=8…………………………………………………………………………………………………………………………………….71

جدول 5-8) درصد صحت تشخیص گفتار برای کلمات مجزا (تعداد 360 کلمة تست) با استفاده از روش استخراج ویژگی LPCCو مقدار P=12………………………………………………………………………………………………………………………………….72

جدول 5-9) درصد صحت تشخیص گفتار برای کلمات مجزا (تعداد 360 کلمة تست) با استفاده از روش استخراج ویژگی LPCCو مقدار P=16…………………………………………………………………………………………………………………………………72

جدول5-10) درصد صحت تشخیص گفتار برای کلمات مجزا (تعداد 360 کلمة تست) با استفاده از روش استخراج ویژگی MFCCبا 13 ویژگی  …………………………………………………………………………………………………………………………………..73

جدول 5-11) درصد صحت تشخیص گفتار برای کلمات مجزا (تعداد 360 کلمة تست) با استفاده از روش استخراج ویژگی MFCCبا 39 ویژگی …………………………………………………………………………………………………………………………………..74

جدول 5-12) درصد صحت تشخیص گفتار برای 125 جمله (هر جمله 5 تکرار مختلف=675 کلمه) با استفاده از روش استخراج ویژگی LPCبا P=12و N=6……………………………………………………………………………………………………………………….76

جدول 5-13) درصد صحت تشخیص گفتار برای 125 جمله (هر جمله 5 تکرار مختلف=675 کلمه) با استفاده از روش استخراج ویژگی LPCCبا P=8وN=7………………………………………………………………………………………………………………………….76

جدول 5-14) درصد صحت تشخیص گفتار برای 125 جمله (هر جمله 5 تکرار مختلف=675 کلمه) با استفاده از روش استخراج ویژگی MFCCبا 13 ویژگی و N=4……………………………………………………………………………………………………………….76

 

1 دیدگاه برای طراحی وپیاده ‏سازی نرم افزارتبدیل گفتاربه انیمیشن

  1. triamcinolona sans ordonnance prix au Marocr

    Thanks with regard to supplying this type of very good subject material.
    prempro en Belgique en pharmacie

دیدگاه خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

قبلا حساب کاربری ایجاد کرده اید؟
گذرواژه خود را فراموش کرده اید؟
Loading...
enemad-logo