%41تخفیف

دانلود پروژه: تشخیص احساس گفتار با استفاده از تجمیع مدل‌ها

تعداد 72صفحه در فایل word

کارشناسی ارشد رشته علوم رایانه

تشخیص احساس گفتار با استفاده از تجمیع مدل‌ها

چکیده

گفتار سریعترین و طبیعی ترین روش ارتباط انسان هاست. این موضوع باعث حرکت به سمت تحقیقاتی در زمینه اثرات شیوه های تعامل بین انسان و ماشین شده است، پس به ماشینی نیاز داردکه برای تشخیص احساس صدای انسان هوشمند باشد و این در حالی است که هنوز تا تعامل طبیعی بین انسان  و ماشین، فاصله زیادی است، زیرا ماشینی ساخته نشده است که احساس گوینده را تشخیص دهد، این موضوع انجام تحقیقاتی به نام سیستم های تشخیص احساس گفتار را ایجاب کرده است. دقت سیستم های تشخیص احساس وابسته به فاکتور های متفاوتی از قبیل نوع و تعداد حالتهای احساس و انتخاب ویژگی و نیز نوع کلاسه بند است.ما در این تحقیق با استفاده از روش تجمیع میزان دقت سیستم را افزایش دادیم. در این مطالعه کلاسه بند های ماشین بردار پشتیبان[1] (SVM) ، شبکه عصبی[2] (NN)، لجستیک[3] (L) ، C5.0، CH) )CHAID، QUEST(Q)، C&R و تجمیع آنها یعنی NN-SVM، NN-SVM-L، NN-SVM-L-C5.0، NN-SVM-L-C5.0-CH، NN-SVM-L-C5.0-CH-Q و سرانجام NN-SVM-L-C5.0-CH-Q-C&R بررسی شده و کارایی آنها برای تشخیص احساس گفتار با هم مقایسه شده است. ویژگی‌های بکار‌گرفته شده در این تحقیق، انرژی، نرخ عبور از صفر([4]ZCR) ، گام[5] وMFCC[6] است. نتایج تجربی در این مطالعه نشان می‌دهد که کارایی  NNبرای تشخیص 2 حالت احساس  بین 1/0 تا3/4 از سایر مدلها بهتر عمل کرده است و نیز NN-SVM-L-C5.0-CH-Q-C&R برای تشخیص 3 حالت احساس  بین1/3 تا8/23 از سایر مدلها بهتر عمل کرده است. کارایی  NN-SVM-L- C5.0-CH و NN-SVM-L-C5.0-CH-Q برای تشخیص 4 حالت احساس بین 0/4 تا4/28 از سایر مدلها بهتر عمل کرده است ونیزNN-SVM-L-C5.0-CH-Q  برای تشخیص 5 حالت احساس بین0/1 تا7/29 از سایر مدلها بهتر عمل کرده است. کارایی  NN-SVM-L-C5.0-CH-Q-C&R برای تشخیص 6 حالت احساس  بین 2/1 تا 9/39 از سایر مدلها بهتر بوده است. سرانجام کارایی NN-SVM-L-C5.0-CH-Q  برای تشحیص 7 احساس بین 2/0 تا 4/48 از سایر مدل‌ها از سایر مدلها بهتر عمل کرده است.

واژه‌های کلیدی: استخراج ویژگی،MFCC ، تجمیع، گام، لجستیک، C5.0، CHAID، QUEST، C&R

[1] Support Vector Machine

[2] Neural Network

[3] Logistic

[4] Zero Crossing Rate

[5] Pitch

[6] Mel  Frequency cepstral cofficients

فهرست مطالب

عنوان                                                                                                                                     صفحه

فصل اول مقدمه  1

1-1  مقدمه  2

1-3 چالش های  تشخیص احساس گفتار  5

1-4  کاربرد های تشخیص احساس گفتار……………………………………………………………….6

1-5  ساختار تحقیق   6

فصل دوم پیش پردازش و تخمین ویژگی‌ها 7

2-1  مقدمه  8

2-2. تبدیل سیگنال آنالوگ به داده های رقمی   8

2-3. آنالیز سیگنال گفتار و استخراج ویژگی   9

2-3-1   پیش پردازش    10

2-3-1-1 فریم بندی   10

2-3-1-2 پنجره گذاری   11

2-3-2. استخراج ویژگی‌های گفتار در حوزه زمان  12

2-3-2-1 میانگین   12

2-3-2-2 انرژی   12

2-3-2-3 نرخ عبور از صفر (ZCR) 12

2-3-2-4 اتوکورولیشن   12

2-3-3. استخراج ویژگیهای گفتار در حوزه فرکانس     13

2-3-3-1 تبدیل فوریه  13

2-3-3-2 ضرایب کپسترال مبتنی بر معیار مل (MFCC) 14

2-4  تخمین گام  16

2-4-1. معیارهای ارزیابی روشهای تخمین گام  16

2-4-2. معرفی چند روش تخمین گام  17

2-4-3   روش اتوکورولیشن   17

2-5. روش استخراج ویژگی در این تحقیق   17

فصل سوم مدل‌های کلاسه‌بندی پیش‌بینی و روش پیشنهادی در این مطالعه  19

3-1  مقدمه  20

3-2  درخت تصمیم   20

3-2-1   رگرسیون(C&R) 21

3-2-2   درخت CHAID   22

3-2-3   درخت QUEST  22

3-2-4   الگوریتم C5.0  24

3-3  شبکه عصبی   25

3-4. ماشين بردار پشتيبان (SVM) 26

3-5  رگرسیون لجستیک     31

1-6  روش های تجمعی   33

1-7  روش پیشنهادی   37

فصل چهارم پایگاه داده احساسی   40

4-1  مقدمه  41

4-1-1   ویژگی جدول ‏4‑1  45

4-2  پایگاه داده احساسی گفتار  45

4-2-1. ویژگیهای یک پایگاه داده احساسی گفتار مناسب    46

4-2-1-1 لهجه گوینده  46

4-2-1-2 جنسیت گوینده  47

4-2-1-3 حالت روانی گوینده  47

4-2-1-4 سن گوینده  47

4-2-1-5 تعداد گویندگان  47

4-2-1-6 حجم پایگاه داده احساسی   48

4-2-1-7 تعدد جلسات ضبط   48

4-2-1-8 محیط ضبط و انتقال  48

4-2-1-9 خصوصیات ضبط   48

4-2-1-10تفاوت در خصوصیات محیط آموزش و آزمایش     49

4-2-1-11کارت های صدا 49

4-2-1-12 نوع احساس    50

4-3. پایگاه داده  گفتار احساسی برلین   50

فصل پنجم تجربه و آزمایش     52

5-1  مقدمه  53

5-2  شرح نتایج   53

فصل ششم نتیجه گیری   65

مراجع  68

فهرست شکل‌ها

عنوان                                                                                                                                     صفحه

شکل ‏1‑1: چارچوب یک ماشین تشخیص احساس گفتار. 6

شکل ‏2‑1: نمودار بلوکی آنالیز سیگنال گفتار: مراحل پیش پردازش در آنالیز گفتار و استخراج ویژگی   10

شکل ‏2‑2: فریم بندی سیگنال گفتار همراه با همپوشانی فریمها 11

شکل ‏2‑3: نصب بانک فیلتر توزیع شده بر اساس معیار مل بر روی لگاریتم طیف… 15

شکل ‏3‑1: ساختار یک شبکه عصبی.. 25

شکل ‏3‑2: مجموعه نقاط مربوط به دو دسته. 27

شکل ‏3‑3: خطوط دسته بندی نمونه. 28

شکل ‏3‑4: حاشیه خطوط دسته بندی نمونه. 29

شکل ‏3‑5: کمینه سازی حاشیه خط دستبند در ماشین بردار پشتیبان. 30

شکل ‏3‑6: ماشین بردار پشتیبان و مسائل دسته بندی غیر خطی.. 31

شکل ‏3‑7: چگونگی عملکرد روش‌های تجمیعی.. 35

شکل ‏3‑8: فلوچارت تجمیع 7 مدل بکاربرده شده در این تحقیق.. 38

شکل ‏5‑1: نتایج 10 بار تست احساس های نرمال و  عصبانی.. 55

شکل ‏5‑2: نتایج 10 بار تست احساس های نرمال،  عصبانی و خوشحال. 57

شکل ‏5‑3: نتایج 10 بار تست احساس های نرمال،  عصبانی ، غمگین و خوشحال. 58

شکل ‏5‑4: نتایج 10 بار تست احساس های  عصبانی ، غمگین ،ترس ، تنفر و خوشحال. 60

شکل ‏5‑5: نتایج 10 بار تست احساس های  عصبانی ، غمگین ،ترس ، تنفر،خسته و خوشحال. 62

شکل ‏5‑6: نتایج 10 بار تست احساس های نرمال، عصبانی ، غمگین ،ترس ، تنفر،خسته و خوشحال. 64

 

 

 

فهرست جدول‌ها

عنوان                                                                                                                                     صفحه

جدول ‏1‑1: ویژگی‌های  بکار رفته ومحققان در سالهای اخیر………………………………………………….. 3

جدول ‏1‑2: مدل های بکار رفته و نتایجشان در سالهای اخیر. 4

جدول ‏2‑1: ویژگی های استخراج شده در این تحقیق.. 17

جدول ‏3‑1: چگونگی عملکرد روش تجمیعی Bagging. 36

جدول ‏3‑2: چگونگی عملکرد روش تجمیعی Boosting. 37

جدول ‏4‑1: مشخصات پایگاه‌های داده احساس… 41

جدول ‏5‑1: نرخ میانگین دقت در حالت 2 احساس عصبانی و نرمال. 54

جدول ‏5‑2: نرخ میانگین دقت برای 3 حالت  احساس عصبانی،خوشحال و نرمال. 56

جدول ‏5‑3: نرخ میانگین دقت برای 4 حالت  احساس عصبانی ،خوشحال،غمگین و نرمال. 57

جدول ‏5‑4: نرخ میانگین دقت برای 5 حالت  احساس عصبانی ،خوشحال،غمگین ، ترس وتنفر. 59

جدول ‏5‑5: نرخ میانگین دقت برای 5 حالت  احساس عصبانی ،خوشحال،غمگین ، ترس ، خسته وتنفر  61

جدول ‏5‑6: نرخ میانگین دقت برای 7 حالت  احساس  نرمال، عصبانی ،خوشحال،غمگین ، ترس ، خسته وتنفر  63

قبلا حساب کاربری ایجاد کرده اید؟
گذرواژه خود را فراموش کرده اید؟
Loading...
enemad-logo