%41تخفیف

دانلود پروژه:بررسی چالش های تبدیل متن فارسی به گفتار و ارائه راهکارها

تعداد  121صفحات این فایل word

چکیده

زبان شیرین فارسی یکی از زبان های زیبا و غنی جهان است. ویژگی این زبان چالش های زیادی در طراحی سیستم های سخنگو و مبدل متن به گفتار ایجاد می‌کند و همین چالش ها باعث شده علیرغم تلاش های زیاد، تاکنون شاهد سیستم های قدرتمندی در این زمینه برای زبان فارسی نباشیم اما برای زبان هایی همچون انگلیسی به دلیل ساده تر بودن زبان، سیستم های قدرتمندی پدید آمده و درحال استفاده و رشد است. کاربردهای بسیار گسترده سیستم های سخنگو لزوم طراحی یک سیستم قدرتمند تبدیل متن فارسی به گفتار را روشن می سازد. از کمک به نابینایان گرفته تا سیستم های هشدار دهنده و محاوره انسان با کامپیوتر طیف وسیعی از کاربردهای سیستم های سخنگو را تشکیل می دهد. هدف از این تحقیق و پژوهش بررسی مشکلاتی از قبیل عدم حرکت گذاری کلمات فارسی، وجود کلمات مشتق و ریشه یابی، تشخیص کسره اضافه وجود انواع ابهام و چسبندگی کلمات است و سعی می کند راهکارهای موجود برای رفع این مشکلات را بیان و مقایسه کند و در برخی موارد راهکارهایی را پیشنهاد دهد.

کلمات کلیدی: تبدیل متن به گفتار، پردازش متن، ابهام زدایی، متن فارسی، tts

فهرست مطالب

چکیده 1

فصل اول: کلیات تحقیق.. 2

1-1- مقدمه. 3

1-2- تبدیل متن به گفتار(TTS) 4

1-3- اهداف سیستم های سخنگو. 4

1-4- تاريخچه سيستم هاي تبديل متن به گفتار. 8

1-4- زبان شناسی.. 10

1-4-1- واج‌شناسی.. 10

1-4-2- واج، آوا و واج‌گونه. 11

1-5- پردازش زبان طبیعی.. 11

1-6- پیکره های متنی.. 13

1-6-1- تحلیل محتوای پیکره های متنی.. 15

1-6-2- پيكر ه هاي با برچسب هاي معنايي.. 15

1-7- برخی از مشکلات زبان فارسی.. 19

1-7-1- عدم حرکت گذاری کلمات… 19

1-7-2- کسره‌ی اضافه. 22

1-7-3- تنوع کلمات و اشتقاق پذیری زیاد. 24

1-7-4- چسبندگی کلمات… 29

1-7-5- رفع ابهام از هم نویسه ها 30

1-8- غلط یابی املایی.. 33

1-9- مهم ترين ويژگي هاي موتورهاي تبديل متن به گفتار. 34

1-10- علوم و فن آوري هاي مرتبط و فن آوري هاي منسوخ/رد شده 36

1-11- فن آوري هاي مورد استفاده در تبديل متن به گفتار. 37

1-12- فناوری های منسوخ شده در تبدیل متن به گفتار. 39

1-13- خلاصه. 40

فصل دوم: پیشینه تحقیق.. 41

2-1- مروری بر فعالیت های انجام شده در زمینه تبدیل متن به گفتار. 42

2-2- پیکره‌های متنی.. 42

2-2-1- پيكره هاي متني زبان فارسي پژوهشكده پردازش هوشمند علائم. 42

2-2-2- پیکره فارسی FLDB.. 44

2-2-3- پیکره پروژه شیراز. 44

2-2-4- پيكره قوانين و مقررات مصوب مجلس شوراي اسلامي.. 44

2-2-5- پیکره وابستگی نحوی زبان فارسی (نسخه ۱.۰). 44

2-2-6- واژگان زایای زبان فارسی.. 45

2-2-7- دادگان صوتی هجاهای فارسی.. 45

2-2-8- بانک اطلاعات حروف گسسته دست‌نویس فارسی.. 45

2-2-9- فرهنگ املايى خطّ فارسى.. 46

2-2-10- فرهنگ ظرفیت نحوی افعال فارسی (نسخه ۳.۰). 46

2-2-11- مجموعه همشهری (نسخه ۲). 47

2-2-12- فارس نت… 48

2-2-13- فارس‌دات… 49

2-2-14- فارس‌دات تلفنی.. 49

2-2-15- پیکره متنی زبان فارسی.. 49

2-2-16- پیکره موازی انگلیسی-فارسی تهران. 50

2-2-17- پیکره تطبیقی فارسی-انگلیسی دانشگاه تهران. 50

2-2-18- دادگان درختی فارسی در چارچوب دستور ساخت سازه‌ای هسته‌بنیان. 50

2-2-19- پیکره بی‌جن‌خان. 50

2-2-20- پایگاه داده‌های زبان فارسی.. 51

2-2-21- پرسیکا (پیکره متون خبری). 51

2-2-22- مجموعه افعال تصریف‌شده فارسی.. 51

2-2-23- پایگاه‌ داده گفتار‌ احساسی‌ زبان‌ فارسی (Persian ESD). 52

2-2-24- پاسخ (پیکره استاندارد سامانه‌های خلاصه‌ساز). 53

2-3- پردازش متون و تعیین مرز گروه های نحوی.. 53

2-4- ابهام زدایی.. 56

2-5- تشخیص محل کسره اضافه. 58

فصل سوم: روش تحقیق.. 61

3-1- مقدمه. 62

3-2- پیکره متنی پارسی نیوز. 62

3-3- طراحی نرم افزار تبدیل متن به گفتار پارسر. 64

3-4- بانک کلمات دارای تلفظ.. 65

3-5- ابهام زدایی از هم نویسه ها 65

3-6- غلط یاب املایی.. 66

3-7- تشخیص محل کسره اضافه. 67

فصل چهارم: تجزیه و تحلیل و بیان نتایج حاصل از تحقیق.. 69

4-1- مقدمه. 70

4-2- کلمات مبهم. 70

4-2- غلط املایی و کلمات نا شناخته. 73

فصل پنجم: خلاصه، نتیجه گیری و جمع بندی.. 75

5-1- مقدمه. 76

5-2- عدم حرکت گذاری کلمات فارسی.. 76

5-3- مسئله ابهام زدایی.. 77

5-4- مسئله تشخیص کسره اضافه. 77

5-5- روش تحقیق.. 78

5-6- زمینه های دیگر تحقیق برای آیندگان. 78

فهرست منابع.. 80

منابع فارسی.. 80

منابع انگلیسی.. 81

Abstract 84

پیوست شماره 1: لیست کلمات چند تلفظی به همراه کلمات مرتبط.. 85

 

فهرست جداول

جدول3‑1 اطلاعات مربوط به عملیات خزش و پردازش 33،755 لینک دانلود شده 63

جدول 3-2 لیست کلماتی که به کمک آنها وجود و یا عدم وجود کسره تعیین می شود. 67

جدول ‏4‑1 لیستی از 10 کلمه مبهم استخراج شده از بانک کلمات… 70

جدول ‏4‑2 لیست کلمات مبهم غیر ساده که دارای پسوند یا پیشوند می باشند. 72

جدول ‏4‑3 نمایش تعداد و درصد تکرار کلمات از بخشی از پیکره پارسی نیوز. 73

 

 

فهرست اشکال

شکل ‏1‑1 تشديد سازه اي كرتزنشتاين (Lemmetty, 1999) 9

شکل ‏1‑2ماشین سخنگوی ویتستون(Lemmetty, 1999) 9

 

 

فهرست نمودار

نمودار ‏4‑1 نمایش درصد کلمات براساس تعداد تکرار در پیکره.. 74

قبلا حساب کاربری ایجاد کرده اید؟
گذرواژه خود را فراموش کرده اید؟
Loading...
enemad-logo