%41تخفیف

دانلود پروژه: یادگیری تقویتی بر مبنای دوپامین به عنوان سیگنال مالتی پلکس شده یادگیری در رفتار مبتنی بر پاداش

تعداد 50 صفحه در فایل word

کارشناسی ارشد (M.Sc) در رشته کامپیوتر

گرایش: نرم افزار

یادگیری تقویتی بر مبنای دوپامین به عنوان سیگنال مالتی پلکس شده یادگیری در رفتار مبتنی بر پاداش

چکیده

پیشرفت های اخیر سعی در جایگزینی روبات به جای انسان کرده است. روبات ها برای جایگزینی نیاز به یادگیری دارند. با تکامل علوم جدید هر روز روبات ها، برای رسیدن به هدف مورد نظر، بدون نیاز به نظارت انسان پیشرفت می کنند. تاکنون تحقیقات زیادی در مورد یادگیری با نظارت و یا بر اساس مدل[1] انجام شده است.

رسیدن به هدف، توسط روبات در محیط ناشناخته به معنی پیدا کردن راهی برای رسیدن به کوتاه ترین مسیر موجود از مکان فعلی تا مقصد در محیط ناشناخته می باشد که مشکل بزرگی در راه یادگیری تقویتی می باشد. ما این هدف را در این پایان نامه پیگیری نموده ایم. هدف ما در این رساله، یافتن کوتاه ترین مسیر تا مقصد و در عین حال با ارزش ترین مسیر در محیط ناشناخته و در n بعد می باشد. یافتن کوتاه ترین مسیر به معنی وجود یک راه فیزیکی تا هدف نیست. اساس کار،  پیاده سازی بر اساس مدل آزاد[2] است تا قابل اجرا در هر فضایی باشد. برای رسیدن به هدف یادگیری، الگوریتم کلونی مورچگان را با یادگیری تقویتی ترکیب کردیم و ماتریس فرومون را ساختیم. با الگو برداری از ترشح دوپامین از کیسه ی کوچکی بنام وزیکول[3]  در مغز انسان، پاداش تاخیری را پیاده سازی کردیم و باعث ایجاد همگرایی کران پیش بینی پاداش به سمت پاداش واقعی شدیم.

 

کلمات کل

یدیپاداش تاخیری، پیش بینی پاداش، ماتریس فرومون، مدل آزاد،  یادگیری تقویتی، همگرایی پیش بینی به پاداش واقعی.

[1] Model-Base

[2] Model-Free

[3] Vesicle

فهرست مطالب

چکیده. 1

کلمات کلیدی.. 1

فصل اول: کلیات تحقیق.. 3

مقدمه. 3

انواع یادگیری.. 4

تعاریف یادگیری.. 7

حالت ها 7

خاصیت مارکوف… 8

اعمال.. 8

تابع کیفیت… 9

ارزش… 10

سیاست… 11

سیاست های انتخاب عمل.. 12

الگوریتم ε-greedy.. 12

الگوریتم ε-soft. 12

الگوریتم های یادگیری (TD-Learning Algorithms) 13

الگوریتم SARSA.. 14

الگوریتم Q-Learning.. 15

مسیر رسیدن به ارزش… 17

مجموع بیشترین پاداش… 18

دوپامین.. 20

اهمیت و ضرورت انجام تحقيق.. 20

فرضيه ‏هاي تحقیق.. 21

اهداف مشخص تحقيق.. 22

فصل دوم: مروری بر ادبیات تحقیق و پیشینه تحقیق.. 23

فصل سوم: روش اجرای تحقیق.. 34

فرضیات پیشنهادی قبل از پیاده سازی.. 34

پیاده سازی فرضی.. 41

سوال فرضی اول.. 41

پیاده سازی الگوریتم. 43

نمودار حالت… 45

سوال فرضی دوم. 46

سوال فرضی سوم. 46

الگوریتم کلونی مورچه: 47

بهينه سازي مسائل بروش کلوني مورچه(ACO) : 49

ویژگیهای الگوریتم مورچگان : 50

سوال فرضی چهارم. 51

سوال فرضی پنجم. 51

پیاده سازی.. 54

پیاده سازی تبدیل وزن منفی به مثبت… 54

پیاده سازی هرم. 55

پیاده سازی موتور پیمایش… 55

پلاگین منع حلقه. 57

پلاگین منع صفر.. 58

پلاگین منع نامسیر.. 59

پلاگین کوتاه ترین مسیر.. 60

پلاگین یادگیری.. 61

ماتریس فرومون.. 65

خطای پیش  بینی پاداش (RPE). 67

چند معیار سنجش خطا در پیش بینی.. 68

فصل چهارم: تجزیه و تحلیل داده ها (یافته ها). 69

مثبت سازی تنبیه. 69

یادگیری.. 70

فصل پنجم: بحث و نتیجه گیری.. 76

نتیجه گیری.. 76

پیش نهاد برای آینده. 79

منابع.. 80

فهرست نمودارها

فصل چهارم

نمودار 4 – 1: نزدیک شدن پیش بینی پاداش به مقدار پاداش واقعی و کاهش RPE. 73

نمودار 4 – 2: نمونه ای از دو درایه در حال دور شدن از پاداش واقعی   74

فصل پنجم

نمودار 5 – 1: نمودار رشد به سمت پاداش واقعی.. 78

فهرست شکل ها

فصل اول

شکل 1 – 1 : چرخه عمل در یادگیری تقویتی.. 6

شکل 1 – 2: موارد موثر بر ارزش.. 11

شکل 1 – 3: معماری سیاست در مدل داخلی.. 11

شکل 1 – 4: شبه کد الگوریتم ε-soft 13

شکل 1 – 5: شبه کد SARSA.. 15

شکل 1 – 6: نمودار حالت SARSA.. 15

شکل 1 – 7: شبه کد Q-Learning. 16

شکل 1 – 8: نمودار حالت Q-Learning. 17

شکل 1 – 9: مسیر رسیدن به ارزش مورد نظر.. 18

شکل 1 – 10 : قسمتی از مدل داخلی به همراه ورودی و خروجی های لازم   19

فصل دوم

شکل 2 – 1 : شماتيكي از نمونه ها در فضاي حسي و مفاهيم استخراجي از آنها در فضاي كاركردي (Vosoughpour, Nili Ahmadabadi, S. Mirian, & Nadjar Araabi).. 24

شکل 2 – 2: اعمال جستجوي سطحی به بازي مشابه تخته نرد.. 25

شکل 2 – 3: همکاری بین لایه شبکه سطح بالا با لایه های دیگر.. 27

فصل سوم

شکل 3 – 1: گراف reward prediction در فضای 2 بعدی.. 35

شکل 3 – 2: ایجاد هرم با شرایط خاص(گره با وزن بیشتر سمت راست ریشه و وزن کمتر سمت چپ).. 36

شکل 3 – 3: دریافت پاداش بعد از تحریک در 8 زمان متفاوت.. 38

شکل 3 – 4: یافتن کوتاه ترین مسیر برای 25 یال با استفاده از الگوریتم دیکسترا.. 40

شکل 3 – 5: وجود دور در مسیر یافتن هدف.. 42

شکل 3 – 6: نمودار حالت پیمایش هرم جهت رسیدن به مقصد.. 46

شکل 3 – 7: مسیر ماده فرومون جا مانده از مورچه ها.. 47

شکل 3 – 8: یافتن کوتاه ترین مسیر برای یافتن مقصد.1)مسیر مختلف عبوری توسط مورچه ها. 2)مسیر های طولانی تر به دلیل تبخیر فرومون کم عبور می شود. 3) انتخاب مسیر نهایی کوتاه تر.. 48

شکل 3 – 9: تفاوت مسیر پیموده شده  تا مقصد با مسیر مقصد.. 53

شکل 3 – 10: نمونه مسیر یافت شده به مقصد به همراه وزن های آن با استفاده از موتور پیشنهادی.. 56

فصل پنجم

شکل 5 – 1: ورودی و خروجی های مدل داخلی.. 77

قبلا حساب کاربری ایجاد کرده اید؟
گذرواژه خود را فراموش کرده اید؟
Loading...
enemad-logo