%41تخفیف

دانلود پروژه: گسسته سازی تطبیقی برای بدست آوردن مقدار بهینه پیوسته

تعداد 80صفحه در فایل word

گسسته سازی تطبیقی برای بدست آوردن مقدار بهینه پیوسته

چکیده

آموزش تقويتي يک روش قوي مدرن براي آموزش روی خط استراتژی‌های کنترل از طريق تعامل با محيط است.  در آموزش تقویتی استاندارد فضای حالت و عمل گسسته می باشد ولیکن اکثر مسائل عملی دارای فضای حالت و عمل پیوسته هستند لذا لازم است روی فضای حالت و عمل پیوسته ،گسسته سازی انجام شود .مسئله مهم در گسسته سازی ،برقراری تعادل بین کاوش و بهره برداری از تجربیات است که در این پژوهش مورد بررسی قرار می گیرد به گونه ای که فضای مسئله به حد کافی برای بدست آوردن دانش مورد بررسی قرار گیرد و تجربه های بدست آمده در انتخاب عمل بعدی به کار گرفته شود. در این پژوهش  یک روش جدید به نام گسسته‌سازی تطبیقی  ارائه می‌گردد. در این روش گسسته‌سازی طی چندین مرحله انجام می‌شود، بدین گونه که پس از هر مرحله گسسته‌سازی عامل تاحدی آموزش می‌بیند که به دانش کافی برسد و بتواند فاصله‌ی مناسب را برای مرحله بعدی گسسته‌سازی بیابد. در این روش ضمن آن که از افزایش بدون دلیل تعداد مجموعه‌ی عمل‌ها جلوگیری می‌شود، با تعیین فاصله‌ای که برای گسسته‌سازی مناسب است، گسسته‌سازی را در آن محدوده انجام داده و بقیه‌ی عمل‌ها که با توجه به دانش فعلی عامل ارزش کمتری دارند از مجموعه‌ی عمل‌ها حذف می‌شوند. این کار تا رسیدن به جواب بهینه ادامه می‌یابد. با توجه به اهداف گسسته سازی، روشهای مختلف با شبیه سازی در محیط مطلب  بر روی مدلهایی از محیط های قطعی و تصادفی امتحان شده و در آخر بهترین روش انتخاب می شود.

گسسته سازی تطبیقی برای بدست آوردن مقدار بهینه پیوسته

  • مقدمه

آموزش تقويتي[1] يک روش قوي مدرن براي آموزش روی خط استراتژی‌های کنترل از طريق تعامل با محيط است. اين روش تنها با استفاده از يك معيار اسكالر راندمان، كه سيگنال تقويت يا پاداش[2] ناميده مي‌شود، بدون نياز به سرپرست قادربه آموزش عاملها در محيطهاي پيچيده، ناقطعي و تصادفي مي‌باشد. سازماندهي الگوريتم‌هاي آموزش تقويتي بر مبناي تخمين ارزشِ[3] حالت ) يا جفت حالت- عمل ( مي‌باشد [1]. در آموزش تقويتي استاندارد (گسسته) مقدار ارزشِ حالت  ) يا جفت حالت- عمل ( در جدول ارزش، ذخيره شده و در هر قدم كه آن حالت ) يا جفت حالت- عمل ( ملاقات شوند به روز رساني انجام مي‌گيرد. همانطور که از کلمه گسسته بر می‌آید، فضای حالت و عمل در آموزش تقویتی استاندارد گسسته است. لیکن بسیاری از مسائل عملی داری فضای حالت یا عمل پیوسته هستند. یکی از راهکارهای پیشنهادی در این قبیل مسائل ‌گسسته‌سازی فضای حالت و عمل می‌باشد [2و3]. اما یک معضل تعداد ‌گسسته‌سازی‌ها است، از یک طرف برای افزایش دقت باید ‌گسسته‌سازی با فواصل بسیار کوچکی ( تعداد عملها و حالتهای بسیار زیاد ) انجام شود و از طرف دیگر افزایش تعداد عملها، باعث کندی سرعت آموزش و در واقع مشکل تنگناي ابعاد [4]می‌گردد]26]. بنابراين استفاده از تقريب زننده هاي تابع براي تقريب  تابع ارزش در اينگونه مسائل ضروري است . بر اين اساس محققين با تركيب الگوريتم هاي آموزش تقويتي گسسته با تقريب زننده هايي همچون شبكه هاي عصبي و منطق فازي، الگوريتم هاي آموزش تقويتي پيوسته را ارائه داده اند. كاربردهاي گسترده و عملكرد مطلوب سيستم استنتاج فازي در كنترل و مسائل پيچيده و نيز مزايايي چون امكان گنجاندن دانش بشري، ارائه دانش بصورت قواعد اگر- آنگاه، و قابليت مدلسازي و كنترل سيستمهاي غير خطي با ترکيب سسيتم هاي فازي بعنوان تقريب ، باعث شده است تا محققين با ترکیب سیستم های فازی بعنوان تقریب زننده با روشهای آموزش تقویتی ، الگوريتمهاي آموزش تقويتي فازي(FRL) را ارائه دهند[1] .

[1] Reinforcement Learning

[2] Reward

[3] Value

[4] Cures of dimensionality

قبلا حساب کاربری ایجاد کرده اید؟
گذرواژه خود را فراموش کرده اید؟
Loading...
enemad-logo