دانلود پروژه: گسسته سازی تطبیقی برای بدست آوردن مقدار بهینه پیوسته
تعداد 80صفحه در فایل word
گسسته سازی تطبیقی برای بدست آوردن مقدار بهینه پیوسته
چکیده
آموزش تقويتي يک روش قوي مدرن براي آموزش روی خط استراتژیهای کنترل از طريق تعامل با محيط است. در آموزش تقویتی استاندارد فضای حالت و عمل گسسته می باشد ولیکن اکثر مسائل عملی دارای فضای حالت و عمل پیوسته هستند لذا لازم است روی فضای حالت و عمل پیوسته ،گسسته سازی انجام شود .مسئله مهم در گسسته سازی ،برقراری تعادل بین کاوش و بهره برداری از تجربیات است که در این پژوهش مورد بررسی قرار می گیرد به گونه ای که فضای مسئله به حد کافی برای بدست آوردن دانش مورد بررسی قرار گیرد و تجربه های بدست آمده در انتخاب عمل بعدی به کار گرفته شود. در این پژوهش یک روش جدید به نام گسستهسازی تطبیقی ارائه میگردد. در این روش گسستهسازی طی چندین مرحله انجام میشود، بدین گونه که پس از هر مرحله گسستهسازی عامل تاحدی آموزش میبیند که به دانش کافی برسد و بتواند فاصلهی مناسب را برای مرحله بعدی گسستهسازی بیابد. در این روش ضمن آن که از افزایش بدون دلیل تعداد مجموعهی عملها جلوگیری میشود، با تعیین فاصلهای که برای گسستهسازی مناسب است، گسستهسازی را در آن محدوده انجام داده و بقیهی عملها که با توجه به دانش فعلی عامل ارزش کمتری دارند از مجموعهی عملها حذف میشوند. این کار تا رسیدن به جواب بهینه ادامه مییابد. با توجه به اهداف گسسته سازی، روشهای مختلف با شبیه سازی در محیط مطلب بر روی مدلهایی از محیط های قطعی و تصادفی امتحان شده و در آخر بهترین روش انتخاب می شود.
گسسته سازی تطبیقی برای بدست آوردن مقدار بهینه پیوسته
آموزش تقويتي[1] يک روش قوي مدرن براي آموزش روی خط استراتژیهای کنترل از طريق تعامل با محيط است. اين روش تنها با استفاده از يك معيار اسكالر راندمان، كه سيگنال تقويت يا پاداش[2] ناميده ميشود، بدون نياز به سرپرست قادربه آموزش عاملها در محيطهاي پيچيده، ناقطعي و تصادفي ميباشد. سازماندهي الگوريتمهاي آموزش تقويتي بر مبناي تخمين ارزشِ[3] حالت ) يا جفت حالت- عمل ( ميباشد [1]. در آموزش تقويتي استاندارد (گسسته) مقدار ارزشِ حالت ) يا جفت حالت- عمل ( در جدول ارزش، ذخيره شده و در هر قدم كه آن حالت ) يا جفت حالت- عمل ( ملاقات شوند به روز رساني انجام ميگيرد. همانطور که از کلمه گسسته بر میآید، فضای حالت و عمل در آموزش تقویتی استاندارد گسسته است. لیکن بسیاری از مسائل عملی داری فضای حالت یا عمل پیوسته هستند. یکی از راهکارهای پیشنهادی در این قبیل مسائل گسستهسازی فضای حالت و عمل میباشد [2و3]. اما یک معضل تعداد گسستهسازیها است، از یک طرف برای افزایش دقت باید گسستهسازی با فواصل بسیار کوچکی ( تعداد عملها و حالتهای بسیار زیاد ) انجام شود و از طرف دیگر افزایش تعداد عملها، باعث کندی سرعت آموزش و در واقع مشکل تنگناي ابعاد [4]میگردد]26]. بنابراين استفاده از تقريب زننده هاي تابع براي تقريب تابع ارزش در اينگونه مسائل ضروري است . بر اين اساس محققين با تركيب الگوريتم هاي آموزش تقويتي گسسته با تقريب زننده هايي همچون شبكه هاي عصبي و منطق فازي، الگوريتم هاي آموزش تقويتي پيوسته را ارائه داده اند. كاربردهاي گسترده و عملكرد مطلوب سيستم استنتاج فازي در كنترل و مسائل پيچيده و نيز مزايايي چون امكان گنجاندن دانش بشري، ارائه دانش بصورت قواعد اگر- آنگاه، و قابليت مدلسازي و كنترل سيستمهاي غير خطي با ترکيب سسيتم هاي فازي بعنوان تقريب ، باعث شده است تا محققين با ترکیب سیستم های فازی بعنوان تقریب زننده با روشهای آموزش تقویتی ، الگوريتمهاي آموزش تقويتي فازي(FRL) را ارائه دهند[1] .