سوال 83
حل تشریحی سوال شماره 83 شناسایی الگو - یادگیری ماشین
کنکور دکتری مهندسی کامپیوتر 1402
83.
قصد داریم تا به روش یادگیری تقویتی سیستمی با چهار حالت (A,B,C,D) را که در هر حالت تنها دو کنش a و b امکان پذیر است آموزش دهیم شکل زیر امکان انتقال بین حالات و همچنین پاداش دریافتی به ازای هر کنش در هر حالت را نشان میدهد. در صورتی که از الگوریتم Q-Learning برای آموزش استفاده نماییم و باشد، مقادیر تابع Q چه خواهد بود در صورتی که از حالت A شروع کرده و کنشهای را به ترتیب از چپ به راست انجام دهیم؟

1)

2)

3)

4)

پاسخ ها
0 پاسختا کنون پاسخی برای این سوال وارد نشده است،