سوال 83

حل تشریحی سوال شماره 83 شناسایی الگو - یادگیری ماشین

کنکور دکتری مهندسی کامپیوتر 1402

83.

قصد داریم تا به روش یادگیری تقویتی سیستمی با چهار حالت (A,B,C,D) را که در هر حالت تنها دو کنش a و b امکان پذیر است آموزش دهیم شکل زیر امکان انتقال بین حالات و همچنین پاداش دریافتی به ازای هر کنش در هر حالت را نشان میدهد. در صورتی که از الگوریتم Q-Learning برای آموزش استفاده نماییم و باشد، مقادیر تابع Q چه خواهد بود در صورتی که از حالت A شروع کرده و کنش‌های را به ترتیب از چپ به راست انجام دهیم؟

1)

2)


3)


4)


پاسخ ها

0 پاسخ
تا کنون پاسخی برای این سوال وارد نشده است،

ارسال پاسخ