سوال 83

حل تشریحی سوال شماره 83 شناسایی الگو - یادگیری ماشین

کنکور دکتری مهندسی کامپیوتر 1400

83.

یک عامل یادگیری تقویتی در محیط زیر که شامل ۵ حالت است فعالیت میکند اعداد روی کمانها پاداش را نشان می دهند عامل تنها دو کنش چپ و راست که به صورت قطعی هستند را دارد.

برای سیاست بهینه کدام است؟

1)

2)

3)

4)

پاسخ ها

0 پاسخ
تا کنون پاسخی برای این سوال وارد نشده است،

ارسال پاسخ