سوال 83
حل تشریحی سوال شماره 83 شناسایی الگو - یادگیری ماشین
کنکور دکتری مهندسی کامپیوتر 1400
83.
یک عامل یادگیری تقویتی در محیط زیر که شامل ۵ حالت است فعالیت میکند اعداد روی کمانها پاداش را نشان می دهند عامل تنها دو کنش چپ و راست که به صورت قطعی هستند را دارد.
برای سیاست بهینه کدام است؟
1)
2)
3)
4)
پاسخ ها
0 پاسختا کنون پاسخی برای این سوال وارد نشده است،