843 B
843 B
id | title | challengeType | videoId | bilibiliIds | dashedName | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|
5e8f2f13c4cdbe86b5c72da4 | Q学習による強化学習: パート 2 | 11 | DX7hJuaUZ7o |
|
reinforcement-learning-with-q-learning-part-2 |
--question--
--text--
エージェントが、ランダムなアクションを実行するか、学習したアクションを使用するかで良好なバランスを取れていない場合、何が起こる可能性がありますか?
--answers--
エージェントは常に、現在の状態やアクションに対する報酬を最小限に抑えようと試み、極小値につながる。
エージェントは常に、現在の状態やアクションに対する報酬を最大化しようと試み、極大値につながる。
--video-solution--
2