title

challengeType

videoId

bilibiliIds

dashedName

5e8f2f13c4cdbe86b5c72da4

Q学習による強化学習: パート 2

DX7hJuaUZ7o

aid	bvid	cid
420570359	BV1G341127zr	409139190

reinforcement-learning-with-q-learning-part-2

--question--

--text--

エージェントが、ランダムなアクションを実行するか、学習したアクションを使用するかで良好なバランスを取れていない場合、何が起こる可能性がありますか？

エージェントは常に、現在の状態やアクションに対する報酬を最小限に抑えようと試み、極小値につながる。

エージェントは常に、現在の状態やアクションに対する報酬を最大化しようと試み、極大値につながる。