title

challengeType

videoId

bilibiliIds

dashedName

5e8f2f13c4cdbe86b5c72da4

Aprendizagem de reforço com Q-Learning: Parte 2

DX7hJuaUZ7o

aid	bvid	cid
420570359	BV1G341127zr	409139190

reinforcement-learning-with-q-learning-part-2

--question--

mirror of https://github.com/freeCodeCamp/freeCodeCamp.git

--text--

O que pode acontecer se o agente não tiver um bom equilíbrio entre realizar ações aleatórias e usar ações aprendidas?

O agente sempre tentará minimizar sua recompensa pelo estado/ação atual, levando ao mínimo local.

O agente sempre tentará maximizar sua recompensa pelo estado/ação atual, levando ao máximo local.