669 B
669 B
id | title | challengeType | videoId | bilibiliIds | dashedName | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|
5e8f2f13c4cdbe86b5c72da4 | Aprendizagem de reforço com Q-Learning: Parte 2 | 11 | DX7hJuaUZ7o |
|
reinforcement-learning-with-q-learning-part-2 |
--question--
--text--
O que pode acontecer se o agente não tiver um bom equilíbrio entre realizar ações aleatórias e usar ações aprendidas?
--answers--
O agente sempre tentará minimizar sua recompensa pelo estado/ação atual, levando ao mínimo local.
O agente sempre tentará maximizar sua recompensa pelo estado/ação atual, levando ao máximo local.
--video-solution--
2