2021-06-15 07:49:18 +00:00
|
|
|
---
|
|
|
|
id: 5e8f2f13c4cdbe86b5c72da4
|
2021-07-22 16:01:38 +00:00
|
|
|
title: 'Aprendizagem de reforço com Q-Learning: Parte 2'
|
2021-06-15 07:49:18 +00:00
|
|
|
challengeType: 11
|
|
|
|
videoId: DX7hJuaUZ7o
|
|
|
|
dashedName: reinforcement-learning-with-q-learning-part-2
|
|
|
|
---
|
|
|
|
|
|
|
|
# --question--
|
|
|
|
|
|
|
|
## --text--
|
|
|
|
|
2021-07-22 16:01:38 +00:00
|
|
|
O que pode acontecer se o agente não tiver um bom equilíbrio entre realizar ações aleatórias e usar ações aprendidas?
|
2021-06-15 07:49:18 +00:00
|
|
|
|
|
|
|
## --answers--
|
|
|
|
|
2021-07-22 16:01:38 +00:00
|
|
|
O agente sempre tentará minimizar sua recompensa pelo estado/ação atual, levando ao mínimo local.
|
2021-06-15 07:49:18 +00:00
|
|
|
|
|
|
|
---
|
|
|
|
|
2021-07-22 16:01:38 +00:00
|
|
|
O agente sempre tentará maximizar sua recompensa pelo estado/ação atual, levando ao máximo local.
|
2021-06-15 07:49:18 +00:00
|
|
|
|
|
|
|
## --video-solution--
|
|
|
|
|
|
|
|
2
|
|
|
|
|