--- title: Reinforcement Learning localeTitle: Aprendizagem por Reforço --- #### Leitura sugerida: * http://incompleteideas.net/sutton/book/the-book-2nd.html #### Aprendizagem por Reforço Aprendizado por Reforço refere-se a um campo de Aprendizado de Máquina que se aplica a agentes que você reforça, dando-lhes recompensa e punição. Ele fornece uma boa aprendizagem gradual e pode simplificar o aprendizado do agente em tarefas em que você não pode determinar um valor de erro adequado. Exemplo: Um bot recebe uma tarefa para jogar Space Invaders, ele tenta aprender a jogá-lo interagindo com o jogo e em troca recebendo uma recompensa pelos pontos que ele marcou no final do jogo. Maior a recompensa, maiores são suas chances de fazer o mesmo jogo. Dessa forma, aprende a jogar e a jogar da melhor maneira possível. Nas indústrias, o robô usa o aprendizado de reforço profundo para escolher um dispositivo de uma caixa e colocá-lo em um contêiner. Se sucede ou falha, memoriza o objeto e ganha conhecimento e treina-se para fazer este trabalho com grande rapidez e precisão. Aprender sozinho é um tipo de aprendizagem de reforço, desde que o aprendizado esteja em dimensão positiva. ## Lista de Algoritmos Comuns Q-Learning Diferença Temporal (TD) Redes Adversariais Profundas ## Casos de uso: Algumas aplicações dos algoritmos de aprendizado por reforço são jogos de tabuleiro de computador (Chess, Go), mãos robóticas e carros autônomos.