---
title: Reinforcement Learning
localeTitle: Aprendizagem por Reforço
---
#### Leitura sugerida:

*   http://incompleteideas.net/sutton/book/the-book-2nd.html

#### Aprendizagem por Reforço

Aprendizado por Reforço refere-se a um campo de Aprendizado de Máquina que se aplica a agentes que você reforça, dando-lhes recompensa e punição. Ele fornece uma boa aprendizagem gradual e pode simplificar o aprendizado do agente em tarefas em que você não pode determinar um valor de erro adequado.

Exemplo: Um bot recebe uma tarefa para jogar Space Invaders, ele tenta aprender a jogá-lo interagindo com o jogo e em troca recebendo uma recompensa pelos pontos que ele marcou no final do jogo. Maior a recompensa, maiores são suas chances de fazer o mesmo jogo. Dessa forma, aprende a jogar e a jogar da melhor maneira possível.

Nas indústrias, o robô usa o aprendizado de reforço profundo para escolher um dispositivo de uma caixa e colocá-lo em um contêiner. Se sucede ou falha, memoriza o objeto e ganha conhecimento e treina-se para fazer este trabalho com grande rapidez e precisão. Aprender sozinho é um tipo de aprendizagem de reforço, desde que o aprendizado esteja em dimensão positiva.

## Lista de Algoritmos Comuns

Q-Learning Diferença Temporal (TD) Redes Adversariais Profundas

## Casos de uso:

Algumas aplicações dos algoritmos de aprendizado por reforço são jogos de tabuleiro de computador (Chess, Go), mãos robóticas e carros autônomos.