Utilização do Método Perceptron de Raio-ε Fixo para Aprendizado por Reforço

2018; Volume: 6; Issue: 1 Linguagem: Português

ISSN

2359-0793

Autores

Lucas de Almeida Teixeira, Saul C. Leite,

Tópico(s)

Multi-Criteria Decision Making

Resumo

Problemas de aprendizado por reforco podem ser definidos como problemas nos quais um agente inteligente deve agir com base na observacao do ambiente ao seu redor de modo a maximizar a soma total das recompensas imediatas que ele recebera no estado atual e nos estados subsequentes. O valor esperado desta soma de recompensas imediatas dado um estado inicial s e uma acao a ´e conhecido como funcao Q. E possivel definir uma politica otima conhecendo-se a funcao Q otima. Para aproximar essa funcao podem ser utilizadas tecnicas de programacao dinâmica que, usualmente, tratam o problema como um Processo de Decisao de Markov. Porem, existe o problema de representar a funcao Q computacionalmente. A utilizacao de algoritmos de regressao para aproximar a funcao Q soluciona o problema de representacao. Contudo, a aproximacao deve ser realizada em cada iteracao do algoritmo, o que pode levar a propagacao de erros e consequentemente a divergencia do algoritmo. Uma abordagem que vem gerando bons resultados ´e baseada no aprendizado de forma off-line e em lote, como o algoritmo Fitted Q Iteration [1]. Esta abordagem foi modificada em [2], em que o metodo de regressao foi substituido por uma rede neural, dando origem ao algoritmo Neural Fitted Q Iteration. Neste trabalho, e proposto a utilizacao do algoritmo de regressao Perceptron de Raio-e Fixo [3] no papel do algoritmo de regressao no Fitted Q Iteration. Uma das principais vantagens desse metodo e que ele depende de um numero menor de parâmetros em relacao a outros algoritmos de regressao, e.g., as redes neurais, que dependem da escolha do numero de camadas e nos adequado para ter sucesso.

Referência(s)