File:Cena1

Description
No exemplo o agente foi construído no Unity para obter um aprendizado para o cumprimento de uma meta. O agente representado pelo cubo com um desenho de cachorro recebe uma recompensa positiva de 50 pontos por cada vez que ele chega ao cubo com um desenho de osso, e recebe uma recompensa negativa de -1 ponto por cada movimento executado (simulando o gasto de energia do agente) O conhecimento de um caminho mais curto. Há também um cubo com o desenho da carrocinha do qual o agente recebe uma recompensa negativa de -50 pontos. Nessa primeira cena vemos o agente interagir apenas com o cubo de recompensa, o agente não enxerga o cubo de recompensa nem positiva nem negativa ou seus arredores. Ele só está ciente de suas coordenadas X e Y e da recompensa que ele recebe.