Aprendizaje por refuerzos
Conjunto deestadosque definen el medio.
Conjunto deaccionesque el agente puede realizar.
Reglas detransicionesentre estados.
Reglas que asignan unarecompensainmediata (+ o -) a cada transición.
Reglas que determinan quéobservael agente.
Ejemplos: control de robots, programa de ascensores, ruteo de paquetes, juego del Go.