Aprendizaje por refuerzos

  • Conjunto deestadosque definen el medio.

  • Conjunto deaccionesque el agente puede realizar.

  • Reglas detransicionesentre estados.

  • Reglas que asignan unarecompensainmediata (+ o -) a cada transición.

  • Reglas que determinan quéobservael agente.

  • Ejemplos: control de robots, programa de ascensores, ruteo de paquetes, juego del Go.

results matching ""

    No results matching ""