1. ¿De qué trata todo esto? La idea principal
Imagina que eres un robot en un laberinto. En cada casilla, debes decidir si ir arriba, abajo, izquierda o derecha. Algunas decisiones te acercan al premio (una recompensa positiva), otras te llevan a un callejón sin salida (una recompensa negativa), y otras simplemente gastan tu batería (una pequeña recompensa negativa). Un problema secuencial de decisión consiste en encontrar la secuencia de decisiones (la "estrategia" o "política") que te dará la mayor recompensa total al final. La IA usa este concepto para todo: desde jugar ajedrez hasta gestionar inversiones o controlar el brazo de un robot.
Este es el ciclo de decisión de un agente de IA:
2. Profundizando: El Marco Formal (MDPs)
Para que una computadora entienda este problema, lo modelamos matemáticamente usando algo llamado Proceso de Decisión de Markov (MDP). Suena complicado, pero solo es una forma de definir las "reglas del juego". Un MDP tiene 5 componentes clave. Haz clic en cada uno para saber más:
3. El Objetivo: Maximizar la Recompensa Futura
El objetivo final no es solo obtener la siguiente recompensa más alta, sino maximizar la suma de todas las recompensas futuras. A menudo, las recompensas futuras valen un poco menos que las inmediatas. Esto se modela con un "factor de descuento" (gamma, γ), un número entre 0 y 1. Un γ de 0.9 significa que una recompensa en el siguiente paso vale el 90% de lo que valdría ahora.
Este gráfico muestra el "valor" o "utilidad" de recibir una recompensa de 100 puntos en diferentes momentos del futuro. Observa cómo cambia el valor presente de esas recompensas al aplicar un factor de descuento. Esto obliga al agente a preferir recompensas más tempranas, si todo lo demás es igual.
4. El Cerebro Matemático: La Ecuación de Bellman
Para saber qué tan "bueno" es un estado (es decir, el valor total de recompensa que se puede obtener a partir de él), usamos la Ecuación de Bellman. Esta ecuación es el corazón de la solución. En palabras sencillas, dice:
"El valor de tu posición actual es la recompensa que obtendrás ahora, más el valor descontado de la mejor posición a la que puedes llegar a continuación."
A continuación, desglosamos cada parte de esta "receta". Haz clic en cada elemento para ver la explicación:
5. ¡A practicar! El Mundo de Rejilla
Este es un "Mundo de Rejilla", un problema clásico. El agente empieza en (0, 0). Su objetivo es llegar a la casilla verde (+100) evitando la roja (-100) y la pared gris. Cada movimiento normal le cuesta -1 punto (para incentivar que tome el camino más corto). La política óptima (π*) es el conjunto de las mejores acciones a tomar desde cualquier casilla.
Haz clic en una casilla para ver su valor y la mejor acción a tomar desde allí.