RYG: función de evaluación – más mejoras

Como decíamos, el C64 ya juega mejor. Tras mejorar la formación de los gatos y detectar los rebases, ya es más difícil ganarle. Sin embargo, todavía es posible hacerlo, por lo que el proceso de mejora de la función de evaluación debería continuar.

De hecho, el proceso de mejora de la función de evaluación puede continuar casi indefinidamente. Iterativamente se pueden identificar nuevos criterios, introducirlos en el juego, probarlos y, en función de su contribución a la fortaleza del juego, mantenerlos o retirarlos.

Otra forma de mejorar la función de evaluación sería jugando muchas partidas, ya sea contra un humano o incluso contra sí mismo. Para esto último habría que adaptar un poco el juego, pero tampoco tanto, puesto que el C64 ya “sabe” mover el ratón. En vez de pedir la jugada del ratón al humano, debería decidirla el C64 en base a un árbol de juego, igual que ya hace en el caso de los gatos.

Sea como fuere, cuando el C64 pierda, se deberá identificar el movimiento que ha sido clave en la derrota y, más en particular, el criterio que ha hecho que el C64 se haya decantado por ese movimiento, reduciendo su peso o su puntuación para evitar que se repita. Y si esto (aislar el criterio clave en la derrota y ajustar su peso) fuéramos capaces de hacerlo automáticamente, sin intervención de un programador, ya casi estaríamos hablando de machine learning.

En cualquier caso, la mejora de la función de evaluación es un proceso iterativo y largo. Y si después del proceso no se han conseguido los resultados esperados habría que plantearse alternativas, como ampliar la profundidad de análisis compactando las estructuras de datos.

RetroProgramming Italia – RP Italia

Recientemente he descubierto un grupo que me parece muy interesante. Se trata de RetroProgramming Italia – RP Italia. Es el primer grupo italiano que se ocupa de la programación retro de todos los ordenadores de 8 y 16 bits y, en particular, de nuestro querido Commodore 64.

Os dejo su dirección de Facebook:

https://www.facebook.com/groups/retroprogramming/?ref=share

Se trata de un grupo privado, por lo que deberéis solicitar uniros al grupo.

Aunque las entradas lógicamente están escritas en italiano se entienden bastante bien. Y además el BASIC y el ensamblador del 6510 son lenguajes universales 😉 .

¡¡Que lo disfrutéis!!

RYG: función de evaluación – tercera versión

Hay otro criterio que sería muy interesante introducir en la función de evaluación. En teoría, el ratón gana el juego cuando llega a la primera línea del tablero. Sin embargo, en cuanto el ratón rebase la línea de gatos “ya estará todo el pescado vendido”.

Por tanto, si en la función de evaluación metemos un criterio del tipo “si el ratón rebasa la línea de gatos sumar X puntos” estamos consiguiendo que el C64 identifique las victorias del ratón varios movimientos antes de que se produzcan de forma efectiva.

Para conseguir esto mejoramos la función de evaluación con una nueva llamada “jsr evaluaRatonRebasaGatos”:

Rutina evaluaTablero V3

A su vez, la nueva rutina “evaluaRatonRebasaGatos” es así:

Rutina evaluaRatonRebasaGatos

Es decir, obtiene la fila mínima de los gatos con “minFilaGatos” (rutina ya conocida), la fila del ratón con “dameRaton” y “dameFilaCol” (rutinas ya conocidas), compara ambas (instrucción “cmp”) y, si la fila mínima de los gatos es estrictamente menor (instrucción “bcc”) que la fila del ratón, se decide que no hay rebase. En caso contrario, es decir, si la fila mínima de los gatos es mayor o igual que la fila del ratón, entonces se decide que el ratón ha rebasado a los gatos, y se suman $20 = 32 puntos a la evaluación del tablero.

Esta mejora de la función de evaluación puede verse en la versión 17 del proyecto, que todavía juega un poquito mejor.


Código del proyecto: RYG17

RYG: función de evaluación – segunda versión

Bueno, pues vamos a intentar mejorar la función de evaluación para que el C64 juegue mejor. Hasta ahora veníamos considerando estos dos criterios posicionales:

  • La fila del ratón.
  • El número de movimientos del ratón.

Esto se puede ver en la rutina “evaluaTablero” del fichero “EvalTableros.asm”:

Rutina evaluaTablero

Parecen criterios un poco pobres, insuficientes para saber si un tablero es prometedor para el ratón o los gatos, que en el fondo es la información que usa el C64 para decidir su jugada.

Pero podemos observar que, si los gatos consiguieran guardar una fila cerrada, o al menos lo intentaran, sería mucho más difícil para el ratón rebasarlos. Mantener una fila cerrada no será siempre posible, ya que el ratón puede forzar que los gatos rompan la formación acercándose a ellos todo lo posible. Recordemos que en este juego no hay capturas.

Podemos intentar que los gatos guarden una fila cerrada obteniendo la fila mínima de los gatos, la máxima, y calculando la diferencia entre ellos. Si esa diferencia es cero, los gatos tienen que estar en fila; si es uno, no será una fila, pero al menos los gatos no estarán muy dispersos por el tablero; y así sucesivamente.

Total, añadimos la llamada a la nueva rutina “evaluaDifFilasGatos” en “evaluaTablero”:

Rutina evaluaTablero V2

La nueva rutina “evaluaDifFilasGatos” es así:

Rutina evaluaDifFilasGatos

Es decir, calcula la fila máxima con “maxFilaGatos”, la fila mínima con “minFilaGatos”, calcula la diferencia entre máximo y mínimo con la instrucción “sbc” y, el resultado (0, 1, 2, …, 7) lo usa como índice para acceder a la tabla con las evaluaciones parciales. Si la diferencia es 0 la evaluación parcial será $f0 = -16, si la diferencia es 1 será $f8 = -8 y, a partir de ahí, cero. Estas evaluaciones parciales son negativas porque se supone que guardar una fila cerrada, o casi, es una situación que favorece a los gatos.

Para calcular la fila máxima y la fila mínima las rutinas “maxFilaGatos” y “minFilaGatos” hacen básicamente lo mismo que las rutinas equivalentes del procedimiento minimax (máximo valor y mínimo valor), es decir, partir del valor más bajo ($00) o más alto ($ff), ir comparando las filas de los gatos contra ese valor, y quedarse al final con el valor más alto o más bajo de los comparados. Nada nuevo que merezca la pena detallar más.

Si tras este cambio de la versión 16 ensamblamos y jugamos, veremos que el C64 ya juega mejor. El juego no es tan naif como en la versión 15. Parece que el C64 ya juega como con más intención, como con más “mala leche”, buscando tapar las vías de escape. Aun así, todavía es posible ganarle con relativa facilidad, por lo que tendremos que seguir mejorando la función de evaluación.


Código del proyecto: RYG16

RYG: ampliar la RAM disponible

El juego ya esté esencialmente completo: permite que el humano y el C64 jueguen de forma continuada, alternando turnos, y detecta las condiciones de fin de partida.

Ahora bien, si probamos a jugar con la versión 15 del proyecto, da igual que sea con una profundidad de análisis de 1, 2 o 3 niveles, se verá que es relativamente fácil ganar al C64. Por tanto, tenemos que conseguir que el C64 juegue mejor.

Básicamente hay dos formas de conseguir que le C64 juegue mejor:

  • O aumentando la profundidad de análisis.
  • O mejorando la función de evaluación.

Ya hemos comentado varias veces que la profundidad del árbol de juego y la función de evaluación conforman una especie de compromiso. Si el árbol de juego pudiera generarse completo, bastaría con una función de evaluación muy tonta. Pero como el árbol no puede ser completo, porque la memoria es limitada, la función de evaluación tiene que ser más lista, tiene que permitir identificar aquellas ramas del juego que son más prometedoras.

Aumentar la profundidad de análisis:

Para aumentar la profundidad de análisis:

  • O aumentamos la memoria disponible.
  • O compactamos las estructuras de datos.
  • O ambas cosas.

De todo esto ya hablamos largo y tendido en la entrada “RYG: árbol de juego – memoria revisitada”, y ya decidimos entonces no compactar las estructuras de datos (complicaba mucho la programación) pero sí ampliar la RAM disponible. De hecho, quedó pospuesto hasta esta entrada.

Para ampliar la RAM disponible nos aprovechamos de las funciones de configuración del mapa de memoria del C64. Concretamente, actuando sobre el registro R6510 = $0001 podemos activar y desactivar diferentes partes de la memoria del C64:

Bit Nombre bit Si vale 0 Si vale 1
0 LORAM Las direcciones $a000 – $bfff direccionan RAM Las direcciones $a000 – $bfff direccionan la ROM con el intérprete de BASIC
1 HIRAM Las direcciones $e000 – $ffff direccionan RAM Las direcciones $e000 – $ffff direccionan la ROM con el Kernal
2 CHAREN Las direcciones $d000 – $dfff direccionan la ROM con el mapa de caracteres Las direcciones $d000 – $dfff direccionan los chips especiales y la RAM de color

Podemos desactivar el intérprete de BASIC, porque no lo utilizamos. Sin embargo, no podemos desactivar el Kernal, porque sí utilizamos rutinas como “chrout”.

Todo esto lo hacemos con la nueva rutina “ampliaRam”, que llamamos al arrancar el programa, y que básicamente pone a 0 el bit 0 (LORAM) del registro R6510 = $0001:

Rutina ampliaRam

De este modo, ganamos como RAM disponible el rango de direcciones del intérprete de BASIC ($a000 – $bfff = 8 KB), así como el rango $c000 – $cfff = 4 KB que, si bien siempre es RAM, al no estar contiguo hasta ahora con el espacio de trabajo del programa ($0801 – $9fff), no podíamos aprovecharlo fácilmente.

En total, ganamos estos 12 KB:

Memoria - ampliada

Sin embargo, incluso así es insuficiente para ganar otro nivel de análisis (pasar de tres a cuatro niveles) porque, como ya calculamos en su momento, para tres niveles hacían falta 22 KB y para cuatro 90 KB.

Total, nuestra principal esperanza es mejorar la función de evaluación, cosa que haremos en las entradas que siguen.


Código del proyecto: RYG16

RYG: condiciones de fin de partida

El C64 ya es capaz de generar el árbol de juego y decidir la jugada que más le interesa. De hecho, el humano y el C64 ya pueden jugar de forma continuada, alternando turnos.

Por tanto, el siguiente paso es detectar si la partida ha terminado o no, si han ganado el ratón o los gatos. En principio, la partida termina:

  • Cuando el ratón llega a la fila cero. En este caso gana el ratón.
  • Cuando los gatos acorralan al ratón. En este caso ganan los gatos.

Ahora bien, hay otra situación que, aunque improbable, interesa considerar. Supongamos que el ratón rebasa a los gatos, de modo que estos ya no pueden acorralarlo. Lo lógico sería que el ratón continuara directo hasta la fila cero para ganar la partida. Pero si el ratón es juguetón, y se dedica a dar un paso adelante y otro atrás, puede acabar ocurriendo que los gatos, que sólo pueden avanzar, se queden sin capacidad de moverse. En este caso, se considera que también gana el ratón porque ha escapado de los gatos.

Por tanto, son tres las condiciones de fin de partida:

  • Si el ratón ha llegado a la fila cero, gana el ratón.
  • Si los gatos no pueden moverse, también gana el ratón.
  • Si el ratón no puede moverse, ganan los gatos.

Las dos primeras condiciones las valoraremos justo después de mover el ratón. La última condición la valoraremos justo después de mover los gatos.

El ratón ha llegado a la fila cero:

Tras mover el ratón, es decir, tras solicitar al usuario el movimiento que desea, aplicarlo y pintar el tablero, llamamos a la rutina “verificaRatonFila0”:

Rutina verificaRatonFila0 - llamada

La rutina “verificaRatonFila0” verifica en qué fila se encuentra el ratón y, en caso de estar en la fila cero, lo señaliza con el valor $00 en el flag “vrf0”:

Rutina verificaRatonFila0

Al final, si el ratón está en la fila cero se acaba ejecutando “ganaRaton2”, que hace esto:

Rutina ganaRaton2

Es decir, pinta una felicitación, pide la pulsación de una tecla, espera a que se pulse, y termina, tras lo cual vuelve a inicializarse el juego.

Los gatos no pueden moverse:

Si el ratón no ha llegado a la fila cero, entonces llamamos a la rutina “verificaGatos0Jugs”:

Rutina verificaGatos0Jugs - llamada

La rutina “verificaGatos0Jugs” va obteniendo el número de jugadas posibles del ratón 0, el ratón 1, el ratón 2 y el ratón 3. Para ello utiliza la nueva rutina “cuentaJugadasGato”, que cuenta las jugadas del gato indicado (0, 1, 2 o 3).

Si en algún caso el número de jugadas es superior a cero, entonces directamente devuelve falso ($ff en el flag “vg0j”). Si el número de jugadas es cero en todos los casos, entonces devuelve cierto ($00 en el flag “vg0j”):

Rutina verificaGatos0Jugs

Rutina verificaGatos0Jugs - parte2

Al final, igual que cuando el ratón estaba en la fila cero, si el número de movimientos de los gatos es cero se acaba ejecutando “ganaRaton2”, que lógicamente hace lo ya mencionado (felicita al ratón, pide una tecla, e inicializa el juego).

El ratón no puede moverse:

Esta condición es similar a la anterior, pero aplicada al ratón. Si el ratón no ha ganado, el C64 desarrolla y evalúa el árbol de jugadas, decide la jugada que más le interesa, la aplica, pinta el tablero, y llama a “verificaRaton0Jugs”:

Rutina verificaRaton0Jugs - llamada

La rutina “verificaRaton0Jugs” es muy parecida a “verificaGatos0Jugs”, siendo la principal diferencia que sólo hay un ratón frente a cuatro gatos:

Rutina verificaRaton0Jugs

Usando la nueva rutina “cuentaJugadasRaton” contamos el número de jugadas del ratón y, caso de ser cero, lo señalizamos con $00 en el flag “vr0j”.

Al final, si el número de jugadas del ratón es cero se ejecuta “gananGatos2”:

Rutina gananGatos2

Esta rutina, de forma análoga a “ganaRaton2”, pinta un mensaje (ahora es un lamento en vez de una felicitación 😦 ), pide una tecla, espera a que se pulse, y vuelve a inicializar el juego.

Resultado:

El resultado es que se permite el juego continuado de ratón y gatos y, además, ya se detectan las condiciones de final de partida. Por ejemplo, en este caso ha ganado el ratón:

Gana ratón


Código del proyecto: RYG15

RYG: el C64 por fin decide su jugada

¡¡Por fin el C64 va a decidir su jugada!! ¿¿No es emocionante?? 🙂

No sé si seréis conscientes, pero para llegar hasta aquí hemos tenido que recorrer todo este camino:

  • Generar las jugadas o movimientos básicos de los gatos.
  • Generar tableros hijo a partir de un tablero padre, aplicando un movimiento.
  • Generar el primer nivel del árbol de juego.
  • Corregir la validación de jugadas, que tenía errores.
  • Generar un árbol de juego de profundidad N aplicando recursividad.
  • Evaluar tableros aplicando criterios posicionales.
  • Evaluar el árbol de juego completo con la función de evaluación.
  • Pintar el árbol de juego completo con sus evaluaciones y vinculaciones entre tableros.
  • Evaluar las hojas del árbol con la función de evaluación, y llevar estas evaluaciones hasta la raíz con el procedimiento minimax.

Todo este camino es para eso: ¡¡para que el C64 decida su jugada!! El camino ha sido tan largo que es fácil perder la perspectiva…

Gráficamente, la situación en la que nos encontramos es ésta:

Minimax - raíz2

Es decir, tenemos un tablero de partida (raíz del árbol), este tablero tiene una serie de hijos (posibles movimientos de los gatos) y, tras desarrollar el árbol de juego hasta una profundidad N y evaluarlo con minimax, hemos llegado a unas valoraciones para los hijos e, incluso, nos hemos quedado con la menor de ellas (la más beneficiosa para los gatos: $82). Por tanto, ya sólo se trata de algo tan sencillo como optar por el hijo que tenga esa valoración mínima.

En este caso particular se ha producido un empate, porque todos los tableros hijo han sido valorados con $82. Por tanto, podemos optar por el primero de ellos, el último de ellos, elegir uno aleatoriamente, o tomar el que más rabia nos dé.

Si queremos darle emoción al asunto, y que el C64 juegue de una forma más imprevisible, podemos apoyarnos en el Jiffy Clock (posiciones $a0 – $a1 – $a2) para elegir uno de los tableros empatados de forma aleatoria. A estas alturas, y con el objeto de simplificar, optaremos por el primero de los tableros en empate.

Lo importante es no tomar el caso particular por el general. En un caso general, especialmente cuando las partidas estén más avanzadas, el C64 tendrá que elegir entre puntuaciones que serán dispares.

Para optar por el hijo de puntuación mínima hacemos lo siguiente:

Rutina “decideJugadaMin”:

En el fichero “EvalTableros.asm” dotamos una nueva rutina “decideJugadaMin” que, dado un tablero padre evaluado con minimax, determina el hijo que ha dado lugar a esa evaluación, es decir, determina el hijo con menor puntuación.

Primero recuperamos el valor del padre:

Rutina decideJugadaMin - parte1

Y luego recorremos los hijos buscando al que aporta esa valoración:

Rutina decideJugadaMin - parte2

Por último, cuando damos con el hijo que aporta esa valoración (“beq djmFin”), nos quedamos con los datos de ese hijo (número de hijo y dirección):

Rutina decideJugadaMin - parte3

Obsérvese que en caso de empate entre varios hijos estaríamos optando por el primero, puesto que en cuanto encontramos un hijo con la valoración correcta nos quedamos con él. Aquí es donde se podría meter aleatoriedad para darle más emoción al asunto.

Nuevo programa principal “RYG.asm”:

Ahora que ya sabemos localizar al mejor hijo, al predilecto, vamos a optar por él. Para ello, volvemos a modificar el programa principal “RYG.asm”:

Programa principal - decisión

Es decir, tras la evaluación del árbol con minimax:

  • Dejamos de pintar el árbol. Hasta ahora veníamos pintando el árbol para depurar la función de evaluación y el procedimiento minimax.
  • Optamos por la jugada de menor puntuación con “decideJugadaGatos”.
  • Aplicamos esa jugada con “aplicaJugadaDecidida”, igual que en su momento aplicamos la jugada elegida por el usuario humano con “aplicaJugadaSolicitada”.
  • Y cerramos el bucle de juego con “jmp actualiza”, que vuelve a pintar el tablero actual (ya actualizado) y vuelve a pedir la jugada del humano.

Respecto a la rutina “decideJugadaGatos” básicamente es una llamada a la ya presentada “decideJugadaMin”:

Rutina decideJugadaGatos

Y respecto a la rutina “aplicaJugadaDecidida”, consiste en copiar el hijo elegido sobre el tablero actual, el que controla la situación actual de la partida, y hacer alguna labor menor de inicialización:

Rutina aplicaJugadaDecidida

Resultado:

El resultado es la versión 14 del proyecto, que prácticamente ya está terminado. El juego está casi completo, ya que permite jugar al humano y al C64 de forma continuada, una jugada tras otra.

Queda detectar si la partida ha terminado, es decir, si tras un movimiento han ganado el ratón o los gatos. Pero esto ya lo haremos en la entrada siguiente.


Código del proyecto: RYG14

RYG: procedimiento minimax

Ya somos capaces de saber si estamos ante una hoja del árbol o ante un tablero intermedio. En el primer caso evaluamos con la función de evaluación; en el segundo caso aplicamos el máximo o el mínimo, según el turno de juego.

Y esto es, precisamente, el procedimiento minimax, que se materializa en la nueva rutina “miniMax” del fichero “EvalTableros.asm”. Una vez más, será una rutina recursiva.

Rutina “miniMax”:

Empezamos analizando si el tablero tiene hijos o no con “dameNumHijos”:

Rutina miniMax - parte1

Si no tiene hijos, estamos ante una hoja y, por tanto, aplicamos la función de evaluación con “evaluaTablero”:

Rutina miniMax - parte2

Y si sí tiene hijos, estamos ante un nodo intermedio, lo que significa que tenemos que aplicar el valor máximo o mínimo en función del turno de juego:

Rutina miniMax - parte3

El turno de juego lo obtenemos con la rutina “dameDatosBasicos” (aunque también podríamos hacer una nueva rutina “dameTurno”) y, en función del turno, llamamos a “maxHijos” si es el turno del ratón o “minHijos” si es el turno de los gatos.

Estas últimas rutinas no son más que una forma de estructurar un poco más la rutina “miniMax”, para que no salga demasiado larga o compleja. Se revisan a continuación.

Rutina “minHijos”:

Recordemos que estamos ante un tablero intermedio, no ante una hoja, y que es el turno de los gatos. Por tanto, los gatos elegirán el hijo con menor puntuación.

Para ello, recorremos los hijos con “dameHijo” y llamamos recursivamente a “minimax” para cada uno de ellos:

Rutina minHijos - parte1

Posteriormente, cuando todos los hijos están ya evaluados recursivamente, nos quedamos con la menor puntuación con “minValorHijos”:

Rutina minHijos - parte2

Rutina “maxHijos”:

Esta rutina es totalmente análoga a “minHijos”. Igualmente, es una rutina instrumental, cuyo objetivo no es tanto abstraer una funcionalidad autocontenida como simplificar “miniMax”.

Igual que “minHijos”, recorre los hijos del tablero intermedio, llama recursivamente a “miniMax” para cada uno de ellos y, cuando todos los hijos están ya evaluados, se queda con el máximo al ser ahora el turno del ratón.

Nuevo programa principal “RYG.asm”:

Para poner en funcionamiento el nuevo procedimiento minimax ya sólo queda modificar el programa principal “RYG.asm”, y más concretamente su rutina “evaluaArbolJugadas”, deja de llamar a “evaluaArbol”, que evaluaba todos los tableros de forma independiente, y pasar a llamar a “miniMax”.

Es decir, este cambio:

Rutina evaluaArbolJugadas - minimax

Si ahora probamos la versión 13 del proyecto, veremos que las hojas del árbol se siguen evaluando conforme a los criterios posicionales definidos (fila y número de movimientos del ratón), pero que los tableros intermedios se evalúan conforme a la puntuación de los hijos y de quién es el turno (ratón o gatos).

Por ejemplo, si probamos con un árbol de profundidad dos, tras construir, evaluar y pintar el árbol completo, nos sale esta raíz:

Minimax - raíz

Es decir, el tablero raíz es el resultado de que el usuario haya movido el ratón desde (7, 3) hasta (6, 2). Este tablero, tiene siete hijos correspondientes a los siete posibles movimientos de los gatos. Las direcciones de los hijos son $1ea1, $1ef9, …, $20b1.

Si evaluamos el tablero atendiendo a los criterios posicionales, saldría:

  • Valor de partida => $80 puntos.
  • Fila del ratón = 6 => +1 puntos.
  • Movimientos del ratón = 4 => -0 puntos.

Es decir, el valor del tablero sería $81. De hecho, este es el valor que salía con la versión 12 del proyecto. Entonces… ¿por qué ahora sale el valor $82? Pues porque ahora no estamos evaluando ese tablero atendiendo a la función de evaluación o los criterios posicionales, sino en función del procedimiento minimax.

De hecho, el árbol de juego de profundidad dos es así:

Minimax - raíz2

Partiendo de la raíz $1e49 se observan los siete hijos en $1ea1, $1ef9, …, $20b1. Estos siete hijos son los siete movimientos posibles de los gatos. A su vez, cada uno de los hijos tiene otros cuatro nietos, correspondientes a los cuatro movimientos del ratón. En total, 1 raíz + 7 hijos + 7×4 nietos = 36 tableros.

En el nivel más bajo, el ratón elegiría su mejor movimiento, es decir, el que maximiza el valor. Por eso entre $82 y $7e se elige $82. Y luego los gatos también elegirán su mejor movimiento, que en su caso será el minimice el valor. En este caso particular todos los hijos valen $82, así que el mínimo también es $82. Esto es habitual al comienzo de las partidas, donde todos los tableros analizados son más o menos parecidos. En un caso más general los hijos tomarán valores distintos e igualmente habrá que elegir entre ellos.

Total, al final la valoración que el procedimiento minimax lleva hasta la raíz es $82, en vez de $81 que sería la valoración posicional, y el movimiento que eligen los gatos (el C64) es el que lleva al hijo que toma ese valor. Pero esta decisión la tomaremos ya en la entrada siguiente.


Código del proyecto: RYG13

RYG: procedimiento minimax – rutinas previas

En su momento ya introdujimos el procedimiento minimax. Como dijimos, este procedimiento es pura lógica, es asumir que igual que tú (ratón) quieres la mejor jugada para ti (la de mayor puntuación), tu contrincante (los gatos) querrán la mejor jugada para sí (la de menor puntuación). De ahí el nombre “minimax”.

Por tanto, no tenemos que evaluar todos los tableros del árbol aisladamente unos de otros, como hemos hecho. Sólo tenemos que evaluar las hojas del árbol y, a partir de ahí, aplicar el procedimiento minimax (obtener el máximo o el mínimo, según el turno de juego) para llevar estas evaluaciones hasta la raíz del árbol.

Minimax2

Aplicando este procedimiento evaluaremos todo el árbol, es decir, todos sus tableros, pero poniendo en relación unos con otros. De poco valdría que el C64 eligiera una siguiente jugada en apariencia muy buena, si N jugadas más allá finalmente resulta ser muy mala. Al contrario, si hemos generado el árbol completo (hasta una profundidad N) es para poder “mirar más allá” de la siguiente jugada.

La suerte es que ya tenemos la base del procedimiento minimax: la rutina “evaluaArbol”. Con algunas pequeñas modificaciones será suficiente para construir una nueva rutina “miniMax”. Pero vayamos por partes:

Rutina “dameNumHijos”:

Lo primero que vamos a hacer es desarrollar es una rutina “dameNumHijos”. Esta rutina nos resultará útil para saber si estamos ante una hoja del árbol (número de hijos = 0) o ante un tablero intermedio (número de hijos > 0). Es decir, nos servirá para saber si tenemos que evaluar el tablero con la función de evaluación o con el procedimiento minimax.

La nueva rutina “dameNumHijos” la meteremos en el fichero “Tableros.asm” y, como ya tenemos una rutina “dameHijo” que nos permite recuperar el hijo enésimo, nos apoyaremos en ella:

Rutina dameNumHijos

La rutina es básicamente un bucle desde Y = 0 hasta Y = 7. Para cada valor del registro Y se pide el hijo Y-ésimo llamando a “dameHijo”. Si el resultado es la dirección $0000 hemos terminado, porque los hijos de un tablero se van rellenando por orden (0, 1, 2, …). Si el resultado no es $0000 incrementamos Y, pasando al siguiente hijo e indirectamente incrementando la cuenta de hijos (que llevamos en Y). Si llegamos a Y = 8 necesariamente hemos terminado porque el máximo de hijos de un tablero es ocho.

Una cosa curiosa es que la dirección del hijo Y-ésimo tendrá dos partes, la parte “hi” y la parte “lo”. En teoría, deberíamos contrastar ambas contra $00 para saber si existe el hijo (<> $0000) o si no existe (= $0000). En la práctica, llega con comparar la parte “hi” contra $00 puesto que, como no usamos la página cero para almacenar el árbol, si hi = $00 es indicio suficiente de que el hijo no existe.

Rutina “minValorHijos”:

El procedimiento minimax se basa en elegir el hijo de mínima puntuación cuando juegan los gatos o el de máxima puntuación cuando juega el ratón. Por tanto, vamos a necesitar una rutina que identifique al hijo de mínima puntuación (este apartado) y otra que identifique al hijo de máxima puntuación (apartado siguiente).

En realidad, ni siquiera es necesario identificar el hijo de mínima / máxima puntuación, en el sentido de saber cuál es ese hijo o qué posición ocupa en la tabla de hijos de un tablero. En realidad, es suficiente con ser capaces de obtener esa puntuación mínima / máxima y asignarla al tablero padre. Así que esto es lo que vamos a hacer.

Cuando tienes una lista de valores, por ejemplo, $80, $87 y $7c, una forma de obtener el mínimo es partir del valor máximo posible, que en el caso de un byte sería $ff, e ir comparando los valores contra ese mínimo. Si el valor actual es menor que el mínimo hasta ahora, te quedas con el nuevo mínimo; si el valor actual es mayor que el mínimo hasta ahora, no haces nada. Veamos:

  • Partimos de mínimo = $ff.
  • ¿Es $80 menor que $ff? Sí, por tanto, mínimo = $80.
  • ¿Es $87 menor que $80? No, por tanto, no hacemos nada.
  • ¿Es $7c menor que $80? Sí, por tanto, mínimo = $7c.

De este modo, terminamos con el valor mínimo ($7c). Y ahora en versión rutina “minValorHijos” del fichero “Tableros.asm”:

Partimos del máximo valor posible:

Rutina minValorHijos - parte1

Recorremos los hijos con “dameHijo”, obtenemos su valor con “dameValor”, y vamos comparando el valor de los hijos contra el mínimo hasta ahora:

Rutina minValorHijos - parte2

Finalmente, ya con el valor mínimo de los hijos identificado, lo fijamos como valor del padre con “fijaValor”:

Rutina minValorHijos - parte3

Las rutinas “dameValor” y “fijaValor” son nuevas también, y permiten obtener y fijar el valor de un tablero sin tener que obtener / fijar todos sus datos básicos (nivel, turno y valor). Son sencillas, y también están en “Tableros.asm”.

Gracias a que manejamos valoraciones que son siempre positivas (valor neutro $80) la comparación de valores puede hacerse fácilmente con las instrucciones “cmp” y “bcs”. La comparación de valores hubiera sido notablemente más complicada en caso de usar valoraciones positivas y negativas.

Rutina “maxValorHijos”:

Esta rutina es totalmente análoga a la “minValorHijos” ya vista. La principal diferencia es que ahora buscamos el valor máximo y, por tanto, partimos del valor mínimo posible que, en el caso de un byte, es $00:

Rutina maxValorHijos - parte1

Otra diferencia es que ahora la comparación de valores la hacemos con las instrucciones “cmp” y “bcc”:

Rutian maxValorHijos - parte2

Por lo demás, son rutinas casi idénticas. Nuevamente, el hecho de usar valoraciones siempre positivas simplifica la comparación y la obtención del máximo.

Con estos mimbres ya somos capaces de hacer el cesto (procedimiento minimax), pero como esta entrada ya ha sido demasiado larga lo dejamos para la siguiente.


Código del proyecto: RYG13