Tecnología INTELIGENCIA ARTIFICIAL

Google desarrolló una I.A. que aprendió a jugar al ajedrez por sí misma

El programa AlphaZero ya se convirtió en el mejor jugador de tres diferentes disciplinas.

Google desarrolló una I.A. que aprendió a jugar al ajedrez por sí misma

Google desarrolló una I.A. que aprendió a jugar al ajedrez por sí misma

AlphaZero es el nombre del nuevo programa de la empresa de inteligencia artificial DeepMind (una división de Google) que en cuestión de horas se convirtió en el mejor jugador de la historia de ajedrez, el shogi (una versión japonesa del ajedrez) y el go.

Cuando en 1997, la supercomputadora de IBM Deep Blue venció al campeón de ajedrez Garry Kasparov, la sociedad lo reconoció como un símbolo del avance de la inteligencia artificial frente al intelecto humano, y a partir de entonces se tomó estos desafíos como el parámetro de la evolución tecnológica. 

Tanto DeepBlue como Stockfish (el nuevo campeón virtual de ajedrez), Elmo y AlphaGo (los programas desarrollados para shogi y go respectivamente) utilizan su capacidad de procesamiento para analizar millones de jugadas, partidas y ejemplos cargadas previamente en sus sistemas para escoger la mejor opción posible dependiendo de la situación.

La nueva inteligencia de Deep Mind, por su parte, utiliza una red neuronal que solo necesita conocer las reglas del juego para comenzar a desarrollar por sí misma las estrategias que le permitan derrotar a sus rivales. Lo hace a través de un proceso de prueba y error conocido como aprendizaje reforzado, jugando millones de partidas contra sí misma y ajustando los parámetros de la red dependiendo de cada victoria, derrota y empate.

Según el reporte publicado en el portal Science, a AlphaZero le tomó nueve horas aprender ajedrez, doce horas aprender shogi y trece días aprender go, para luego vencer a Stockfish, Elmo y AlphaGo en cuatro horas, dos y treinta horas respectivamente.

Para probar las verdaderas capacidades del sistema, los investigadores lo pusieron en inferioridad de condiciones frente a sus rivales, y aún así salió airoso de todos los enfrentamientos. Aún con una décima parte del tiempo para procesar la información y confirmar un movimiento, AlphaZero ganó todas las partidas gracias a que su capacidad de razonamiento es más selectiva: en ajedrez, por ejemplo, en lugar de analizar las más de 60 millones de opciones que contempla el rival, se limita a unas meras 60 mil posibilidades por segundo ya que busca únicamente entre los movimientos viables y con mayor posibilidad de éxito.

Es el estilo de AlphaZero lo que los jugadores de ajedrez encontraron más sorprendente. La máquina arribó por sí misma a algunas de las estrategias más conocidas, pero al no estar condicionada por jugadas ajenas, desarrolló estrategias únicas basadas en su propia lectura del juego. Consultado al respecto por DeepMind, Garry Kasparov se mostró muy sorprendido el dinamismo del programa.

 “En lugar de procesar instrucciones y conocimientos humanos a una gran velocidad como todas las máquinas de ajedrez anteriores, AlphaZero genera su propio conocimiento,” dijo Kasparov.

El Gran Maestro Matthew Sadler destacó “la forma en la que las piezas rodean el Rey del oponente con propósito y poder” y cómo el sistema parece darle menos relevancia al “valor” de las piezas. Las estrategias de AlphaZero no le impiden sacrificar el valor en las etapas iniciales de la partida si eso le asegura un beneficio en el largo plazo.

“Es sorprendente cómo consigue imponer su estilo de juego ante una variedad de posiciones y aperturas,” dijo Sadler. “Los sistemas tradicionales suelen ser excepcionales y cometen pocos errores, pero pueden mostrar debilidad ante posiciones sin una solución concreta y calculable. Es precisamente en esas posiciones, en las que la ‘intuición’ es necesaria, en las que AlphaZero se destaca.”

AlphaZero sin dudas es un programa sorprendente, pero varios especialistas bajan las expectativas respecto de su aplicación fuera de estas aplicaciones lógicas. Miguel Lázaro, un investigador español, y Murray Campbell, un especialista en la materia que trabajó en DeepBlue, coinciden en la fragilidad del sistema, que necesitaría una significativa cantidad de entrenamiento en caso de que se cambiasen las reglas aunque fuese un poco.

Asimismo Lázaro asegura que este tipo de disciplinas son diferentes “al escenario al que habitualmente se enfrenta la inteligencia humana”, en el que realizamos acciones cuyo resultado “sólo podemos prever parcialmente en entornos en los que vemos una parte.”

El índice de victorias y derrotas de AlphaZero | Imagen: DeepMind

Por su parte Campbell advierte acerca de la imposibilidad de la inteligencia artificial de explicar (y por ende cuestionar) sus decisiones, algo que la volvería inviable en otros ámbitos.

"Si bien AlphaZero puede identificar lo que cree que es el mejor movimiento y proporcionar secuencias de movimientos para respaldarlo, no es capaz de explicar sus decisiones en términos que los humanos puedan entender fácilmente," explicó.

Los investigadores de DeepMind aseguran que la habilidad de AlphaZero para perfeccionar tres juegos complejos diferentes (y potencialmente cualquier juego de información perfecta) es un paso importante en la solución de un claro problema en la inteligencia artificial: la imposibilidad de desarrollar habilidades frente a cualquier modificación del entorno.

El objetivo, en última instancia, es crear sistemas de aprendizaje complejo que un día puedan ayudar a los investigadores a encontrar soluciones nuevas a algunos de los más importantes y complejos problemas científicos.

En esta nota:
  • INTELIGENCIA ARTIFICIAL
  • GOOGLE
  • DEEP MIND
  • ALPHAZERO

Comentarios