La inteligencia artificial de Elon Musk llega a los videojuegos para demostrar que puede ganar a equipos formados por humanos

Los avances que se están consiguiendo en el desarrollo de la inteligencia artificial no dejan de sorprendernos y en este campo, Elon Musk tiene mucho que aportar. Con 45 años, ha creado desde coches eléctricos, hasta cohetes reutilizables y posee su propia compañía, Neuralink, con la que busca combinar el cerebro humano con la inteligencia artificial. La última de sus hazañas llega a los videojuegos con la creación de OpenAI, capaz de ganar de manera individual a algunos de los mejores jugadores del mundo de Dota 2. Pero quiere ir un paso más allá, y este año en The International 8 podremos ver a un equipo completo de bots jugando contra un equipo profesional de Dota 2, con la intención de demostrar que son capaces de ganar.

En su primera aparición durante la séptima edición de The International, el evento más importante de Dota 2 del año, OpenAI no decepcionó y es que consiguió vencer en un enfrentamiento 1vs1 a jugadores profesionales como Dendi, Arteezy o Sumail. Fue asombroso ver la facilidad que tenía este bot para llevar a cabo con acierto algunas mecánicas del juego, decisiones e incluso estrategias que parecían propias de una persona humana.

Y como dicen que no hay éxito sin fracaso, los desarrolladores de OpenAI están haciendo pruebas que parecen haber empezado a dar sus primeros resultados positivos. Un equipo formado por cinco redes neuronales (OpenAI Five) ha derrotado a equipos formados por personas aficionadas a Dota 2. Su objetivo ahora es vencer a un equipo de jugadores profesionales (con un conjunto limitado de héroes) durante The International.

Para que nos hagamos una idea de la complejidad y el desarrollo de la inteligencia artificial, para mejorar en el juego, OpenAI Five juega partidas contra sí misma todos los días, aprendiendo en uno solo día lo mismo que a un humano le llevaría 180 años de vida, algo imposible.

Entrena usando una versión ampliada de Optimización de Políticas Proximales que se ejecuta en 256 GPU y 128.000 núcleos de CPU: una versión de mayor escala del sistema que crearon para jugar la variante individual, que resultó ser más simple para la demostración del año pasado. Usando una LSTM separada para cada héroe y sin datos humanos, aprende estrategias reconocibles. Esto indica que el aprendizaje de refuerzo puede producir una planificación a largo plazo con una escala grande pero alcanzable, sin avances fundamentales, contrariamente a sus propias expectativas cuando comenzaron el proyecto.

OpenAI Five ya se ha puesto a prueba, precisamente con el mejor equipo de empleados en el proyecto. Además, la partida fue narrada por el comentarista profesional Blitz, un miembro del equipo OpenAI Dota, Christy Dennison, y observada por una multitud de personas de la comunidad.

Para evaluar el progreso de OpenAI Five, el 28 de julio van a llevar a cabo un enfrentamiento contra algunos de los mejores jugadores de Dota 2. Y lo mejor de todo es que se podrá ver la retransmisión a través de su canal de Twitch, incluso se puede solicitar una invitación para asistir en persona.

Hasta el co-fundador de la empresa Microsoft, Bill Gates, ha publicado en su cuenta oficial de Twitter que OpenAI ha vencido a humanos en Dota 2 gracias a la colaboración y trabajo en equipo de los bots. Lo que califica como un gran hito en el avance de la inteligencia artificial y asegura que tiene ganas de ver más sobre este apasionante proyecto.

#AI bots just beat humans at the video game Dota 2. That’s a big deal, because their victory required teamwork and collaboration – a huge milestone in advancing artificial intelligence. https://t.co/UqIUhh9xFc
— Bill Gates (@BillGates) 26 de junio de 2018

This is just one of many amazing projects I had a chance to see at @OpenAI, where they’re working to ensure as many people benefit from AI as possible. This is an incredibly important mission, and I’m excited to see more of their work.
— Bill Gates (@BillGates) 26 de junio de 2018

El reto de OpenAI

Lo que pretende conseguir OpenAI es superar las capacidades humanas en un videojuego complejo como StarCraft o Dota. La idea es desarrollar y mejorar la inteligencia artificial en este tipo de entornos, pero con el tiempo llegar a resolver problemas del mundo real.

Dota 2 es un juego de estrategia en tiempo real jugado entre dos equipos de cinco jugadores, con cada uno de ellos controlando un personaje llamado "héroe". Una IA que juega Dota debe dominar lo siguiente:

Largos horizontes de tiempo: Las partidas en Dota funcionan a 30 “frames” o cuadros por segundo durante un promedio de 45 minutos, lo que da como resultado 80.000 tics por partida. La mayoría de las acciones (como ordenar a un héroe moverse a una ubicación) tienen un impacto menor individualmente, pero algunas acciones individuales pueden afectar a la partida de forma estratégica.
Estado parcialmente observado: Las unidades y los edificios solo pueden ver el área que los rodea. El resto del mapa está cubierto por una niebla que oculta a los enemigos y sus estrategias.
Espacio de acción continuo de gran dimensión: En Dota, cada héroe puede realizar docenas de acciones y muchas acciones se dirigen a otra unidad o a una posición en el suelo. Dividiendo el espacio en 170.000 posibles acciones por héroe (no todos son válidos en cada tick, como el uso de un hechizo en el tiempo de reutilización).
Espacio de observación continua de alta dimensión: Dota se juega en un gran mapa continuo que contiene diez héroes, docenas de edificios, docenas de unidades neutrales y una larga cola de recursos que afectan en el juego como runas, árboles y guardianes. Este modelo observa el estado de un juego de Dota a través del Bot API de Valve con 20.000 datos (en su mayoría puntos flotantes) que representan toda la información a la que un humano puede acceder.

Las reglas de Dota también son muy complejas: el juego se ha desarrollado activamente durante más de una década, con la lógica del juego implementada en cientos de miles de líneas de código. Esta lógica requiere milisegundos por tick para ejecutarse, frente a nanosegundos para los motores de Ajedrez. El juego también recibe una actualización una vez cada dos semanas, cambiando constantemente la semántica del entorno.

Coordinación, rapidez y trabajo en equipo

OpenAI Five no contiene un canal de comunicación explícito entre las redes neuronales de los héroes. El trabajo en equipo está controlado por un hiper parámetro denominado "espíritu de equipo". El espíritu de equipo varía de 0 a 1, lo que pone de manifiesto la importancia de cada uno de los cinco héroes de OpenAI sobre su función de recompensa individual frente al promedio de las funciones de recompensa del equipo.

El sistema se implementa como un sistema de entrenamiento RL de uso general llamado Rapid, que se puede aplicar a cualquier entorno de gimnasio.

Según Blitz:

El trabajo en equipo de los bots fue abrumador. Parecen cinco jugadores desinteresados que conocen las estrategias generales del juego.

Observaciones:

Los bots de OpenAI son capaces de sacrificar otras líneas, a cambio de controlar la línea segura del enemigo, forzando la lucha hacía la zona que es más difícil de defender para su oponente. Esta estrategia surgió en la escena profesional en los últimos años, y ahora se considera la táctica predominante. Blitz comentó que solo aprendió esto después de ocho años de juego, cuando Team Liquid se lo contó.
Pueden transicionar de los primeros compases de partida hasta a la fase media, de manera más rápida que sus oponentes a través de:

1.Emboscadas con éxito cuando los enemigos se sobreexponen en sus líneas.

2.Se agrupan para acabar con las torres antes de que los oponentes puedan responder.

Se desvían del estilo de juego actual en algunas áreas, como dar héroes de apoyo (que generalmente no tienen prioridad para recolectar) mucha experiencia temprana y oro. La priorización de OpenAI Five permite que su daño llegue a su punto más alto antes y empuje su ventaja más fuerte, ganando peleas de equipo y aprovechando los errores para asegurar una victoria rápida.

Diferencias con los humanos

OpenAI Five tiene acceso a la misma información que los humanos, pero al instante ve datos como posiciones, saldos e inventarios de artículos que los humanos deben verificar manualmente. El método no está fundamentalmente relacionado con el estado de observación, pero el solo hecho de renderizar píxeles del juego requeriría miles de GPU.

OpenAI Five lleva a cabo un promedio de alrededor de 150-170 acciones por minuto (y tiene un máximo teórico de 450 debido a la observación de cada cuarto fotograma). La sincronización perfecta en el tiempo, aunque es posible para jugadores habilidosos, es trivial para OpenAI Five. OpenAI Five tiene un tiempo de reacción promedio de 80 ms, que es más rápido que los humanos.

Estas diferencias son las más importantes en 1vs1 (donde el robot tuvo un tiempo de reacción de 67 ms), pero el campo de juego es relativamente equitativo ya que se ha visto a los humanos aprender y adaptarse al robot. Decenas de profesionales utilizaron el bot 1vs1 para entrenar en los meses posteriores al TI del año pasado. Según Blitz, el bot 1vs1 ha cambiado la forma en que las personas piensan sobre el enfrentamiento uno contra uno (el bot adoptó un estilo de juego de ritmo rápido, y todos ahora se han adaptado para mantenerse al día).

Restricciones de los bots del OpenAI

Por el momento:

Solo usan a Necrophos, Sniper, Viper, Crystal Maiden y Lich.
No usan guardianes observadores ni centinelas para controlar la visión del mapa.
No matan a Roshan.
No usan objetos que ofrecen invisibilidad (consumibles y artículos relevantes).
No sacan unidades, ni crean ilusiones.
No compran objetos como Estoque Divino, Botella, Hoja Mitigante, Botas de Viaje, Tomo del Conocimiento, ni Infused Raindrops.
No hacen al Animal Mensajero invulnerable, ni lo utilizan para dar visión o despistar.
No usan el escanear del mapa.

Veremos de lo que es capaz de hacer este grupo de bots de OpenAI Five en The International 8. ¿Serán capaces de ganar a un equipo formado por jugadores profesionales? Cada vez queda menos para comprobarlo.