Gym

1. Cicle de vida

2. Tipologia

4. Llenguatge de programació

Descripció

OpenAI Gym és un entorn per a la creació, el desenvolupament i la comparació de diferents algorismes d’aprenentatge per reforç (reinforcement learning). Està basat en l’ús d’un agent que interactua amb un escenari i rep un premi (o càstig) en funció de les seves accions, seguint el cicle clàssic de la intel·ligència artificial, és a dir, observar, raonar, actuar:

Es pot pensar en l’aprenentatge per reforç com un equilibri entre l’aprenentatge supervisat i el no supervisat, que usa tant el coneixement ja conegut (adquirit) com l’altre, extret d’explorar l’escenari. L’agent va passant d’un estat a un altre després de cada acció, i se’n coneix el resultat, de forma que es pot construir un graf amb totes les possibilitats que va explorant i la puntuació obtinguda per cadascuna d’elles. Això constitueix el coneixement que va construint a cada acció.

El que proporciona Gym és un conjunt d’escenaris ja preparats per a ser usats per un agent, classificats en quatre grups:

  • Exemples de joguina, per a aprendre a usar Gym, que apareixen a la literatura sobre l’aprenentatge per reforç.
  • Algorísmics: es tracta d’exercicis senzills que es poden complicar augmentant la mida del problema a resoldre.
  • Atari: per a construir sistemes que aprenen a jugar als jocs d’Atari 2600.
  • Robots 2D i 3D: per a construir robots que es mouen en un entorn sota lleis físiques i restriccions espaciotemporals.

Enllaç al recurs

https://gym.openai.com/

Exemple d’ús

Amb Gym és possible programar agents que juguin a videjocs clàssics de tipus arcade, com ara l’anomenat Asteroids. L’escenari on interactua l’agent és la pantalla, de forma que l’agent sap on és i quins altres elements hi ha (els asteroides que cal evitar i destruir), i així pot prendre decisions i executar accions, com ara moure’s, girar o disparar:

 

La idea és que l’agent rep un reforç (positiu o negatiu) per cada acció que realitza; si per exemple es mou i xoca contra un asteroide, aquella acció s’avalua com a inadequada; si, en canvi, apunta i dispara correctament, obté un premi per fer-ho.

Enllaços relacionats

Aprenentatge per reforç: https://ca.wikipedia.org/wiki/Aprenentatge_per_reforç

Article sobre l’aprenentatge per reforç: https://arxiv.org/abs/cs/9605103

Atari 2600 a la Viquiipèdia: https://ca.wikipedia.org/wiki/Atari_2600

Escenari per al joc Asteroids: https://gym.openai.com/envs/Asteroids-v0/