Aprendizaje por refuerzo: gestionar mejor los riesgos industriales
Tiempo de lectura : 4 min
Campo de estudio en pleno augede la inteligencia artificial, el aprendizaje por refuerzo abre nuevas perspectivas al sector industrial.
La inteligencia artificial se adentra por caminos a veces indirectos e inesperados. Por ejemplo, el aprendizaje automático (machine learning) utilizaba hasta ahora -y todavía utiliza en gran medida- un método que consiste en identificar los datos de entrada y los datos de salida esperados. El algoritmo aprende a partir de miles o millones de ejemplos etiquetados, conectando así las imágenes con categorías o clases.
“Un nuevo método permite esquivar este problema: el aprendizaje por refuerzo”, explica Erik Lenten, Chief Technology Officer en Axians, la marca TIC de VINCI Energies.
El aprendizaje por refuerzo se distingue fundamentalmente de los llamados métodos supervisados por la capacidad interactiva del algoritmo para probar o explorar varias soluciones, observar la reacción del público y adaptar su comportamiento para aplicar la mejor estrategia. Dicho de otro modo, la máquina aprende de sus propios errores y de forma totalmente autónoma.
La técnica se basa en un sistema de “recompensas”: el algoritmo es penalizado si se equivoca y recompensado cuando toma la buena de decisión. De este modo, optimiza por sí mismo su toma de decisiones. En el aprendizaje por refuerzo, el desarrollador del modelo se limita a fijar las reglas que determinarán si la IA deberá ser penalizada o recompensada.
El videojuego de Elon Musk
Amazon también ha desarrollado un prototipo basado en el aprendizaje por refuerzo. Bautizado AWS DeepRacer, este coche de carreras en miniatura y autónomo debe “permanecer en la pista”. El coche es penalizado cuando se sale de la pista y recompensado cuando se mantiene en ella, sin olvidar el objetivo de “ir lo más rápido posible”. Abierto a los desarrolladores de todo el mundo en un campeonato internacional, esta experimentación con simulador 3D permite mejorar día tras día el rendimiento del vehículo. Se puede, por ejemplo, entrenar el modelo en el simulador virtual y cuando esté suficientemente entrenado, se puede descargar y lanzarse a correr en una pista real. Esta experimentación también permite dar a conocer el aprendizaje por refuerzo para que los desarrolladores lo utilicen en su propio software. De igual manera, la start-up británica Wayve ha enseñado a un coche autónomo a seguir una línea recta en un día.
Pero el ejemplo más elocuente es sin duda el desarrollado por la IA Five de Open AI, la fundación de Elon Musk, que se ha entrenado durante el equivalente de 40.000 años a jugar con el método del aprendizaje por refuerzo al videojuego Dota 2 . Five puede ahora ganar por sí sola a todo un equipo de jugadores profesionales de Dota 2.
“En el entorno industrial, el aprendizaje por refuerzo puede realizar simulaciones para identificar los mejores parámetros de producción”.
¿En qué medida puede interesar el aprendizaje por refuerzo al sector de la industria? “Podemos imaginar el interés que esta técnica podría suscitar si, por ejemplo, se quieren optimizar los procesos de una línea de producción en la que debe tenerse en cuenta la interacción entre diferentes máquinas. El aprendizaje por refuerzo realiza diferentes ajustes y adapta sus decisiones en función de los resultados”, comenta Erik Lenten.
“El procedimiento no se contempla en ningún modo en tiempo real, indica el CTO de Axians. Pero, si construimos un gemelo digital de la cadena de producción, podremos efectuar simulaciones que nos permitirán identificar los mejores parámetros de producción”.
23/07/2020