Förstärkningsinlärning: för att bättre hantera det oförutsedda inom industrin
Lästid: 4 min
Att studera förstärkningsinlärning är högaktuellt inom AI. Det öppnar upp nya perspektiv inom industrin.
AI:s vägar kan vara outgrundliga. Maskininlärning använde och fortsätter i hög grad att använda en metod som går ut på att kartlägga ingående data och förväntad utgående data. Algoritmen lär sig av tusentals eller miljontals taggade exempel och kopplar på så sätt samman bilder med kategorier eller klasser.
”Men man kan kringgå problem med hjälp av förstärkningsinlärning”, säger Erik Lenten, Chief Technology Officer hos Axians, VINCI Energies varumärke inom IT.
Förstärkningsinlärning skiljer sig markant från de så kallade övervakade metoderna. Här har algoritmen en uppreppande kapacitet att testa eller utforska flera olika lösningar, observera omgivningens reaktioner och anpassa sitt beteende för att hitta den bästa strategin. Med andra ord: att på egen hand låta maskinen lära sig av sina egna misstag.
Tekniken vilar på ett belöningssystem, det vill säga att algoritmen straffas när den gör fel och belönas när den gör rätt. På så sätt optimerar den själv sitt beslutsfattande. Utvecklaren av förstärkningsinlärningsmodellen behöver då bara fastställa regler som avgör om den ska straffas eller belönas.
Elon Musks videospel
Även Amazon har utvecklat en prototyp baserad på förstärkningsinlärning. Det är en självständig miniracerbil som måste hålla sig på banan. Den belönas när den gör det samtidigt som den strävar mot ett mål: att köra så snabbt den kan. Experimentet är öppet för utvecklare över hela världen via en 3D-simulator och hjälper till att vässa bilens prestanda. Du kan träna modellbilen i den virtuella simulatorn och sedan ladda ner den och köra på en riktig bana.
Experimentet är också ett sätt att förklara hur förstärkningsinlärning fungerar, att hjälpa utvecklare använda metoden i sina egna program. På liknande sätt har det brittiska startupföretaget Wayve på en dag lärt en självkörande bil att följa en rak linje.
”Inom industrin kan förstärkningsinlärning genomföra simuleringar för att fastställa de bästa produktionsparametrarna”.
Men det tydligaste exemplet är nog det som utvecklats av Elon Musks stiftelse Five d’Open AI, som med hjälp av förstärkningsinlärning tränat på att spela videospelet Dota 2 under en tid motsvarande 40 000 år. Five kan nu på egen hand besegra ett helt proffslag i Dota 2.
Så hur skulle förstärkningsinlärning kunna hjälpa industrin?
”Man skulle kunna använda tekniken i en produktionslinje som vill optimera sina processer, men som samtidigt måste ta hänsyn till samspelet mellan olika maskiner. Förstärkningsinlärningen kan bestämma inställningarna och justera sina beslut i förhållande till resultatet. Genom att bygga en digital tvilling av produktionskedjan kan man genomföra simuleringar för att välja de bästa och optimala produktionsparametrarna”, säger Erik Lenten.
23/07/2020