OpenAI lanceert Safety Gym voor reinforcement learning-modellen

Stay tuned, abonneer!

OpenAI heeft Safety Gym aangekondigd, een oplossing voor het trainen van AI-modellen door middel van reinforcement learning. Reinforcement learning is het trainen van AI-modellen met het gebruik van straffen of beloningen.

Een aantal bedrijven, waaronder Mobileye van Intel en Nvidia, hebben een framework voorgesteld om veilige en logische besluitvorming door AI-modellen te garanderen. Het Amerikaanse OpenAI heeft daarom Safety Gym bedacht, een verzameling van tools voor het ontwikkelen van AI die bepaalde veiligheidsbeperkingen tijdens de training kent. Ook kunnen de mate van veiligheid van algoritmes en de mate waarin die algoritmes fouten vermijden tijdens het leren met elkaar worden vergeleken, schrijft VentureBeat.

Nieuwe aanpak

OpenAI heeft een nieuwe vorm van leren door straf en/of beloning bedacht. Deze reinforcement learning implementeert functies waardoor de AI wordt beperkt, maar er tegelijk een grotere mate van veiligheid voor in de plaats komt. Modellen voor zelfrijdende voertuigen kunnen hiermee bijvoorbeeld beduidend veiliger mee worden. De aanpak van OpenAI heet ‘constrained reinforcement learning’, en is volgens OpenAI een stap verder naar veel veiligere artificial intelligence.

HEt bedrijf verklaart de aanpak als volgt in een blogpost, met een model voor autonome voertuigen als voorbeeld: “Bij normale reinforcement learning zou de straf voor een botsing aan het begin van de training vastgesteld worden en zou die voor altijd vast staan. Het probleem is dan echter dat het het de AI niet kan schelen of het veel botsingen veroorzaakt, zolang het nog steeds zijn route kan voltooien, als de beloning voor het bereiken van het doel hoog genoeg is. Bij constrained reinforcement learning kun je echter de aanvaardbare botsingen kiezen aan het begin van de training, en de straf voor botsingen aanpassen totdat het model voldoet aan de uiteindelijke eisen.”