2min

Reinforcement learning is belangrijk om kunstmatige intelligentie op bepaalde specifieke gebieden te trainen. Denk aan systemen die bijvoorbeeld spellen leren spelen, maar ook aan AI die gebruikt kan worden om ziektes te herkennen. Daarvoor is het belangrijk dat AI leert van eerdere ervaringen.

Problematisch van dit soort AI is echter dat het lang niet altijd stabiel is. Daarnaast zijn systemen die gebruik maken van reinforcement learning vaak relatief inflexibel en duurt het enige tijd voordat ze getraind zijn. Om deze zaken aan te pakken, stelt Google een open-source framework voor, dat gebaseerd is op TensorFlow. Dat is de machine learning bibliotheek van Google en het framework is vanaf vandaag beschikbaar op GitHub.

Speculatief onderzoek

Onderzoekers Pablo Samuel Castro en Marc G. Bellemare van het Google Brain Team schrijven in een blogpost dat het platform erop gericht is om speculatief onderzoek te stimuleren dat “kan leiden tot radicale ontdekkingen”. Het framework op GitHub bevat ook een duidelijke uitleg van hoe het framework gebruikt kan worden.

De achterliggende gedachte was heel specifiek om een reinforcement framework te bouwen met drie doelen: flexibiliteit, stabiliteit en reproduceerbaarheid. Om die reden wordt er gebruik gemaakt van een compacte codeset, bestaande uit vijftien Python-bestanden. Die set is toegespitst op de Arcade Learning Environment, een platform voor het evalueren van AI-technologie met videogames. Tegelijk zijn er vier specifieke en onderscheidende machine learning modellen geïntegreerd.

De modellen

Het gaat vier verschillende modellen. Allereerst is er het DeepMind Q-Network (DQN), dat ervoor zorgt dat meerdere modellen tegelijk een spel kunnen leren spelen. Daarnaast is er C51; een vereenvoudigde variant van het Rainbow-model en tot slot nog het Implicit Quantile Network.

Niet alleen komt Google met dit framework, ook lanceert het een website waar ontwikkelaars snel de trainingruns van meerdere AI’s tegelijk kunnen visualiseren. De site kan ook gebruikt worden om getrainde modellen beschikbaar te maken, logboeken met ruwe data te publiceren en om TensorFlow-bestanden te delen. “Onze hoop is dat de flexibiliteit en het gebruiksgemak van ons framework ervoor zorgt dat ontwikkelaars nieuwe ideeën uitproberen.”