2min

Wetenschappers van IBM hebben onderzoek onthuld over hoe machines constant taken kunnen blijven leren, waarbij ze steeds beter worden in plaats van dat ze op één niveau blijven steken. Hierbij werd het spel Flappy Bird gebruikt als test, schrijft ZDNet

De wetenschappers deden onderzoek naar iets wat ook wel ‘lifelong learning’ of ‘continuous learning’ genoemd wordt. Dat gebied wordt al decennia onderzocht, maar blijft een uitdaging. time.

Flappy Bird was voor de wetenschappers van IBM de belangrijkste test voor hun onderzoek. Het spel, dat in 2014 van smartphones verwijderd werd door maker Dong Nguyen omdat het te verslavend was, laat gebruikers een klein vogeltje langs allerlei pilaren heen vliegen. De bedoeling is dat de palen niet geraakt worden.

De IBM-onderzoekers definieerden iedere verandering in het spel – zoals de hoogte van de palen – als een nieuwe taak. Neurale netwerken moeten dan hetgeen dat bij de ene taak geleerd is extrapoleren naar de andere, om hetgeen wat eerder geleerd is maximaal in te kunnen zetten. Dit wordt ook wel Meta-experience replay (MER) genoemd.

Tests

Die aanpak werd getest met twee verschillende benchmark-testen voor neurale netwerken. Eén is een versie van de traditionele ‘MNIST’ dataset met handgeschreven cijfers, dat ontwikkeld is door de National Institute of Standards and Technology. Het doel is om gelabelde voorbeelden van cijfers die op verschillende vormen en rotaties geschreven zijn te identificeren.

De tweede test was dus met Flappy Bird, waarbij er een reinforcement learning-aanpak gebruikt werd op basis van een neuraal netwerk genaamd Deep Q Network (DQN). In beide gevallen stellen de onderzoekers dat de accuraatheidsscores beter zijn dan in de benchmarks.

De DQN die MER gebruikte wordt “een platinum-speler bij de eerste taak, terwijl het de derde taak leert” in Flappy Bird. “DQN-MER toont het soort leerpatronen die van mensen verwachten bij deze spellen, terwijl een standaard DQN moeite heeft om veranderingen in het spel te generaliseren en om kennis over tijd vast te houden”, aldus de wetenschappers.