Onderzoekers van Googles DeepMind-onderdeel en het Londonse Imperial College hebben een algoritme ontwikkeld waarmee kunstmatige intelligentie continu kan leren. Dit moet het probleem oplossen dat dergelijke systemen eerder uitgevoerde taken 'vergeten'.
De onderzoekers duiden dit verschijnsel in hun paper aan met de term 'catastrophic forgetting'. Het DeepMind-project legt uit dat dit optreedt als een neuraal netwerk een nieuwe taak moet leren. Daarbij wordt de 'kennis' overschreven die bij het uitvoeren van de eerdere taak is opgedaan. Hierdoor ontstaat een beperking voor het leervermogen van neurale netwerken. In de paper presenteren de onderzoekers een methode om deze beperking weg te nemen.
Om dit te bereiken, ontwikkelden zij een algoritme dat zij 'Elastic Weight Consolidation' noemen. Het idee erachter is dat het algoritme voor elke verbinding tussen verschillende 'neuronen' aangeeft hoe belangrijk deze is voor het uitvoeren van een bepaalde taak. Bij het leren van een nieuwe taak beschermt deze waarde de oude verbinding tegen modificatie. De mate van bescherming hangt af van het belang dat aan de oude taak is toegewezen. De onderzoekers trekken de vergelijking met een veer, die stugger wordt naarmate de taak belangrijker is.
De aanzet voor het onderzoek was de werking van het menselijke brein en de manier waarop het omgaat met het leren van nieuwe taken. Daarbij is het proces, dat de wetenschappers aanduiden als 'systems consolidation', verantwoordelijk voor het overbrengen van herinneringen van het gedeelte van het brein dat snel leert, naar het gedeelte dat langzamer leert. Dit proces wordt beïnvloed door het bewust en onbewust terughalen van herinneringen, aldus de wetenschappers. Daarnaast bestaat een proces, genaamd 'synaptic consolidation', waarbij verbindingen tussen neuronen niet worden overschreven als zij van belang waren bij het uitvoeren van een eerdere taak.
Voor het testen van hun algoritme voerden de onderzoekers experimenten uit aan de hand van Atari 2600-spellen. Zo speelde de ai-agent verschillende spellen achter elkaar. Daarbij bleek dat een agent zonder het algoritme een aangeleerd spel snel weer 'vergat'. Met behulp van het algoritme was het systeem echter in staat om meerdere spellen achter elkaar te leren zonder de in het andere spel opgedane kennis te verliezen. Daarmee willen de wetenschappers aantonen dat 'catastrophic forgetting' geen onoverkomelijke barrière is en dat systemen ontworpen kunnen worden die efficiënt en flexibel kunnen leren.
Ook andere onderzoeksprojecten gebruiken spellen om zelflerende systemen te trainen. Zo gebruikt OpenAI naast Atari 2600-spellen ook Red Alert 2 en Portal om een systeem te ontwikkelen dat net als een mens gebruik kan maken van een computer. Daarnaast gebruikt de organisatie GTA V voor het trainen van zelfrijdende systemen.