Reinforcement learning

Reinforcement learning is een gebied van machine learning dat zich bezighoudt met hoe intelligente agenten acties moeten ondernemen in een omgeving om hun cumulatieve beloning moeten te maximaliseren. Het is een vorm van kunstmatige intelligentie die leert door simulatie en op deze manier de ideale uitkomst onderzoekt in plaats van door gebruik te maken van historische gegevens. Reinforcement learning is een van de drie fundamentele machine learning-paradigma's, naast supervised learning (leren onder toezicht) en unsupervised learning (leren zonder toezicht). De omgeving wordt meestal uitgedrukt in de vorm van een Markov-beslissingsproces (MDP).

Toepassing

bewerken

Deze vorm van machine learning wordt veel toegepast bij navigatiesoftware en gaming.

Verschil met supervised learning

bewerken

Reinforcement learning verschilt van supervised learning doordat er geen gelabelde input/output-paren hoeven te worden gepresenteerd en doordat suboptimale acties niet expliciet moeten worden gecorrigeerd. In plaats daarvan ligt de focus op het vinden van een balans tussen exploratie (van onbekend terrein) en exploitatie (van huidige kennis).