Mohammed Terry Jack
Au cœur d'un robot se trouve une politique qui lui indique quoi faire (c'est-à-dire quelle action entreprendre) dans une situation donnée. Il peut s'agir d'un ensemble de règles simples ou d'une fonction mathématique complexe. Mais comment savoir à quoi devraient ressembler les règles ou la fonction mathématique ? Heureusement, il existe des algorithmes d'apprentissage automatique pour approximer la fonction (par exemple, les machines à noyau, l'apprentissage profond, etc.) ou déduire automatiquement ces règles (par exemple, la programmation logique inductive, les forêts aléatoires, etc.). Cependant, les algorithmes d'apprentissage supervisé nécessitent beaucoup de données d'apprentissage qui peuvent ne pas être disponibles. Les méthodes évolutionnistes (par exemple, les algorithmes génétiques) et d'autres algorithmes d'optimisation ne nécessitent aucune donnée d'apprentissage pour évaluer et rechercher dans un espace de politiques et trouver les règles ou la fonction optimales. Alternativement, en assimilant directement la politique à une recherche (par un espace état/action-état) comme cela se fait dans l'apprentissage par renforcement, la meilleure action suivante peut être trouvée à l'aide d'une fonction d'évaluation apprise (par exemple, la fonction V ou Q).