Use this identifier to quote or link this document: http://hdl.handle.net/2072/13469

Métodes d'aprenentatge per reforç basats en la política i la seva aplicació a la robótica
EL-FAKDI SENCIANES, ANDRES
Agència de Gestió d'Ajuts Universitaris i de Recerca
Projecte de recerca elaborat a partir d’una estada al Robot Locomotion Group del Massachusetts Institute of Technology, Estats Units, entre març i agost del 2006. Es descriu la feina portada a terme en el camp de l'aprenentatge per reforç (RL), una metodologia molt utilitzada en aprenentatge artificial. En RL, un agent intenta maximitzar un valor escalar (càstig o premi) obtingut com a resultat de la seva interacció amb l'entorn. L'objectiu d'un sistema basat en RL és el de trobar una política d'actuació òptima que relaciona l'estat de l'entorn amb una acció determinada que maximitzi la suma de reforços futurs. El principal avantatge és que no utilitza cap base de dades conegudes, així que l'agent no rep informació sobre quina decisió triar, com succeeix en molts tipus d'aprenentatge, sinó que ha de triar per descobrir aquelles accions que tenen un valor més alt, sent molt adient en robòtica aplicada. Els principals desavantatges són uns temps de convergència sovint elevats i la manca de generalització quan tractem variables contínues. Principalment, el treball s’ha centrat en l'estudi de noves i més complexes metodologies basades en RL que combinessin dos tipus d'algorismes: els basats en funcions de valor i els representats únicament per una política d'actuació. Posteriorment s'analitzà la seva aplicabilitat en aplicacions robòtiques reals. En tots els estudis i les simulacions s’ha utilitzat un braç robòtic dissenyat i contruït al laboratori. El tipus de robot, anomenat Acrobot, és un banc de proves molt utilitzat en els camps de teoria de control i aprenentatge.
2009-02-04
621.3 - Enginyeria elèctrica. Electrotècnia. Telecomunicacions
Aprenentatge per reforç (Aprenentatge automàtic)
Aquest document està subjecte a una llicència d'ús de Creative Commons, amb la qual es permet copiar, distribuir i comunicar públicament l'obra sempre que se'n citin l'autor original i l’Agència i no se'n faci cap ús comercial ni obra derivada, tal com queda estipulat en la llicència d'ús (http://creativecommons.org/licenses/by-nc-nd/2.5/es/)
11 p.
Report
Els ajuts de l'AGAUR;2006BE00655
         

Full text files in this document

Files Size Format
2006BE00655.pdf 447.8 KB PDF

Show full item record

 

Coordination

 

Supporters