<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="static/style.xsl"?><OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd"><responseDate>2026-04-13T07:01:43Z</responseDate><request verb="GetRecord" identifier="oai:www.recercat.cat:2117/394322" metadataPrefix="marc">https://recercat.cat/oai/request</request><GetRecord><record><header><identifier>oai:recercat.cat:2117/394322</identifier><datestamp>2025-07-23T04:05:20Z</datestamp><setSpec>com_2072_1033</setSpec><setSpec>col_2072_452951</setSpec></header><metadata><record xmlns="http://www.loc.gov/MARC21/slim" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:doc="http://www.lyncode.com/xoai" xsi:schemaLocation="http://www.loc.gov/MARC21/slim http://www.loc.gov/standards/marcxml/schema/MARC21slim.xsd">
   <leader>00925njm 22002777a 4500</leader>
   <datafield ind2=" " ind1=" " tag="042">
      <subfield code="a">dc</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="720">
      <subfield code="a">Paulo Molina, Marc</subfield>
      <subfield code="e">author</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="260">
      <subfield code="c">2023-06-27</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="520">
      <subfield code="a">El principal objectiu d'aquest projecte és comparar com diferents algorismes d'Aprenentatge per Reforç aprenen a jugar a jocs de suma-zero. En concret, ens centrem en el joc del Connecta 4 (o Quatre en Ratlla). En primer lloc, comencem introduint els conceptes teòrics bàsics per a entendre el projecte. Seguidament, proposem un procés d'entrenament que combina Aprenentatge Supervisat i Aprenentatge per Reforç. Inicialment, els agents aprenen a imitar els moviments d'un jugador de nivell mitjà. Sobre aquest coneixement après, s'apliquen diferents algorismes d'Aprenentatge per Reforç amb l'objectiu de millorar el nivell de joc de cada agent. Per a avaluar els agents entrenats, els fem competir entre ells i els comparem per a acabar concloent quin algorisme ha permès adquirir un millor nivell de joc. Finalment, presentem una senzilla Interfície d'Usuari perquè el/la lector/a pugui jugar al joc del Quatre en Ratlla contra tots els agents que s'han entrenat en aquest projecte.</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="520">
      <subfield code="a">The main objective of this project is to compare how different Reinforcement Learning algorithms learn to play zero-sum games. Specifically, we focus on Connect 4 (or Four in a Row). Firstly, we start by introducing the basic theoretical concepts to understand the project. Afterward, we propose a training process that combines Supervised Learning and Reinforcement Learning. Initially, the agents learn to mimic the actions of a mid-level player. On this learned knowledge, we apply different Reinforcement Learning algorithms to improve the performance of each agent. To evaluate the trained agents, they compete against each other, so we can compare them and conclude which algorithm has achieved the highest level of play. Finally, we present a simple User Interface to let the reader play Connect 4 against all the agents that have been trained in this project.</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Aprenentatge automàtic</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Reinforcement learning</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Supervised learning (Machine learning)</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">aprenentatge per reforç</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">aprenentatge supervisat</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">jocs de suma-zero</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">reinforcement learning</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">supervised learning</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">zero-sum games</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Aprenentatge per reforç</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Aprenentatge supervisat (Aprenentatge automàtic)</subfield>
   </datafield>
   <datafield ind2="0" ind1="0" tag="245">
      <subfield code="a">Multi-agent reinforcement learning in two-player zero-sum games</subfield>
   </datafield>
</record></metadata></record></GetRecord></OAI-PMH>