<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="static/style.xsl"?><OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd"><responseDate>2026-04-17T06:54:07Z</responseDate><request verb="GetRecord" identifier="oai:www.recercat.cat:2117/439428" metadataPrefix="marc">https://recercat.cat/oai/request</request><GetRecord><record><header><identifier>oai:recercat.cat:2117/439428</identifier><datestamp>2025-07-27T12:26:25Z</datestamp><setSpec>com_2072_1033</setSpec><setSpec>col_2072_452951</setSpec></header><metadata><record xmlns="http://www.loc.gov/MARC21/slim" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:doc="http://www.lyncode.com/xoai" xsi:schemaLocation="http://www.loc.gov/MARC21/slim http://www.loc.gov/standards/marcxml/schema/MARC21slim.xsd">
   <leader>00925njm 22002777a 4500</leader>
   <datafield ind2=" " ind1=" " tag="042">
      <subfield code="a">dc</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="720">
      <subfield code="a">Espinosa Moyano, Victor</subfield>
      <subfield code="e">author</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="260">
      <subfield code="c">2025-07-08</subfield>
   </datafield>
   <datafield ind2=" " ind1=" " tag="520">
      <subfield code="a">Las tareas de visión por computador, como la detección de personas, están llamadas a convertirse en herramientas fundamentales para el análisis de multitudes y la gestión de espacios públicos en el futuro próximo. Sin embargo, los modelos actuales de detección de objetos aún requieren mejoras significativas para ser plenamente aplicables en entornos reales funcionando, además, en tiempo real. El objetivo de este trabajo ha sido entrenar modelos para la detección de personas basados en imágenes tomadas desde drones, orientado al análisis de muchedumbres, documentando la metodología llevada a cabo para servir de base en futuras investigaciones y desarrollos. Los modelos tratan de detectar personas en secuencias de vídeo optimizando la precisión dentro de las limitaciones impuestas por los datos y el entorno de aplicación. Se han comparado dos enfoques principales: FASTER R-CNN y YOLO, utilizando imágenes de 1280x720 píxeles, obtenidas de la base de datos VisDrone juntamente con un dataset personalizado. Los mejores resultados se han obtenido con la arquitectura YOLO, que ha superado a FASTER R-CNN tanto en precisión como en recall y velocidad de procesamiento. El modelo YOLO 3, entrenado específicamente para la detección de personas, alcanzó una precisión de 0.7036, un recall de 0.55209, un mAP50 de 0.60724 y un mAP50-95 de 0.29631, con una velocidad de 11.12 FPS. Aunque este modelo aún no está listo para su despliegue en aplicaciones reales, el trabajo realizado define un camino claro para su mejora y adaptación a distintos escenarios. El hecho de centrarse únicamente en la clase “persona” ha permitido optimizar el modelo para este caso de uso concreto, haciéndolo más práctico y eficiente que otros modelos generalistas. Además, se han identificado varias líneas de trabajo futuro, como la integración del sistema en drones para el análisis aéreo de multitudes, la optimización para dispositivos con recursos limitados, o la ampliación a la detección de comportamientos anómalos, entre otras aplicaciones con UAVs</subfield>
   </datafield>
   <datafield ind1="8" ind2=" " tag="024">
      <subfield code="a">http://hdl.handle.net/2117/439428</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Àrees temàtiques de la UPC::Informàtica::Automàtica i control</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Drone aircraft</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Vision artificielle (Robotique)</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Artificial intelligence</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Deep learning (Machine learning)</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Machine learning</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Avions no tripulats</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Visió artificial (Robòtica)</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Intel·ligència artificial</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Aprenentatge profund</subfield>
   </datafield>
   <datafield tag="653" ind2=" " ind1=" ">
      <subfield code="a">Aprenentatge automàtic</subfield>
   </datafield>
   <datafield ind2="0" ind1="0" tag="245">
      <subfield code="a">Detección y seguimiento de personas con UAVs mediante Deep Learning basado en imagen</subfield>
   </datafield>
</record></metadata></record></GetRecord></OAI-PMH>