Statistical models for genome sequence mapping

Inici | Què és? | Contacte

English | Castellano

Consultar RECERCAT

Per comunitats i
col·leccions Per data Per autors Per títols Per matèries

Consultar col·lecció

Per data Per autors Per títols Per matèries

Estadístiques

Del document Tot RECERCAT

El meu RECERCAT

Entrar Alertes per correu-e

Directori d’altres repositoris

Pàgina inicial del RECERCAT > Universitat Politècnica de Catalunya > Tesines i projectes i treballs de final de carrera > Visualitza document

Per accedir als documents amb el text complet, si us plau, seguiu el següent enllaç: http://hdl.handle.net/2117/97991

Títol:	Statistical models for genome sequence mapping
Autor/a:	Valera Zorita, Eduard
Altres autors:	Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions; Filion, Guillaume; Vidal Manzano, José
Abstract:	In this work we present a mapper, an algorithm to find short DNA sequences in large reference texts. Our algorithm uses the standard seed-and-extend approach, utilized by most modern mappers, combined with a novel genome annotation called neighborhood annotation. The neighborhood annotation is a data structure that contains information of similarity between sequences of the same reference. Based on this annotation, we build a statistical model to aid the processes of seeding and mapping quality estimation. Overall, our algorithm achieves higher sensitivity and more accurate estimation of mapping reliability with simulated Illumina reads, at the same speed compared to the state-of-the art algorithms. The C source code of the algorithm implementation is available at http://github.com/ezorita/mapper.
Abstract:	En este proyecto presentamos un algoritmo de mapping. Los mappers son algoritmos utilizados para encontrar secuencias cortas de ADN en textos de referencia mucho más largos. Nuestro algoritmo utiliza la técnica estándar de seed-and-extend, utilizada por la mayoria de mappers actuales, combinada con una nueva anotación del genoma: el neighborhood annotation. Esta anotación es una estructura de datos que almacena información sobre las similitudes entre las secuencias del texto de referencia. Basandonos en esta estructura, hemos diseñado un modelo estadístico que utilizamos para favorecer los procesos de seeding y de estimación de la calidad de mapping. Finalmente, hemos implementado y testeado el rendimiento de nuestro algoritmo en secuencias simuladas de Illumina. Los resultados obtenidos muestran una mejor sensitividad y estimaciones más precisas de la fiabilidad de mapping, a la misma velocidad que los mappers del estado del arte. El código fuente de la implementación en C está disponible en open-source en http://github.com/ezorita/mapper.
Abstract:	En aquest projecte hi presentem un algoritme de mapping. Els mappers són algoritmes que s'utilitzen per trobar seqüències curtes d'ADN en textos de referència molt grans. El nostre algoritme utilitza la tècnica estàndard de seed-and-extend, utilitzada per la majoria de mappers actuals, combinada amb una nova anotació del genoma que hem anomenat neighborhood annotation. Aquesta anotació consisteix en una estructura de dades que emmagatzema informació sobre les similaritats entre les seqüències del text de referència. Basant-nos en aquesta estructura, hem dissenyat un model estadístic que utilitzem per assistir els processos de seeding i d'estimació de la qualitat de mapping. Finalment, hem implementat i mesurat el rendiment del nostre algoritme en seqüenciacions simulades d'Illumina. Els resultats obtinguts determinen millor sensitivitat i estimacions més acurades de la fiabilitat de mapping, a la mateixa velocitat que els mappers de l'estat de l'art. El codi font de la implementació en C està disponible en open-source al web http://github.com/ezorita/mapper.
Matèries:	-Àrees temàtiques de la UPC::Enginyeria electrònica -DNA -Word processing -Algorithms -algorithms -text processing -algoritmos -tratamiento de textos -ADN -Tractament de textos -Algorismes
Drets:	S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada' http://creativecommons.org/licenses/by-nc-nd/3.0/es/
Tipus de document:	Projecte/Treball fi de carrera o de grau
Publicat per:	Universitat Politècnica de Catalunya
Compartir:

Mostra el registre complet del document

Documents relacionats

Altres documents del mateix autor/a

Space-frequency coded OFDM for underwater acoustic communications

Valera Zorita, Eduard

Accessibilitat | Avís legal | Política de Cookies | Documents d'ús intern

Coordinació

Patrocini