To access the full text documents, please follow this link: http://hdl.handle.net/2099.1/22028

Prosody and wavelets: towards a natural speaking style conversion;
Prosody and Prosodia y wavelets: una conversión natural de la forma de hablar;
Prosòdia i wavelets: cap a una conversió natural de la forma de parlar
Sánchez Gasulla, Gerard
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions; Gabbout, Moncef
[ANGLÈS] Speech is the basis of human communication: in everyday life we automatically decode speech into language regardless of who speaks. In a similar way, we have the ability to recognize different speakers, despite the linguistic content of the speech. Additionally to the voice individuality of the speaker, the particular prosody of speech involves relevant information concerning the identity, age, social group or economical status of the speaker, helping us identify the person to whom we are talking without seeing the speaker. Voice conversion systems deal with the conversion of a speech signal to sound as if it was uttered by another speaker. It has been an important amount of work in the conversion of the timber of the voice, the spectral features, meanwhile the conversion of pitch and the way it temporarily evolves, modeling the speaker dependent prosody, is mostly achieved by just controlling the level and range. This thesis focuses on prosody conversion, proposing an approach based on a wavelet transformation of the pitch contours. It has been performed a study of the wavelet domain, discerning among the different timing of the prosodic events, thus allowing an improved modeling of them. Consequently, the prosody conversion is achieved in the wavelet domain, using regression techniques originally developed for the spectral features conversion, in voice conversion systems.
[CASTELLÀ] El habla es la base de la comunicación humana: en la vida cotidiana desciframos automáticamente la voz en palabras independientemente de quién habla. De manera similar , tenemos la capacidad de reconocer las diferentes persona hablando, sin tener en cuenta el contenido lingüístico del discurso. Adicionalmente a la individualidad de voz del hablante, la prosodia particular del discurso implica información relativa a la identidad, edad, grupo social o condición económica de la persona, lo que ayuda a identificar a la persona a quién estamos hablando sin verla. Los sistemas de conversión de voz se ocupan de la conversión de una señal de voz para que suene como si fue pronunciada por otro orador . Ha habido una cantidad importante de trabajo en la conversión del timbre de la voz, las características espectrales; por su parte, la conversión del tono y la forma en que evoluciona temporalmente, el modelado de la prosodia dependiente del hablante, se logra sobre todo con sólo el control del nivel y rango. Esta tesis se centra en la conversión de la prosodia, proponiendo un enfoque basado en una transformación wavelet de los contornos de tono . Se ha realizado un estudio del dominio wavelet, separando entre los diferente tiempos de los acontecimientos prosódicos, permitiendo así una mejora de su modelaje. En consecuencia, la conversión de la prosodia se logra en el dominio wavelet, usando técnicas de regresión originalmente desarrollados para la conversión de características espectrales, en los sitemas de conversión de voz.
[CATALÀ] La parla és la base de la comunicació humana: en la vida quotidiana desxifrem automàticament la veu en paraules independentment de qui parla. De manera similar, tenim la capacitat de reconèixer les diferents persona parlant, sense tenir en compte el contingut lingüístic del discurs. Adicionalment a la individualitat de veu del parlant, la prosòdia particular del discurs implica informació relativa a la identitat, edat, grup social o condició econòmica de la persona, el que ajuda a identificar la persona a qui estem parlant sense veure-la. Els sistemes de conversió de veu s'ocupen de la conversió d'un senyal de veu perquè soni com si fos pronunciat per un altre persona. Hi ha hagut una quantitat important de treball en la conversió del timbre de la veu, les característiques espectrals; per la seva banda, la conversió to i la forma en què evoluciona temporalment, el modelatge de la prosòdia depenent del parlant, s'aconsegueix sobretot amb només el control del nivell i rang . Aquesta tesi es centra en la conversió de la prosòdia, proposant un enfocament basat en una transformació wavelet dels contorns de to. S'ha realitzat un estudi del domini wavelet, separant entre els diferent temps dels esdeveniments prosòdics, permetent així una millora del seu modelatge. En conseqüència, la conversió de la prosòdia s'aconsegueix en el domini wavelet, usant tècniques de regressió originalment desenvolupats per a la conversió característiques espectrals.
Àrees temàtiques de la UPC::Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic
Signal processing -- Digital techniques
Speech processing systems
Speech processing
voice conversion
prosody conversion
wavelet analysis
Procesado de voz
conversión de voz
conversión de la prosodia
Tractament del senyal -- Tècniques digitals
Processament de la parla
S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/bachelorThesis
Universitat Politècnica de Catalunya
         

Show full item record

 

Coordination

 

Supporters