Analysis of acoustic-prosodic features of spontaneous expressive speech

Carlos Toshinori Ishi; Nick Campbell

doi:10.17851/2237-2083.12.2.37-49

Analysis of acoustic-prosodic features of spontaneous expressive speech

Carlos Toshinori Ishi, Nick Campbell

Abstract

A análise de características acústico-prosódicas foi conduzida em umbanco de dados de fala espontânea, com o propósito de construirum sintetizador de fala capaz de sintetizar uma fala expressiva, ouseja, vários estilos de fala. Os estilos de fala foram categorizadosde acordo com os seguintes itens: estado emocional percebido(neutro, preocupado, contente, insatisfeito, bravo, cansado, etc.);atitude com respeito ao ouvinte (grau de polidez, gentileza,consideração); atitude com respeito ao conteúdo da fala (grau deconfiança, envolvimento, interesse); qualidade da voz (energia, brilho,dureza). As seguintes características acústicas foram analisadas: F0 e RMS (relacionados à altura e à intensidade da voz), terceiro equarto formantes (F3 e F4, relacionados com o comprimento dotrato vocal, e podem estar correlacionados com o grau de extensãodos lábios), e quociente de amplitude (AQ – “amplitude quocient”,relacionado com o tipo de fonação da voz). Análise de componentesprincipais e coeficientes de correlação foram usados para avaliaros dados. Os resultados indicaram correlação entre algumascategorias do estilo da fala e da qualidade de voz, por exemplo,energia e envolvimento, brilho e interesse, gentileza e dureza.Correlações significativas foram obtidas entre qualidade de voz ecaracterísticas acústico-prosódicas. Valores médios de F0, RMS, AQe F4 foram encontrados como sendo os parâmetros mais influentesna qualidade de voz, indicando que uma combinação destascaracterísticas acústicas pode, possivelmente, ser usada para predizerqualidades de voz.

Full Text:

PDF (Português (Brasil))

References

BROAD, D. J.; CLERMONT, F. Formant estimation by linear transformation of the LPC cepstrum. Journal of the Acoustical Society of America, v. 86, n. 5, p. 2013-2017, 1989.

CAMPBELL, N. The recording of emotional speech; JST/CREST database research. Proc. of LREC2002, v. 6, p. 2029-2032, 2002.

EUROPEAN Language Resources Association: Disponível em: www.elda.fr/catalog.html.

HIROSE, K.; FUJISAKI, H.; KAWAI, H. Generation of prosodic rule-synthesis of connected speech of Japanese. Proc. of IEEE-ICASSP86, p. 2415-2418, 1986.

MAEKAWA, K.; KOISO, H.; FURUI, S.; ISAHARA, H. Spontaneous speech corpus of Japanese. Proc. of LREC2000, p. 947-952, 2000.

MOKHTARI, P.; CAMPBELL, N. Perceptual validation of a voice quality parameter AQ automatically measured in acoustic islands of reliability. Proc. of Acoustical Society of Japan Spring 2002’, v. I, p. 401-402, 2002.

THE JST/CREST Expressive Speech Processing Project, introductory web pages at: Hyperlink http://www.isd.atr.co.jp/esp, www.isd.atr.co.jp/esp.

DOI: http://dx.doi.org/10.17851/2237-2083.12.2.37-49