Corpus  CEFALA-1: Base de dados audiovisual de locutores para estudos de biometria, fonética e fonologia / Corpus CEFALA-1: Audiovisual Database of Speakers  for Biometric, Phonetic and Phonology Studies

Arlindo Follador Neto; Adelino Pinheiro Silva; Hani Camille Yehia

doi:10.17851/2237-2083.27.1.191-212

Corpus CEFALA-1: Base de dados audiovisual de locutores para estudos de biometria, fonética e fonologia / Corpus CEFALA-1: Audiovisual Database of Speakers for Biometric, Phonetic and Phonology Studies

Arlindo Follador Neto, Adelino Pinheiro Silva, Hani Camille Yehia

Abstract

Resumo: A fala humana tem sido estudada em diferentes áreas do conhecimento, as quais incluem desde biometria até fonética e fonologia. Nas pesquisas realizadas em tais áreas, amostras da fala são recursos necessários para a obtenção de resultados e validação de hipóteses. Para isso, amostras de diferentes locutores e conteúdos são armazenadas em arquivos de áudio e organizadas em bases de dados. Tais bases de dados permitem a continuidade, praticidade e confiabilidade de pesquisas, eliminando a difícil e demorada etapa de coleta de dados. Além disso, permitem comparações consistentes entre estudos diferentes. Entretanto, bases de acesso livre na língua portuguesa ou gravadas em ambiente controlado são raramente encontradas. Dessa forma, o objetivo deste trabalho foi construir uma base de dados pública e gratuita do português brasileiro, nomeada Corpus CEFALA-1. A base de dados reúne 104 locutores orientados por um protocolo específico para coleta de amostras audiovisuais de fala gravadas em estúdio. Este trabalho apresenta as metodologias de processamento, segmentação e organização às quais as amostras de fala foram submetidas, além de análises estatísticas, aplicação à verificação biométrica e análises fonético-fonológicas preliminares do corpus.

Palavras-chave: corpus de locutores; biometria; fonética e fonologia; base de dados audiovisual.

Abstract: Human speech has been studied in different areas of knowledge, which range from biometry to phonetics and phonology. In research conducted in such areas, speech samples are necessary resources for obtaining results and validating hypotheses. For this, samples of different speakers and contents are stored in audio files and organized into databases. Such databases allow the continuity, practicality and reliability of studies, eliminating the difficult and time consuming step of data collection. Moreover, they allow consistent comparisons between different studies. However, free access databases in the Portuguese language or recorded in controlled environments are rarely found. The objective of this paper is to construct a free and public database of Brazilian Portuguese, named Corpus CEFALA-1. The database comprises 104 speakers guided by a specific protocol for the collection of audiovisual speech samples recorded in a studio. The paper presents the methodologies for processing, segmentation and organization of speech samples, statistical analysis, application to biometric verification and preliminary phonetic-phonological analyses.

Keywords: corpus of speakers; biometry; phonetics and phonology; audiovisual database.

Keywords

corpus de locutores; biometria; fonética e fonologia; base de dados audiovisual; corpus of speakers; biometry; phonetics and phonology; audiovisual database.

Full Text:

PDF (Português (Brasil))

References

ALEKSIC, P. S.; KATSAGGELOS, A. K. Automatic Facial Expression Recognition Using Facial Animation Parameters and Multistream HMMs. IEEE Transactions on Information Forensics and Security, [S.L.], v. 1, n. 1, p. 3-11, 2006.

AMERICAN PSYCHOLOGICAL ASSOCIATION. Ethical Principles of Psychologists and Code of Conduct. US: American Psychological Association, 2002.

BIBER, D.; CONRAD, S.; REPPEN, R.; LEECH, G. Corpus linguistics: Investigating language structure and use. International Journal of Corpus Linguistics, [s.l.], v. 4, n. 1, p. 185-188, 1999.

CONSELHO NACIONAL DE SAÚDE. Resolução n. 510 de 7 de abril de 2016. Dispõe sobre as especificidades éticas das pesquisas nas ciências humanas e sociais e de outras que utilizam metodologias próprias dessas áreas. Brasília, 2016.

FLANAGAN, J. L. Speech analysis synthesis and perception. New York: Springer Science & Business Media, 2013.

GONÇALVES, C. S. Taxa de elocução e de articulação em corpus forense do português brasileiro. 2013. 192f. Tese (Doutorado) – Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2013.

HARRINGTON, J. Phonetic analysis of speech corpora. Oxford: John Wiley & Sons, 2010.

HARSANYI, Z. A vida de Galileu: (o contemplador de estrelas). Rio de Janeiro: Editora José Olympio, 1957.

HORNAK, J.; ROLLS, E.; WADE, D. Face and voice expression identification in patients with emotional and behavioural changes following ventral frontal lobe damage. Neuropsychologia, [s.l.], v. 34, n. 4, p. 247-261, 1996.

KASI, K.; ZAHORIAN, S. A. Yet another algorithm for pitch tracking. In: IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), 2002, Orlando. Proceedings… Orlando: IEEE. p. I-361-I-364.

KIM, C.; SEO, K.-D.; SUNG, W. A robust formant extraction algorithm combining spectral peak picking and root polishing. EURASIP Journal on Applied Signal Processing, New York, v. 2006, p. 33-33, 2006.

PICONE, J. W. Signal modeling techniques in speech recognition. Proceedings of the IEEE, [s.l.], v. 81, n. 9, p. 1215-1247, 1993.

REYNOLDS, D. A.; QUATIERI, T. F.; DUNN, R. B. Speaker verification using adapted Gaussian mixture models. Digital Signal Processing, [s.l.], v. 10, n. 1-3, p. 19-41, 2000.

SILVA, A. H. P. Língua Portuguesa I: fonética e fonologia. Curitiba: IESDE Brasil, 2016.

SILVA, T. C. Fonética e fonologia do português: roteiro de estudos e guia de exercícios. São Paulo: Contexto, 1999.

SUZUKI, Y.; ASANO, F.; KIM, H. Y.; SONE, T. An optimum computer generated pulse signal suitable for the measurement of very long impulse responses. The Journal of the Acoustical Society of America, [s.l.], v. 97, n. 2, p. 1119-1123, 1995.

TITZE, I. R. Principles of voice production. Englewood Cliffs: Prentice Hall, 1994.

TRESADERN, P.; MCCOOL, C.; POH, N.; MATEJKA, P.; HADID, A.; LEVY, C.; MARCEL, S. Mobile biometrics (mobio): Joint face and voice verification for a mobile platform. IEEE pervasive computing, p. 79-87, 2012.

WU, Z.; EVANS, N.; KINNUNEN, T.; YAMAGISHI, J.; ALEGRE, F.; LI, H. Spoofing and countermeasures for speaker verification: a survey. Speech Communication, [s.l.], v. 66, p. 130-153, 2015.

ZAHORIAN, S. A.; HU, H. A spectral/temporal method for robust fundamental frequency tracking. The Journal of the Acoustical Society of America, [s.l.], v. 123, n. 6, p. 4559-4571, 2008.

DOI: http://dx.doi.org/10.17851/2237-2083.27.1.191-212