Validação estatística dos critérios de segmentação da fala espontânea no corpus C-ORAL-BRASIL

Tommaso Raso, Maryualê Malvessi Mittmann

Abstract


Este artigo apresenta o processo empregado no corpus C-ORALBRASIL,bem como os resultados estatísticos da segmentação dafala espontânea encontrados nesse corpus. Exploramos especialmentea validação estatística dos critérios para a segmentação da fala emenunciados e unidades tonais com base na Teoria da Língua em Ato.A validação teve por objetivo assegurar que o produto final tivesse amaior uniformidade possível quanto à segmentação da fala. Apósum ano, realizamos novos testes de validação, para reavaliação dogrupo principal de transcritores no momento da revisão do corpus.Os resultados da validação estatística ao final da fase de treinamentoindicam alta confiabilidade quanto à segmentação do corpus, e areavaliação indicou um grau ainda maior de acordo entre ostranscritores. O principal objetivo deste processo, a confiabilidade euniformidade das transcrições, foi obtido.

Keywords


Corpus; Segmentação da fala; Fala espontânea.

References


AUSTIN, L. J. How to do things with words. Oxford: Oxford University Press, 1962. 168 p.

CRESTI, E. Speech act units and informational units. In: FAVA, E. (Ed.). Speech Acts and Linguistic Research. 1994. Buffalo. Proceedings of the workshop. Padova: Nemo, 1995. p. 89-107. Disponível em: http://lablita.dit.unifi.it/preprint/preprint-95coll02.pdf. Acesso em: 6 set. 2007.

CRESTI, E. Corpus di Italiano parlato. Firenze: Accademia della Crusca, 2000. v.1, p. 41-166.

CRESTI, E. Per una nuova classificazione dell´illocuzione. In: Convegno SILFI: Tradizione e innovazione, 6. 2000. Duisburg. Atti. Pisa: Cesati, 2005. Disponível em: http://lablita.dit.unifi.it/preprint/preprint-00bcoll01.pdf. Acesso em: 15 nov. 2008.

CRESTI, E. The informational patterning theory and the corpus based description of spoken language. In: International Workshop in Corpus Linguistics: Bootstrapping Information from Corpora in a Cross Linguistic Perspective, 3. 2008. Firenze. Proceedings. Disponível em: http://lablita.dit.unifi.it/events/cresti.pdf. Acesso em: 15 nov. 2008.

CRESTI, E.; MONEGLIA, M. (Ed.). C-Oral-Rom: Integrated Reference Corpora For Spoken Romance Languages. Amsterdam: John Benjamins, 2005. 303 p.

COHEN, J. A. A coefficient of agreement for nominal scales. Educational and Psychological Measurement, v. 20, p.37-46, 1960.

FIRENZUOLI, V. Le Forme Intonative di Valore Illocutivo dell’Italiano Parlato: Analisi Sperimentale di un Corpus di Parlato Spontaneo (LABLITA). 2003. 420 f. Tesi (Dottorato in Linguistica) – Università degli Studi di Firenze, Firenze.

FLEISS, J. L. Measuring nominal scale agreement among many raters. Psychological Bulletin, v. 76, p. 378-382, 1971.

LANDIS, J. R.; KOCH. G. G. The measurement of observer agreement for categorical data. Biometrics, v. 33, p. 159-174, 1977.

MARTIN, P. WinPitch Corpus: A text to Speech Alignment Tool for Multimodal Corpora. Lisbon: LREC. May 2004. Disponível em: http://lablita.dit.unifi.it/coralrom/papers/index.html. Acesso em: 6 set. 2007.

MELLO, H.; RASO, T. Para a transcrição da fala espontânea: o caso do C-ORAL-BRASIL. Revista Portuguesa de Humanidades, v. 13, p. 301-325, 2009.

MONEGLIA, Massimo. The C-ORAL-ROM resource. In: CRESTI, Emanuela; MONEGLIA, Massimo (Org.). C-ORAL-ROM: Integrated Reference Corpora for Spoken Romance Languages. Amsterdam: John Benjamis. 2005. p. 1-69.

RASO, T.; MELLO, H. The C-ORAL-BRASIL corpus. In: MONEGLIA, M.; PANUNZI, A. (Org.). Bootstrapping Information from Corpora in a Cross Linguistic Perspective. Firenze: Firenze University Press, 2010. p. 193-213.

RASO, T.; MELLO, H. Parâmetros de compilação de um corpus oral: o caso do C-ORAL-BRASIL. Veredas, v. 13, p. 20-35, 2009. Disponível em: http://www.ufjf.br/ revistaveredas/files/2009/11/ARTIGO-Tommaso-Raso-e-Heliana-Mello.pdf. Acesso em: 17 mar. 2010.

RASO, T.; MELLO, H.; DEUS, L.; JESUS, A. Uma aplicação da Teoria da Língua em Ato ao PB. Revista de Estudos da Linguagem, v. 15, p. 147-166, 2007.

ULISSES, A. J. A unidade de Apêndice no português do Brasil. 2008. 242 f. Dissertação (Mestrado em Linguística) – Faculdade de Letras, Universidade Federal de Minas Gerais, Belo Horizonte.




DOI: http://dx.doi.org/10.17851/2237-2083.17.2.73-91

Refbacks

  • There are currently no refbacks.
';



Copyright (c)



e - ISSN 2237-2083 

License

Licensed through  Creative Commons Atribuição 4.0 Internacional