Análise de modelos de classificação estatística para a segmentação (semi)automática da fala

Bárbara Falcão, Maryualê Malvessi Mittman

Resumo


O fluxo da fala é segmentado em pequenos fragmentos determinados por fronteiras prosódicas, por motivos cognitivos e linguísticos. Este trabalho utiliza dados de corpora de fala espontânea para investigar os parâmetros acústicos associados à percepção de fronteiras prosódicas de valor conclusivo (terminal) e não-conclusivo (não-terminal). A amostra foi segmentada em unidades V-V e um conjunto de parâmetros acústicos extraído a cada unidade, junto da anotação humana sobre a presença de fronteira a cada ponto. Dois modelos de classificação estatística foram utilizados, RF e LDA (Random Forest e Linear Discriminant Analysis), para gerar modelos de combinações de parâmetros capazes de predizer a realização das quebras percebidas pelos falantes. Os resultados indicam sucesso relativo de ambos os modelos na identificação de fronteiras terminais e não-terminais. O modelo LDA apresentou maior índice de acerto na previsão de fronteiras terminais e não-terminais do que o RF, porém com uma taxa de falsos positivos maior. Verificou-se a validade de utilização de modelos de classificação estatística para a identificação de fronteiras prosódicas; as próximas fases da pesquisa enfocarão o refinamento do treinamento do modelo LDA.


Texto completo:

PDF

Apontamentos

  • Não há apontamentos.