Anotação de sentidos de verbos em textos jornalísticos do corpus CSTNews
Abstract
Resumo: Um dos problemas mais difíceis de serem tratados no Processamento de Linguagem Natural (PLN) é a ambiguidade lexical, pois as palavras podem expressar sentidos distintos de acordo com o contexto no qual elas ocorrem. Em PLN, a tarefa responsável por determinar o sentido adequado de uma palavra em contexto é a Desambiguação Lexical de Sentido (DLS). Nessa tarefa, o uso de corpus anotado é muito útil, pois esse recurso linguístico computacional permite o estudo mais aprofundado da ambiguidade, assim como o desenvolvimento e a avaliação de métodos de DLS. O presente trabalho relata o processo de anotação de sentidos dos verbos em textos jornalísticos presentes no corpus CSTNews, usando-se a WordNet de Princeton como repositório de sentidos. As contribuições deste trabalho incluem a disponibilização de um recurso linguístico que serve de base para futuras pesquisas em DLS para o português, além de detalhar o processo de anotação e seus resultados.
Palavras-chave: Linguística de Corpus; Desambiguação Lexical de Sentido; Português Brasileiro.
Abstract: One of the hardest problems in Natural Language Processing (NLP) is the lexical ambiguity, as words may express different senses depending on the context in which they occur. In NLP, Word Sense Disambiguation (WSD) is the task that aims at determining the proper meaning of a word in its context. In this task, the use of a sense annotated corpus is useful because this RELIN, v. 23, Edição Especial, 2015. 799 computational linguistic resource enables further study of the ambiguity phenomenon and the development and evaluation of WSD methods. This paper describes the verb sense annotation process in news texts in the CSTNews corpus, using Princeton WordNet as sense repository. Besides detailing the annotation process and its results, the contributions of this work include the availability of a linguistic resource that may be the basis for future research in WSD for Portuguese.
Keywords: Corpus Linguistics; Word Sense Disambiguation; Brazilian Portuguese.
Keywords
Full Text:
PDF (Português (Brasil))References
AIRES, R.V.X. Implementação, adaptação, combinação e avaliação de etiquetadores para o português do Brasil. 2000. 166 p. Dissertação. (Mestrado) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Paulo, 2000.
AKKAYA, C.; WIEBE, J.; MIHALCEA, R. Subjectivity Word Sense Disambiguation. In: CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, 2009, Singapore. Proceedings… Singapore: Association for Computational Linguistics, 2009. p. 190-199. DOI: http://dx.doi.org/10.3115/1699510.1699535
ALEIXO, P.; PARDO, T.A.S. CSTNews: um corpus de textos jornalísticos anotados segundo a teoria discursiva multidocumento CST (Cross-document Structure Theory). Série de Relatórios Técnicos do Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, n. 326, São Carlos, SP, 2008.
AZEREDO, J. C. Fundamentos de Gramática do Português. 1. ed. São Paulo: Jorge Zahar, 2000.
BAPTISTA J. ViPEr: A Lexicon-Grammar of European Portuguese Verbs. In: INTERNATIONAL CONFERENCE ON LEXIS AND GRAMMAR, 31, 2012, Nové Hrady. Proceedings… Jan Radimsky, Nové Hrady, Czech Republic, 2012. p. 10-16.
CARDOSO, P. C. F.; MAZIERO, E. G.; JORGE, M. L. C.; SENO, E. M. R.; DI FELIPPO, A.; RINO, L. H. M.; NUNES, M. G. V.; PARDO, T. A. S. CSTNews – a discourse-annotated corpus for single and multi-document summarization of news texts in Brazilian Portuguese. In: RST BRAZILIAN MEETING, 3, 2011, Cuiabá. Proceedings… Cuiabá, Sociedade Brasileira de Computação, 2011. p. 88-105.
CARLETTA, J. C. Assessing agreement on classification tasks: the Kappa statistic. Computational Linguistics, Cambridge, v. 22, n. 2, p. 249-254, 1996.
DE PAIVA, V.; RADEMAKER, A.; DE MELO, G. OpenWordNet-PT: An Open Brazilian Wordnet for Reasoning. In: COLING, 2012, Mumbai. Proceedings… Demonstration Papers, The COLING 2012 Organizing Committee, 2012. p. 353-360.
DIAS DA SILVA, B. C. A construção da base da WordNet.br: Conquistas e desafios. In: WORKSHOP IN INFORMATION AND HUMAN LANGUAGE TECHNOLOGY, 3, 2005; CONGRESSO DA SOCIEDADE BRASILEIRA DE COMPUTAÇÃO, 25, 2005. São Leopoldo. Proceedings… 2005, p. 2238-2247.
DIAS DA SILVA, B. C.; DI FELIPPO, A.; NUNES, M. G. V. The automatic mapping of Princeton WordNet lexical-conceptual relations onto the Brazilian Portuguese WordNet database. In: INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION, 6, 2008, Marrakech. Proceedings… Marrakech: European Language Resources Association, 2008. p. 1535-1541.
DI FELIPPO, A. Delimitação e Alinhamento de Conceitos Lexicalizados no Inglês Norte-americano e no Português Brasileiro. 2008. 253 p. Tese, Faculdade de Ciências e Letras, Universidade Estadual Paulista, São Paulo, 2008.
DURAN, M. S.; RAMISCH, C.; ALUÍSIO, S. M.; VILLAVICENCIO, A. Identifying and Analyzing Brazilian Portuguese Complex Predicates. In: WORKSHOP ON MULTIWORD EXPRESSIONS: FROM PARSING AND GENERATION TO THE REAL WORLD, 2011, Portland. Proceedings… Portland, US: Association for Computational Linguistics, 2011. p. 74-82.
DURAN, M. S.; ALUÍSIO, S. M. Automatic Generation of a Lexical Resource to support Semantic Role Labeling in Portuguese. In: THE FOURTH JOINT CONFERENCE ON LEXICAL AND COMPUTATIONAL SEMANTICS, 2015, Denver, Colorado. Proceedings… Denver, Colorado, 2015. p. 216-221.
FELLBAUM, C. WordNet An Eletronic Lexical Database. 1. ed. Cambridge. MIT Press, 1998.
FILLMORE, C.J. The Case for Case. E. Bach and R. T. Harms, eds., Universals in linguistic theory, New York, Holt, Rinehart & Winston, 1968.
GONÇALO OLIVEIRA, H.; ANTÓN PÉREZ, L.; GOMES, P. Integrating lexical-semantic knowledge to build a public lexical ontology for Portuguese. In: INTERNATIONAL CONFERENCE ON APPLICATIONS OF NATURAL LANGUAGE PROCESSING AND INFORMATION SYSTEMS, 17, 2012, Berlin. Proceedings… Berlin: Springer-Verlag, 2012. p. 210-215.
DOI: http://dx.doi.org/10.1007/978-3-642-31178-9_23
IDE, N.; VÉRONIS, J. Introduction to the special issue on word sense disambiguation: the state of the art. Computational Linguistics, Cambridge, v. 24, n. 1, p. 2-40, 1998.
JURAFSKY, D.; MARTIN, J. H. Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics. 2 ed. Englewood Cliffs, New Jersey: Prentice-Hall, 2009.
KUCERA, H.; FRANCIS, W.N. Computational analysis of present-day American English. 2. ed. Providence: Brown University Press, 1967.
MACHADO, I. M.; DE ALENCAR, R. O.; CAMPOS, R.; DAVIS, C. A. An ontological gazetteer and its application for place name disambiguation in text. Journal of the Brazilian Computer Society, v. 17, n. 4, p. 267-279, 2011. DOI: http://dx.doi.org/10.1007/s13173-011-0044-4
MAZIERO, E. G.; PARDO, T. A. S.; DI FELIPPO, A.; DA SILVA, B. C. D. A base de dados lexical e a interface web do tep 2.0 – thesaurus eletrônico para o português do Brasil. In: WORKSHOP EM TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA, 6, 2008, Vila Velha, ES. Anais... (TIL 2008) Vila Velha, 2008. p. 390-392.
MILLER, G. A.; BECKWITH, R.; FELLBAUM, C.; GROSS, D.; MILLER, K. J. Introduction to WordNet: An online lexical database. International Journal of Lexicography, v. 3, n. 4, p. 235-244, 1990. DOI: http://dx.doi.org/10.1093/ijl/3.4.235
NÓBREGA, F. A. A. Desambiguação Lexical de sentidos para o português por meio de uma abordagem multilíngue mono e multidocumento. 2013. 106 p. Dissertação (Mestrado) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Paulo, 2013.
NÓBREGA, F. A. A.; PARDO, T. A. S. General Purpose Word Sense Disambiguation Methods for Nouns in Portuguese. In: INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING OF PORTUGUESE, 11, 2014, São Carlos, SP. Proceedings of the PROPOR 2014 PhD and MSc/MA Dissertation Contest, São Carlos, 2014. p. 94-101.
PLAZA, L.; DIAZ, A. Using semantic graphs and word sense disambiguation techniques to improve text summarization. In: CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL, 27, 2011, Huelva. Proceedings… Huelva, España, 2011. p. 97-105.
PRADHAN, S. S.; HOVY, E.; MARCUS, M.; PALMER, M.; RAMSHAW, L.; WEISCHEDEL, R. OntoNotes: A Unified Relational Semantic Representation. In: INTERNATIONAL CONFERENCE ON SEMANTIC COMPUTING, 4, 2007. Proceedings… Irvine, CA: IEEE, 2007. p. 517-526. DOI: http://dx.doi.org/10.1109/icsc.2007.83
RATNAPARKHI, A. A Maximum Entropy Part-Of-Speech Tagger. In: EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING CONFERENCE, 1996, Pennsylvania. Proceedings… Pennsylvania, 1996. p. 133-142.
RIBEIRO, R. Anotação Morfossintáctica Desambiguada do Português. 2003. 78 p. Dissertação. (Mestrado) – Instituto Superior Técnico, Universidade Técnica de Lisboa, Lisboa, 2003.
ROCHA, P. A.; SANTOS, D. CETEMPúblico: Um corpus de grandes dimensões de linguagem jornalística portuguesa. In: ENCONTRO PARA O PROCESSAMENTO COMPUTACIONAL DA LÍNGUA PORTUGUESA ESCRITA E FALADA, 5, 2000. Conferências... Atibaia: Maria das Graças Volpe Nunes ed., 2000. p. 131-140.
SCARTON, C. E. VerbNet.Br: construção semiautomática de um léxico verbal online e independente de domínio para o português do Brasil. 2013. 242 p. Dissertação (Mestrado) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Paulo, 2007.
SPECIA, L. Uma abordagem híbrida relacional para a desambiguação lexical de sentido na tradução automática. 2007. 245 p. Tese (Doutorado) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Paulo, 2007.
SOBREVILLA-CABEZUDO, M. A.; MAZIERO, E. G.; SOUZA, J. W. C.; DIAS, M. S.; CARDOSO, P. C. F.; BALAGE FILHO, P. P.; AGOSTINI, V.; NÓBREGA, F. A. A.; DE BARROS, C. D.; DI FELIPPO, A.; PARDO, T. A. S. Anotação de Sentidos de Verbos em Notícias Jornalísticas em Português do Brasil. Série de Relatórios Técnicos do Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, n. 402. São Carlos, SP, 2014.
TRAVANCA, T. Verb Sense Disambiguation. 2013. 72 p. Dissertação (Mestrado) – Instituto Superior Técnico, Universidade Técnica de Lisboa, Lisboa, 2013.
ZILIO, L. Verblexpor: um recurso léxico com anotação de papéis semânticos para o português. 2015. 196 p. Tese (Doutorado em Linguística) – Instituto de Letras, Universidade Federal do Rio Grande do Sul, Rio Grande do Sul, 2015.
DOI: http://dx.doi.org/10.17851/2237-2083.23.3.797-832
Refbacks
- There are currently no refbacks.
Copyright (c) 2015 REVISTA DE ESTUDOS DA LINGUAGEM
e - ISSN 2237-2083
Licensed through Creative Commons Atribuição 4.0 Internacional