O léxico do corpo e anotação de sentidos em grandes corpora: o projeto Esqueleto

Cláudia Freitas, Diana Santos, Cristina Mota, Bruno Carriço, Heidi Jansen

Abstract


Resumo: Apresentamos aqui os resultados iniciais de um amplo estudo sobre o léxico do corpo humano e os seus sentidos, realizado por meio da anotação e revisão de corpora de grandes  dimensões. Ao longo do artigo explicitamos as decisões linguísticas subjacentes à anotação, relatamos o resultado de um estudo sobre as classes de anotação e exploramos o vasto material criado: um corpus de entrevistas (1,4 milhão de palavras) e um corpus literário (1,2 milhão de palavras) anotados e integralmente revistos, e demais corpora do projeto, parcialmente revistos. Todo o material está publicamente disponível para a comunidade.

Palavras-chave: corpo humano; léxico; anotação semântica; corpus; descrição do português.

Abstract: This paper presents the first results of a broad study regarding the lexicon of the human body. The study was based on the annotation of large corpora of Portuguese language. We explain the linguistic annotation choices, present the results of an agreement study and explore the material made available: a corpus of interviews (1.4 million words) and a literary corpus (1.2 million words) full annotated and revised, and the remained corpora partially revised. The whole material is publicly available.

Keywords: Human Body; Lexicon; Sense Annotation; Corpus Linguistics; Portuguese.


Keywords


Human Body; Lexicon; Sense Annotation; Corpus Linguistics; Portuguese.

References


ARROJO, Rosemary; RAJAGOPALAN, Kanavillil. Noção de literalidade: metáfora primordial. In: ARROJO, Rosemary (Org.). O signo desconstruído. São Paulo: Pontes, 1992. p. 47-56.

BAPTISTA, Jorge. Body-part nouns and local grammars. In: DISTER, Anne. (Ed.). Révue d'Informatique et Statistiques en Sciences Humaines, v. 36, p. 53-66, 2000.

BICK, Eckhard. The Parsing System “Palavras”: Automatic Grammatical Analysis of Portuguese in a Constraint Grammar Framework. Aarhus, Denmark: Aarhus University Press, 2000.

BUTLER, Judith. Corpos que pesam. In: LOURO, Guacira Lopes (Org). O corpo educado: Pedagogias da sexualidade. Belo Horizonte: Autêntica, 2000. p.110-125.

CARVALHO, Paula; SARMENTO, Luis; TEIXEIRA, Jorge; SILVA, Mário J. Liars and Saviors in a Sentiment Annotated Corpus of Comments to Political Debates. In: ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS: HUMAN LANGUAGE TECHNOLOGIES, 49, 2011, Stroudsburg, PA, USA. Proceedings…, v. 2. Stroudsburg: Association for Computational Linguistics, 2011. p. 564-568.

COSTA, Luís; SANTOS, Diana; ROCHA, Paulo. Estudando o português tal como é usado: o serviço AC/DC. In: BRAZILIAN SYMPOSIUM IN INFORMATION AND HUMAN LANGUAGE TECHNOLOGY – STIL, 7, 2009, São Carlos. Proceedings… São Carlos: Universidade de São Paulo, 2009.

DODDINGTON, George; MITCHELL, Alexis; PRZYBOCKI, Mark; RAMSHAW, Lance; STRASSEL, Stephanie; WEISCHEDEL, Ralph The Automatic Content Extraction (ACE) Program: Tasks, Data, and Evaluation. In: INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION, 4, 2004, Lisboa. Proceedings of LREC'2004. Ed. M. T. Lino; M. F. Xavier; F. Ferreira; R. Costa; R. Silva, Lisboa, Portugal: Universidade Nova de Lisboa, 2004. p. 837-40.

DURAN, Magali S.; ALUÍSIO, Sandra M. Propbank-Br: a Brazilian Treebank annotated with semantic role labels. In: INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION, 8, 2012, Istanbul. Proceedings of LREC'2012. Ed.: N. Calzolari; K. Choukri; T. Declerck; M. U. Dogan; B. Maegaard; J. Mariani; J. Odijk; A. Moreno; S. Piperidis. Istanbul: Lüfti Kirdar Convention & Exhibition Centre, 2012. p. 1862-1867.

ECO, Umberto. Semiótica e filosofia da linguagem. São Paulo: Ática, 1991.

FREITAS, Cláudia. Esqueleto: anotação das palavras do corpo humano. Primeira edição: 15 nov. 2013. Disponível em: http://www.linguateca.pt/acesso/Esqueleto/Esqueleto.html

FREITAS, Cláudia; MOTTA, Eduardo; MILIDIÚ, Ruy L.; CÉSAR, Juliana. Sparkling Vampire... lol! Annotating Opinions in a Book Review Corpus. In: ALUÍSIO, Sandra; TAGNIN, Stella E. (Ed.). New Language Technologies and Linguistic Research: A Two-Way Road. Cambridge Scholars Publishing, 2014, p. 128-146.

FREITAS, Cláudia; SANTOS, Diana; SILVA, Rosario. (2012). Corpos e cores: colorindo a descrição da língua portuguesa. In: ENCONTRO DE LINGUÍSTICA DE CORPUS: ASPETOS METODOLÓGICOS DOS ESTUDOS DE CORPORA, 10, 2012, Belo Horizonte. Anais... Ed.: D. P. Dutra; H. R. Mello. Belo Horizonte: Faculdade de Letras da UFMG, 2012. p. 76-99.

FREITAS, Cláudia, ROCHA, Paulo; BICK, Eckhard. Um mundo novo na Floresta Sintá(c)tica – o treebank para Português. Calidoscópio, v. 6.3, p. 142-148, 2008. DOI: http://dx.doi.org/10.4013/cld.20083.03

GREINER, Christine. O Corpo – Pistas para estudos indisciplinares. São Paulo: Ed. Annablume, 2005.

KINGSBURY, Paul; PALMER, Martha, MARCUS, Mitch. Adding Semantic Annotation to the Penn TreeBank. In: THE HUMAN LANGUAGE TECHNOLOGY CONFERENCE, 2002, San Diego. Proceedings… San Diego, CA, USA, 2002.

KURIYAMA, Shigehisa. The Expressiveness of the Body, and the Divergence of Greek and Chinese Medicine. New York: Zone Books, 1999.

LAKOFF, George; JOHNSON, Mark. Metaphors we Live By, Chicago: The University of Chicago Press. 1980.

LEITÃO DE ALMEIDA, M. L. et al. (Org.) A hipótese de corporificação da categorização e do léxico. In: LEITÃO DE ALMEIDA, Maria Lúcia et al. (org.). Linguística Cognitiva em foco: morfologia e semântica do português. Rio de Janeiro: Publit, 2009, p. 187-204.

MAALEJ, Zouheir A.; YU, Ning (Ed.). Embodiment via Body Parts: Studies from Various Languages and Cultures. Human Cognitive Processing, v. 31. Amsterdam and Philadelphia: John Benjamins, 2011. DOI: http://dx.doi.org/10.1075/hcp.31

MAIA, Belinda; SANTOS, Diana. Emotions in Language, PhD-course, University of Oslo, 1-5 Jun. 2015. (Mimeo)

MANNING, Christopher; SCHÜTZE, Hinrich. Foundations of Statistical natural language processing. Cambridge, MA: The MIT Press, 1999.

MARTINS, Helena. Wittgenstein, the body, its metaphors. D.E.L.T.A., São Paulo, v. 26, p. 479 – 501, 2010. (Edição Especial)

MATTOSO CÂMARA JR, J. Dicionário de Linguística e Gramática. Editora Vozes, 1984.

MOTA, Cristina; SANTOS, Diana (Ed.). Desafios na avaliação conjunta do reconhecimento de entidades mencionadas: o segundo HAREM. Linguateca, 2008. Disponível em: http://www.linguateca.pt/LivroSegundoHAREM/

MOTA, Cristina; SANTOS, Diana. Emotions in natural language: a broad-coverage perspective. Linguateca, Jan. 2015. Disponível em: http://www.linguateca.pt/acesso/EmotionsBC.pdf.

ORSI, Vivian; ZAVAGLIA, Claudia. Expressões idiomáticas interditas: uma proposta lexicográfica bilíngue. Linguasagem Revista Eletrônica de Popularização Científica em Ciências da Linguagem, v. 11, p. 1-17, 2010.

PALMER, Martha; GILDEA, Dan; KINGSBURY, Paul. The Proposition Bank: A Corpus Annotated with Semantic Roles. Computational Linguistics Journal, v. 31, n. 1, p. 71-106, 2005.

PIAO, S.; ARCHER, D.; MUDRAYA, O.; RAYSON, P.; GARSIDE, R.; McENERY, A.; WILSON, A. A large semantic lexicon for corpus annotation. In: CORPUS LINGUISTICS CONFERENCE, 2005, Birmingham. Proceedings… Series on-line e-journal, v. 1, n. 1, Birmingham, UK, July 14-17, 2006. ISSN 1747-9398.

PINTO, Joana P. Conexões teóricas entre performatividade, corpo e identidades. D.E.L.T.A., São Paulo, v. 23, n. 1, p. 1-26, 2007.

RASO, Tomaso; MELLO, Heliana. (Org.). C-ORAL-BRASIL I. Corpus de referência do português brasileiro falado informal. Belo Horizonte: Editora UFMG, 2012.

SANTOS, Diana. Podemos contar com as contas? In: ALUÍSIO, Sandra Maria; TAGNIN, Stella E. O. (Ed.). New Language Technologies and Linguistic Research: A Two-Way Road. Cambridge Scholars Publishing, 2014, p. 194-213.

SANTOS, Diana. Comparando corpos orais (transcritos) e escritos na Gramateca. In: PARLER LES LANGUES ROMANES / PARLARE LE LINGUE ROMANZE / HABLAR LAS LENGUAS ROMANCES / FALANDO LÍNGUAS ROMÂNICAS. Napoli. Atti del convegno internazionale GSCP 2014. Ed.: Camilla Bardel; Anna De Meo. Napoli: Università di Napoli L'Orientale, Il Torcoliere, no prelo.

SANTOS, Diana. Gramateca: corpus-based grammar of Portuguese. In: In: INTERNATIONAL CONFERENCE – PROPOR – COMPUTATIONAL PROCESSING OF THE PORTUGUESE LANGUAGE, 11, Oct. 6-8, 2014. Proceedings... Ed. J. Baptista; N. Mamede; S. Candeias; I. Paraboni; T. Pardo; Maria das Graças V. Nunes. São Carlos: Springer, Heidelberg, 2014. p. 214-219.

SANTOS, Diana; MOTA, Cristina. A admiração à luz dos corpos. In: SIMÕES, A.; BARREIRO, A.; SANTOS, Diana; SOUSA-SILVA, R.; TAGNIN, Stella E. O. (Ed.) Linguística, Informática e Tradução: Mundos que se Cruzam. Homenagem a Belinda Maia, OSLa, v. 7, n. 1, p. 57-77, 2015.

SANTOS, Diana; SILVA, Rosário; FREITAS, Cláudia. Pluralidades na cor: contrastando a língua do Brasil e de Portugal. In: SOARES DA SILVA, Augusto; TORRES, Amadeu; GONÇALVES, Miguel. (Ed.). Línguas Pluricêntricas: Variação Linguística e Dimensões Sociocognitivas. [Pluricentric Languages: Linguistic Variation and Sociocognitive Dimensions.] Braga: Aletheia, Publicações da Faculdade de Filosofia da Universidade Católica Portuguesa, 2011. p. 555-572.

SANTOS, Diana; MARQUES, R; FREITAS, Cláudia; SIMÕES, A.; MOTA, Cristina. Comparando anotações linguísticas na Gramateca: filosofia, ferramentas e exemplos. Domínios de Lingu@gem, v. 9, n. 3, 2015.

SANTOS, Diana; MOTA, Cristina. Experiments in human-computer cooperation for the semantic annotation of Portuguese corpora. In: INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION (LREC), 7, 2010, Valletta, Malta. Proceedings… Ed. N. Calzolari; K. Choukri; B. Maegaard; J. Mariani; J. Odjik; S. Piperidis; M. Rosner; D. Tapias (Ed.). Valletta, Malta: Mediterranean Conference Centre, 2010. p. 1437-1444.

SILVA, Rosário; SANTOS, Diana. Arco-íris: notas sobre a anotação do campo semântico da cor em português. 16 ago. 2012. Disponível em: http://www.linguateca.pt/acesso/ArcoIris.pdf.

SINCLAIR, J. Corpus, concordance, collocation: Describing English language. Oxford: Oxford University Press, 1991.

SOARES DA SILVA, Augusto. Metáfora, Metonímia e Léxico. Diacrítica, v. 7, p. 313-330, 1992.

VALE, Oto. As opiniões nas expressões e a expressão da opinião. In: LAPORTE, Éric; SMARSARO, Aucione; VALE, Oto. (Org.). Dialogar é preciso: Linguística para processamento de línguas. Vitória: PPGEL/UFES, 2013. p. 259-267.

VILLENA ROMÁN, J.; GARCÍA MORERA, J.; MARÍNEZ CÁMARA, E.; JIMÉNEZ ZAFRA, S. M. TASS 2014 – The Challenge of Aspect-based Sentiment Analysis. Procesamiento del Lenguage Natural, v. 54, p. 61-68, marzo 2015.

WIEBE, Janyce; WILSON, Theresa; CARDIE, Claire. Annotating expressions of opinions and emotions in language. Language Resources and Evaluation, v. 39, n. 2-3, p. 165-210, 2005.

XATARA, Claudia M.; RIVA, Huelinton. C.; RIOS, Tatiane H. C. As dificuldades na tradução de idiomatismos. Cadernos de Tradução, Florianópolis, NUT, v. 8, p. 183-194, 2002.




DOI: http://dx.doi.org/10.17851/2237-2083.23.3.641-680

Refbacks

  • There are currently no refbacks.
';



Copyright (c) 2015 REVISTA DE ESTUDOS DA LINGUAGEM



e - ISSN 2237-2083 

License

Licensed through  Creative Commons Atribuição 4.0 Internacional