O léxico do corpo e anotação de sentidos em grandes corpora: o projeto Esqueleto

Cláudia Freitas, Diana Santos, Cristina Mota, Bruno Carriço, Heidi Jansen


Resumo: Apresentamos aqui os resultados iniciais de um amplo estudo sobre o léxico do corpo humano e os seus sentidos, realizado por meio da anotação e revisão de corpora de grandes  dimensões. Ao longo do artigo explicitamos as decisões linguísticas subjacentes à anotação, relatamos o resultado de um estudo sobre as classes de anotação e exploramos o vasto material criado: um corpus de entrevistas (1,4 milhão de palavras) e um corpus literário (1,2 milhão de palavras) anotados e integralmente revistos, e demais corpora do projeto, parcialmente revistos. Todo o material está publicamente disponível para a comunidade.

Palavras-chave: corpo humano; léxico; anotação semântica; corpus; descrição do português.

Abstract: This paper presents the first results of a broad study regarding the lexicon of the human body. The study was based on the annotation of large corpora of Portuguese language. We explain the linguistic annotation choices, present the results of an agreement study and explore the material made available: a corpus of interviews (1.4 million words) and a literary corpus (1.2 million words) full annotated and revised, and the remained corpora partially revised. The whole material is publicly available.

Keywords: Human Body; Lexicon; Sense Annotation; Corpus Linguistics; Portuguese.


