Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português

Leonel Figueiredo de Alencar


No desenvolvimento de analisadores sintáticos profundos paratextos irrestritos, a principal dificuldade a ser vencida é a modelaçãodo léxico. Tradicionalmente, duas estratégias têm sido usadas paralidar com a informação lexical na análise sintática automática: acompilação de milhares de entradas lexicais ou a formulação decentenas de regras morfológicas. Devido aos processos produtivosde formação de palavras, aos nomes próprios ou a grafias não padrão,a primeira estratégia, que subjaz aos analisadores do português doBrasil (PB) livremente descarregáveis da Internet, não é robusta.A última estratégia, por sua vez, constitui tarefa não trivial deengenharia do conhecimento, consumindo muito tempo. Nomomento, o PB não dispõe de um analisador sintático de amplacobertura licenciado como software livre. Visando aopreenchimento o mais rápido possível dessa lacuna, argumentamosneste artigo que uma solução bem menos custosa e muito maiseficiente para o gargalo lexical consiste em simplesmentereaproveitar, como componente lexical do processamento sintáticoprofundo, etiquetadores morfossintáticos livremente disponíveis. Além disso, graças à ampla e gratuita disponibilidade de corporamorfossintaticamente anotados do PB e eficientes pacotes deaprendizado de máquina, a construção de etiquetadores de altaacurácia adicionais tornou-se uma tarefa que quase não demandaesforço. A fim de integrar facilmente o output de etiquetadores dediferentes arquiteturas em parsers tabulares de gramáticas livresde contexto compilados por meio do Natural Language Toolkit(NLTK), desenvolvemos um módulo em Python denominadoALEXP. Pelo que sabemos, o ALEXP é o primeiro software livreespecialmente otimizado para o processamento do português arealizar essa tarefa. A funcionalidade da ferramenta é descrita pormeio de protótipos de gramática do PB aplicados na análise desentenças do mundo real, com resultados bastante promissores.


Linguística computacional; Processamento automático da linguagem natural; Etiquetagem morfossintática; Etiquetador morfossintático; Análise sintática automática; Gramática livre de contexto; Processamento computacional do português; Aprendizado de máquina


