Artigo Acesso aberto Produção Nacional Revisado por pares

Reflexões sobre anotação sintática e ferramentas de busca - Uso da linguagem XML para anotação sintática no corpus digital DOViC

2014; EDUFU; Volume: 30; Issue: 2 Linguagem: Português

10.14393/ll60-v30n2a2014-5

ISSN

1981-5239

Autores

Cristiane Namiuti-Temponi, Aline Costa,

Tópico(s)

Lexicography and Language Studies

Resumo

Este trabalho faz reflexões acerca do uso da linguagem XML como alternativa ao formato Penn TreeBank para anotação sintática no corpus digital DOViC, uma vez que esta linguagem já é utilizada para a anotação de edições e de informações morfológicas neste corpus. Assim, uma única tecnologia pode ser usada para os diversos tipos de buscas automáticas. Para uma experimentação da anotação sintática com XML, implementamos um programa que faz a conversão do formato Penn TreeBank para a linguagem alvo, e foram realizadas algumas pesquisas sintáticas com a linguagem XPath, uma linguagem de consulta para a tecnologia XML. As buscas realizadas foram comparadas com as mesmas buscas feitas na ferramenta Corpus Search, uma ferramenta específica para o formato Penn TreeBank. O uso de XML para todas as representações favorece a criação de recursos padronizados, que podem ser reutilizados, facilitando a extração de dados de corpora. A disponibilidade de anotação usando um padrão como XML também oferece independência tecnológica a outros grupos pesquisadores interessados no corpus.Â

Referência(s)
Altmetric
PlumX