Um mundo novo na Floresta Sintá(c)tica – o treebank do Português
2008; UNIVERSIDADE DO VALE DO RIO DOS SINOS; Volume: 6; Issue: 3 Linguagem: Português
10.4013/cld.20083.03
ISSN1679-8740
Autores Tópico(s)Linguistics and Education Research
ResumoA Floresta Sinta(c)tica tem como objetivo criar e disponibilizar um corpus sintaticamente anotado. Neste artigo, sao apresentados dois novos materiais do projeto: Selva (300 mil palavras e parcialmente revisto) e Amazonia (3.8 milhoes de palavras, nao revisto). Para lidar com um material tao grande e variado foi construida a interface Milhafre. O artigo mostra, ainda, como vem sendo enfrentado o desafio de compatibilizar, de uma lado, o usuario linguista, que pode ter um perfil muito heterogeneo e, em geral, pouca familiaridade determinadas formalizacoes mais utilizadas em informatica e, de outro, um unico modelo de anotacao sintatica, frequentemente pouco conhecido do lado “linguistico nao-computacional” e uma interface de acesso e manipulacao de corpora capaz de lidar com um objeto tao complexo como a lingua. Palavras-chave: arvores sintaticas, corpus anotado, corpus revisto, busca em corpora.
Referência(s)