Artigo Revisado por pares

Corpora comparáveis e variação lexical nas variedades africanas do português

2006; UNIVERSIDADE EST.PAULISTA JÚLIO DE MESQUITA FILHO; Volume: 50; Issue: 2 Linguagem: Português

ISSN

1981-5794

Autores

María Fernanda Bacelar do Nascimento,

Tópico(s)

Natural Language Processing Techniques

Resumo

Neste artigo sao apresentados resultados de um projecto de constituicao de corpora orais e escritos das cinco variedades africanas do portugues (Angola, Cabo Verde, Guine-Bissau, Mocambique e Sao Tome e Principe) e de extraccao dos respectivos lexicos. Os cinco corpora , que no total perfazem 3.200.124 palavras, sao comparaveis em dimensao, constituicao interna e cronologia. Com a realizacao deste trabalho, pretendeu-se dar uma contribuicao para colmatar uma grave lacuna no que respeita aos Recursos Linguisticos ( corpora e lexicos) existentes para o portugues. Existiam ja, em elevado numero e grandes dimensoes, corpora e lexicos das variedades europeia e brasileira do portugues, mas eram quase inexistentes (se excluirmos Mocambique) Recursos Linguisticos semelhantes para as variedades africanas que permitissem analises objectivas de cada uma delas e que, pela sua comparabilidade permitissem estudos contrastivos entre essas variedades ou entre elas e o portugues europeu ou do Brasil. O projecto, intitulado Recursos Linguisticos para o Estudo das Variedades Africanas do Portugues, foi executado pelo grupo Linguistica de Corpus do Centro de Linguistica da Universidade de Lisboa – CLUL e por uma equipa do Centro de Fisica Teorica e Computacional da mesma universidade, tendo sido acompanhado pela consultora do projecto, Perpetua Goncalves, da Universidade mocambicana Eduardo Mondlane.

Referência(s)