B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária

Artigo

Produção Nacional Revisado por pares

B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária

2016; UNIVERSIDADE DE BRASÍLIA; Volume: 9; Issue: 2 Linguagem: Português

ISSN

1983-5213

Autores

Alexandre Ribeiro Afonso,

Tópico(s)

Business and Management Studies

Resumo

Nesta tese e apresentado um estudo estatistico sobre o agrupamento automatico de artigos cientificos escritos em portugues do Brasil, sao propostos novos metodos de indexacao e agrupamento de textos com o objetivo futuro de desenvolver um software para indexar e agrupar textos por area de conhecimento. Foram testadas tres classes conhecidas de termos simples para representar (indexar) os textos de entrada a agrupar: (substantivos), (substantivos e adjetivos), (substantivos, adjetivos e verbos) e tambem foram desenvolvidas tres novas classes de termos compostos para representacao (indexacao) dos textos: classes de termos mais complexos, onde um termo pode ser composto pela juncao de substantivos, adjetivos e preposicoes. Durante a fase de agrupamento textual dos experimentos foram testados os algoritmos de agrupamento: Expectation-Maximization (EM), X-Means, um Algoritmo Evolucionario de Agrupamento Convencional e, ainda, um novo Algoritmo Evolucionario de Agrupamento Proposto cujo diferencial e trabalhar em duas etapas de processamento: uma etapa para localizacao do agrupamento subotimo generico e outra etapa para melhorar tal solucao. Adicionalmente, o novo algoritmo permite ao usuario definir a formacao de mais grupos ou menos grupos no resultado de agrupamento. Os algoritmos de indexacao e agrupamento propostos foram codificados e implementados em um prototipo denominado B2, no entanto, para testar os algoritmos de agrupamento EM e X-Means foi utilizado o pacote de mineracao de dados WEKA. Quatro corpora de artigos cientificos, diferentes entre si por guardarem artigos de areas cientificas distintas, foram reunidos para testar as combinacoes de indexacao e algoritmo de agrupamento propostas. Melhores resultados de agrupamento (por area de conhecimento dos artigos) foram obtidos utilizando termos compostos na indexacao, ao inves do uso de termos simples, quando combinados com o uso do novo Algoritmo Evolucionario de Agrupamento Proposto, porem, para obter grupos bem formados, um numero excessivo de grupos e gerado pelo prototipo, consumindo alto tempo de computacao para executar tais novos metodos, em um computador pessoal convencional do ano de 2012. Pode-se concluir que o problema de agrupar automaticamente artigos cientificos em suas areas originais e uma tarefa complexa. Logo, acredita-se que os metodos de indexacao e agrupamento desenvolvidos possam ser aprimorados para utilizacao futura em situacoes especificas, onde a fragmentacao e geracao adicional de grupos alem do esperado nao seja um problema maior.

Ver no editor

Entrar

Lembrar minha senha

Receber meu e-mail de confirmação

B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária