
B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
2016; UNIVERSIDADE DE BRASÍLIA; Volume: 9; Issue: 2 Linguagem: Português
ISSN
1983-5213
Autores Tópico(s)Business and Management Studies
ResumoNesta tese e apresentado um estudo estatistico sobre o agrupamento automatico de artigos cientificos escritos em portugues do Brasil, sao propostos novos metodos de indexacao e agrupamento de textos com o objetivo futuro de desenvolver um software para indexar e agrupar textos por area de conhecimento. Foram testadas tres classes conhecidas de termos simples para representar (indexar) os textos de entrada a agrupar: (substantivos), (substantivos e adjetivos), (substantivos, adjetivos e verbos) e tambem foram desenvolvidas tres novas classes de termos compostos para representacao (indexacao) dos textos: classes de termos mais complexos, onde um termo pode ser composto pela juncao de substantivos, adjetivos e preposicoes. Durante a fase de agrupamento textual dos experimentos foram testados os algoritmos de agrupamento: Expectation-Maximization (EM), X-Means, um Algoritmo Evolucionario de Agrupamento Convencional e, ainda, um novo Algoritmo Evolucionario de Agrupamento Proposto cujo diferencial e trabalhar em duas etapas de processamento: uma etapa para localizacao do agrupamento subotimo generico e outra etapa para melhorar tal solucao. Adicionalmente, o novo algoritmo permite ao usuario definir a formacao de mais grupos ou menos grupos no resultado de agrupamento. Os algoritmos de indexacao e agrupamento propostos foram codificados e implementados em um prototipo denominado B2, no entanto, para testar os algoritmos de agrupamento EM e X-Means foi utilizado o pacote de mineracao de dados WEKA. Quatro corpora de artigos cientificos, diferentes entre si por guardarem artigos de areas cientificas distintas, foram reunidos para testar as combinacoes de indexacao e algoritmo de agrupamento propostas. Melhores resultados de agrupamento (por area de conhecimento dos artigos) foram obtidos utilizando termos compostos na indexacao, ao inves do uso de termos simples, quando combinados com o uso do novo Algoritmo Evolucionario de Agrupamento Proposto, porem, para obter grupos bem formados, um numero excessivo de grupos e gerado pelo prototipo, consumindo alto tempo de computacao para executar tais novos metodos, em um computador pessoal convencional do ano de 2012. Pode-se concluir que o problema de agrupar automaticamente artigos cientificos em suas areas originais e uma tarefa complexa. Logo, acredita-se que os metodos de indexacao e agrupamento desenvolvidos possam ser aprimorados para utilizacao futura em situacoes especificas, onde a fragmentacao e geracao adicional de grupos alem do esperado nao seja um problema maior.
Referência(s)