
Comparação entre abordagens escaláveis para o processamento de conjuntos de dados textuais
2017; Volume: 24; Issue: 1 Linguagem: Português
10.22456/2175-2745.65827
ISSN2175-2745
AutoresGustavo de P. Avelar, Murilo Coelho Naldi,
Tópico(s)Data Mining Algorithms and Applications
ResumoDataAnalyticséumconceitovoltadoaanálisedegrandesquantidades de dados em busca de padrões e informações relevantes. A manipulação desses da- dos é complexa e exige métodos automáticos capazes de processar grandes volumes de dados exigindo poder computacional para obtenção de informações em tempo há- bil. O modelo de programação MapReduce surgiu para auxiliar a distribuição desses problemas entre várias máquinas, melhorando a eficiência em seu processamento. As plataformas Apache Hadoop e Spark possibilitam a utilização deste paradigma em ambientes de hardware commodities. O agrupamento de dados tem como objetivo determinar um conjunto finito de categorias para descrever um conjunto de dados de acordo com as características similares dos objetos do conjunto de dados. Diferen- tes estratégias para pré-processamento influenciam os resultados da etapa de agrupa- mento de dados. Deste modo, este trabalho trata do estudo de diferentes métodos de pré-processamento de documentos textuais, visando alcançar representações que pro- porcionem bons resultados à etapa de agrupamento. Nele, propomos uma abordagem para seleção de atributos embasado no algoritmo Latent Dirichlet Allocation (LDA).
Referência(s)