Artigo Acesso aberto Produção Nacional

Índice de Densidade da Clusterização: Uma Nova Métrica para Validação Interna de Agrupamentos

2022; Linguagem: Português

10.5540/03.2022.009.01.0328

ISSN

2359-0793

Autores

Dirceu Scaldelai, Solange R. dos Santos, Luiz Carlos Matioli,

Tópico(s)

Data Mining Algorithms and Applications

Resumo

Neste trabalho propomos uma nova métrica de validação interna de clusterização, o índice de Densidade da Clusterização (índice CD), baseado na máxima razão entre a dispersão interna dos clusters e a separação entre centroides. Visando facilitar a compreensão da nova métrica de validação, a qual foi implementada no Software R, descrevemos detalhadamente sua metodologia e procedimentos, exemplificando cada um dos seus passos por meio de um problema simples, bidimensional, com um número reduzido de observações e uma estrutura bem definida. Na sequência, realizamos experimentos numéricos comparando o índice CD com outras duas métricas de validação já consagradas na literatura, o índice DB e o coeficiente de silhueta. Resultados preliminares revelaram que o índice CD é eficiente para avaliar clusterização de dados multidimensionais, uma vez que apresentou uma concordância substancial com o índice DB, a um custo de execução similar, e uma concordância significativa com o coeficiente de silhueta, a um custo execução consideravelmente menor. Sendo assim, os resultados evidenciam a boa qualidade do índice CD como métrica de validação interna para clusterização de dados multidimensionais.

Referência(s)