Evaluación del clustering de páginas web mediante funciones de peso y combinación heurística de criterios

2005; Technical University of Valencia; Volume: 35; Issue: 35 Linguagem: Inglês

ISSN

1135-5948

Autores

Arantza Casillas, Víctor Fresno, Raquel Martínez Unanue, Soto Montalvo Herranz,

Tópico(s)

Text and Document Classification Technologies

Resumo

Resumen: El clustering de paginas web facilita, entre otras tareas, la valoracion y busqueda de resultados de un buscador de paginas web. Uno de los aspectos clave del proceso de clustering es la funcion de peso que se aplica a los rasgos seleccionados para representar dichas paginas. Este art´iculo presenta la evaluacion de los resultados de un algoritmo de clustering de particion sobre una coleccion de referencia de paginas web, utilizando siete funciones de peso distintas y dos tipos de reduccion de rasgos. Se han comparado cinco funciones bien conocidas, basadas ´ en el contenido textual de las paginas web, con otras dos funciones de peso basadas en una combinacion heur´istica de criterios, entre los que destaca la utilizacion de la informacion de las anotaciones HTML. Estas doshan sido propuestas, por parte de uno de los autores, en trabajos anteriores. Se ha comprobado que los mejores resultados se obtienen con la funcion que combina en forma borrosa este tipo de criterios. Palabras clave: clustering de paginas web, funciones de peso, representacion de paginas web, combinacion borrosa de criterios Abstract: Web page clustering can help in the evaluation and search of the results of search engines, among other things. The dierent term weighting functions applied to the selected features to represent web pages is a main aspect in clustering task. In this paper, seven dierent term weighting functions are evaluated by means of the results of a partitioning clustering algorithm, with a reference web page collection. In addition, two feature reduction methods are applied. Five of them are well-known term weighting functions from text content analysis; the other two are based on a heuristic criteria combination, which consider HTML mark-up information. These two representations have been proposed in previous works by one of the authors. We have verified that the best results are obtained when the term weighting function based on a fuzzy criteria combination is used.

Referência(s)