An analysis on frequency of terms for text categorization

2004; Technical University of Valencia; Volume: 33; Issue: 33 Linguagem: Espanhol

ISSN

1135-5948

Autores

Edgar Moyotl-Hernández, Héctor Jiménez-Salazar,

Tópico(s)

Advanced Text Analysis Techniques

Resumo

Resumen: Presentamos resultados sobre una forma de seleccion de terminos con fines de categorizacion de textos. Usamos el punto de transicion, esto es, la frecuencia de un termino en un texto o coleccion de textos que divide en dos a los terminos: los de alta y baja frecuencia. Se tomaron porcentajes de terminos basados en valores de su frecuencia entre documentos, la ganancia de informacion y la prueba. El desempeno de la categorizacion, entrenando el algoritmo de Rocchio con estos terminos, fue comparado con un recorte hecho a la cantidad de terminos en funcion de su frecuencia comparada con el punto de transicion de la coleccion de entrenamiento. En un experimento, aplicado a la categorizacion de textos en espanol, fueron usados los mencionados criterios de seleccion y se observo una disminucion de terminos, manteniendo al menos el mismo desempeno. En nuestro experimento, el mejor desempeno lo obtuvo la seleccion basada en los valores de frecuencia de terminos entre documentos combinada con el punto de transicion.

Referência(s)