Medidas de Performance
Ejemplo: detector despam. Clase = {mail, spam}
Matriz de confusión
–100 datos de test: 50 spam y 50 mails.
spam | ||
---|---|---|
40 (tn) | 5 (fn) | |
spam | 10 (fp) | 45 (tp) |
Valor realtp= true positivefp= false positive
Valortn= true negativepredichofn= false negative
Accuracy(% de aciertos) = (tp + tn) / total = 0.85
Precisión= tp / (tp + fp) = 45 / (45 + 10)= 0.82
Recall= tp / (tp + fn) = 45 / (45 + 5)= 0.90
_F-_measure= (2 · precision · recall) / (precision + recall) = 0.86
Experimentación con Clasificadores en Weka
Algunos clasificadores para probar:
weka.classifiers.trees.J48(Arboles de decisión: C4.5)
weka.classifiers.bayes.NaiveBayes
weka.classifiers.rules.JRip(Aprendizaje de reglas: Ripper)
weka.classifiers.functions.SMO(Support Vector Machines)
1) Transforma los datos a un espacio de dimensión superior.
2) Clasifica los datos mediante un hiperplano en esa dimensión.
Entrenamiento muy costoso. Muy buenos resultados.
http://www.youtube.com/watch?v=3liCbRZPrZA●Usarcross-validation: 5 fold, 10 fold.