El pasado viernes asistí a tres charlas que impartó el profesor Francisco Herrera del departamento de CCIA de la Universidad de Granada. En la primera de ellas, «Data Mining: From the Top 10 Algorithms to the New Challenges», el profesor Herrera habló de los 10 mejores algorimos que se aplican a la minería de datos según (ICDM ’06), así como de los 10 mayores retos de la minería de datos actual. La siguente charla, titulada «Data Complexity» estaba dedicada a los intentos de dar fundamento teórico a la minería de datos. Se habló de los modos de caracterizar los conjuntos de datos con el fin de recomendar que algoritmo funciona mejor con un determinado conjunto de datos. La última de las tres conferencias “How must I do my Experimental Study?” trataba los test estadísticos que deben aplicarse a los experimentos en un trabajo de investigación con el fin de justificar, por ejemplo, la calidad de un nuevo algoritmo. Se trató el uso de métodos estadísticos no-paramétricos que funcionan bien en conjuntos de datos que no siguen una distribución normal, cosa que sucede en la mayoría de los problemas reales. Este tipo de test, en palabras del profesor Herrera, empiezan a ser indispensables cuando se quiere publicar en revistas científicas de primer nivel. A continuación aportaré alguna información adicional sobre estas conferencias.
«Data Mining: From the Top 10 Algorithms to the New Challenges»
Lo candidatos al Top 10 debían cumplir algunos requisitos, como por ejemplo que tuviesen como mínimo 50 citas recientes. De los inicialmente propuestos quedaron sólo 18 algoritmos finalistas. Los resultados del estudio fueron publicados en el artículo «Top 10 algorithm in data mining» y posteriormente en un libro con el mismo título. La siguiente tabla muestra a los finalistas clasificados en categorías.
Categoría | Finalistas |
---|---|
Classification | 1. C4.5, 2. CART, 3. K Nearest Neighbours (kNN), 4. Naive Bayes |
Statistical Learning | 5. SVM, 6. EM |
Association Analysis | 7. Apriori, 8. FP-Tree |
Link Mining | 9. PageRank, 10. HITS |
Clustering | 11. K-Means, 12. BIRCH |
Bagging and Boosting | 13. AdaBoost |
Sequential Patterns | 14. GSP, 15. PrefixSpan |
Integrated Mining | 16. CBA |
Rough Sets | 17. Finding reduct |
Graph Mining | 18. gSpan |
En la segunda parte de esta primera charla, se presentaron los 10 grandes retos en minería de datos según (ICDM 2005). No he conseguido más información sobre la fuente del estudio. Ampliaré esta información cuando consiga las transparencias utilizadas en la charla. Los principales desafíos se engloban en las siguientes áreas:
- Teoría. Definición de una teoría unificada ¿por qué funcionan los algoritmos? ¿cuales son los fundamentos del Data Mining?
- Escalabilidad. Algoritmos que manejen gran cantidad de datos a gran velocidad.
- Secuencialidad y series temporales. Técnicas para predecir acontecimientos a partir de datos históricos.
- Datos complejos. Obtención conocimiento complejo a partir de datos complejos.
- Minería de datos en redes sociales.
- Minería de datos en bases de datos distribuidas.
- Minería de datos para problemas biológicos y ambientales
- Procesos de la minería de datos. Automatización, caracterización de los problemas, etc.
- Seguridad, privacidad e integridad.
- Minería de datos sobre datos no estáticos y datos cuya observación sea costosa.
Buscando más información sobre estos desafíos futuros he encontrado un artículo reciente sobre este tema titulado «Future tends in data mining«.
Pretende dar respuesta a la pregunta «dado un problema de clasificación, ¿qué clasificador es mejor para el?». El libro de referencia es Data Complexity in Pattern Recognition. Para poder responder a esa pregunta se necesitan medidas de complejidad de los conjuntos de datos. Podemos encontrar diferentes medida de la complejidad de los datos en el trabajo de Tin Kam Ho, titulado «Measures of Geometrical Complexity in Classification Problems«. Os dejo un enlace a las transparencias de la charla.
“How must I do my Experimental Study?”
Cuando nuestro trabajo de investigación consiste en el desarrollo de un nuevo algoritmo, es muy importante compararlo con con algoritmos de calidad. Muchos artículos son rechazados en revistas de prestigio, cuando se compara un nuevo algoritmo con versiones antiguas de nuestros competidores y no se incluyen comparativas con las últimas versiones más eficientes y precisas. Justificar convenientemente la bondad del nuevo algoritmo utilizando conjuntos de datos conocidos y métodos estadísticos es igualmente importante. En la dirección del grupo de investigación «Soft Computing and Intelligent Information Systems» que dirige el profesor Herrera, podemos encontrar información sobre estos métodos estadísticos y un software desarrollado por el profesor Salvador García, que genera los gráficos para incluir en documentos Latex utilizando a la entrada un fichero en formato CVS.