Conferencias en el Máster en Tecnologías Informáticas Avanzadas de la UHU

El pasado viernes asistí a tres charlas que impartó el profesor Francisco Herrera del departamento de CCIA de la Universidad de Granada. En la primera de ellas, “Data Mining: From the Top 10 Algorithms to the New Challenges”, el profesor Herrera habló de los 10 mejores algorimos que se aplican a la minería de datos según (ICDM ’06), así como de los 10 mayores retos de la minería de datos actual. La siguente charla, titulada “Data Complexity” estaba dedicada a los intentos de dar fundamento teórico a la minería de datos. Se habló de los modos de caracterizar los conjuntos de datos con el fin de recomendar que algoritmo funciona mejor con un determinado conjunto de datos. La última de las tres conferencias “How must I do my Experimental Study?” trataba los test estadísticos que deben aplicarse a los experimentos en un trabajo de investigación con el fin de justificar, por ejemplo, la calidad de un nuevo algoritmo. Se trató el uso de métodos estadísticos no-paramétricos que funcionan bien en conjuntos de datos que no siguen una distribución normal, cosa que sucede en la mayoría de los problemas reales. Este tipo de test, en palabras del profesor Herrera, empiezan a ser indispensables cuando se quiere publicar en revistas científicas de primer nivel. A continuación aportaré alguna información adicional sobre estas conferencias.

“Data Mining: From the Top 10 Algorithms to the New Challenges”

Lo candidatos al Top 10 debían cumplir algunos requisitos, como por ejemplo que tuviesen como mínimo 50 citas recientes.  De los inicialmente propuestos quedaron sólo 18 algoritmos finalistas. Los resultados del estudio fueron publicados en el artículo “Top 10 algorithm in data mining” y posteriormente en un libro con el mismo título. La siguiente tabla muestra a los finalistas clasificados en categorías.

Categoría Finalistas
Classification 1. C4.5, 2. CART, 3. K Nearest Neighbours (kNN), 4. Naive Bayes
Statistical Learning 5. SVM,  6. EM
Association Analysis 7. Apriori8. FP-Tree
Link Mining 9. PageRank, 10. HITS
Clustering 11. K-Means,  12. BIRCH
Bagging and Boosting 13.  AdaBoost
Sequential Patterns 14. GSP,  15. PrefixSpan
Integrated Mining 16. CBA
Rough Sets 17. Finding reduct
Graph Mining 18. gSpan

En la segunda parte de esta primera charla, se presentaron los 10 grandes retos en minería de datos según (ICDM 2005). No he conseguido más información sobre la fuente del estudio. Ampliaré esta información cuando consiga las transparencias utilizadas en la charla. Los principales desafíos se engloban en las siguientes áreas:

  1. Teoría. Definición de una teoría unificada ¿por qué funcionan los algoritmos? ¿cuales son los fundamentos del Data Mining?
  2. Escalabilidad. Algoritmos que manejen gran cantidad de datos a gran velocidad.
  3. Secuencialidad y series temporales. Técnicas para predecir acontecimientos a partir de datos históricos.
  4. Datos complejos. Obtención conocimiento complejo a partir de datos complejos.
  5. Minería de datos en redes sociales.
  6. Minería de datos en bases de datos distribuidas.
  7. Minería de datos para problemas biológicos y ambientales
  8. Procesos de la minería de datos. Automatización, caracterización de los problemas, etc.
  9. Seguridad, privacidad e integridad.
  10. Minería de datos sobre datos no estáticos y datos cuya observación sea costosa.

Buscando más información sobre estos desafíos futuros he encontrado un artículo reciente sobre este tema titulado “Future tends in data mining“.

“Data Complexity”

Pretende dar respuesta a la pregunta “dado un problema de clasificación, ¿qué clasificador es mejor para el?”.  El libro de referencia es Data Complexity in Pattern Recognition. Para poder responder a esa pregunta se necesitan medidas de complejidad de los conjuntos de datos. Podemos encontrar diferentes medida de la complejidad de los datos en el trabajo de Tin Kam Ho, titulado “Measures of Geometrical Complexity in Classification Problems“.  Os dejo un enlace a las transparencias de la charla.

“How must I do my Experimental Study?”

Cuando nuestro trabajo de investigación consiste en el desarrollo de un nuevo algoritmo, es muy importante compararlo con con algoritmos de calidad. Muchos artículos son rechazados en revistas de prestigio, cuando se compara un nuevo algoritmo con versiones antiguas de nuestros competidores y no se incluyen comparativas con las últimas versiones más eficientes y precisas.  Justificar convenientemente la bondad del nuevo algoritmo utilizando  conjuntos de datos conocidos y métodos estadísticos es igualmente importante. En la dirección del grupo de investigación “Soft Computing and Intelligent Information Systems” que dirige el profesor Herrera, podemos encontrar información sobre estos métodos estadísticos y un software desarrollado por el profesor Salvador García, que genera los gráficos para incluir en documentos Latex utilizando a la entrada un fichero en formato CVS.

Data Mining: From the Top 10 Algorithms to the New Challenges
Advertisements

Descargar el Simulador de estrategias militares basado en el comportamiento de las hormigas

JJ ha subido hoy los fuentes y el ejecutable del simulador de estrategias militares basado en el comportamiento de las hormigas, como se ha denominado en la prensa (ver post Hormiguitas Militares en la prensa).

O mini-simulador SIMAUTAVA (mSS-HEXA, que lo llamamos nosotros). :-)

Éste se puede descargar en el sitio de geneura en la Forja de Rediris:

https://forja.rediris.es/projects/geneura/

(mini-simulador hCHAC)

El software ha sido implementado bajo una licencia GPL. ;)

Se ha incluido , aparte del ejecutable (para Windows) un manual de funcionamiento y varios mapas de ejemplo.

Además se han subido los fuentes del mismo, escritos en Borland Delphi 7.

Esperamos que sea útil para la gente interesada en el mismo.

Saludos a todos y gracias por el interés puesto en esta aplicación y los algoritmos.

Hormiguitas Militares en la prensa

Hoy (o más bien ayer) fue publicada una noticia sobre el simulador y los algoritmos implementados para el desarrollo de la Tesis Doctoral que leí hace dos semanas (ver post El fin del trabajo… la tesis!!!).

La noticia se incluyó inicialmente entre las notas de prensa de la UGR y posteriormente se hicieron eco de ella en Europa Press. A partir de ese momento, se incluyó un artículo o post al respecto en diversas publicaciones electrónicas.

Entre ellas se incluyen varios periódicos:

El Mundo, ABC, Ideal de Granada, La Opinión de Granada, 20 Minutos, El Periódico de Cataluña, e incluso El Economista. ;-)

Algunos portales:

Yahoo, Ya.com, Terra

Y también algunos blogs:

cienciaaldia, geeko, elsenderodelguerrero, thebluebulb

En general lo comentado en los artículos es bastante correcto desde el punto de vista ‘científico’, si bien en aquellos en los que se incluyen comentarios de lectores, se puede ver que la información no es todo lo completa o ‘estricta’ que quizá debiera ser.

Por ello quisiera hacer un par de apuntes sobre la noticia a fin de aclarar un poco más su contenido, al menos para aquellos que lean este post. ;)

– La primera anotación creo que es completamente necesaria y es que los algoritmos de optimización basada en colonias de hormigas fueron presentados en el año 1991 por Dorigo et al., si bien incluso sus estudios estaban basados por otros realizados varios años antes por Pierre-Paul Grassé y confirmados por Deneubourg sobre el comportamiento de las hormigas naturales.

– En segundo lugar y entrando en cuestiones ‘etico/políticas’, el software ha sido diseñado en colaboración con personal del ejército, pero no va a ser utilizado al menos a corto plazo. En cualquier caso su utilidad hasta el momento sería completamente ‘pacífica’, dado que la unidad solo se mueve, no dispara.

Del mismo modo su uso para aplicaciones ‘civiles’, como planificación de rutas de transporte, sería posible realizando una adaptación del simulador al nuevo problema.

– Es libre por ser un proyecto desarrollado como investigación dentro de la UGR, aunque bajo demanda en principio.

– Del mismo modo, el objetivo de la aplicación diseñada sería la automatización de avatares dentro de un simulador más complejo que el utilizado, los cuales deberían buscar y elegir el mejor camino de forma autónoma.

Si bien, también podría ser útil para que el capitán de una compañía planificase por adelantado la ruta a seguir en un campo de batalla conocido.

Me alegro de que esto haya trascendido, pero me gustaría que quedase todo lo más claro posible. ;)

Saludos.

El fin del trabajo… la tesis!!!

Bueno, bueno, este post es meramente informativo y me complace sobremanera escribirlo puesto que lo hago para comunicar a los lectores

¡¡¡ que ya he leido mi tesis!!! :D :D

La lectura fue el 5 de Mayo y he tardado tanto en escribir esto porque me prometí no tocar un teclado en dos semanas. ;) XD

El título de la misma es:

Resolución del Problema Militar de Búsqueda de Camino Óptimo Multiobjetivo mediante el uso de algoritmos de optimización Basados en Colonias de Hormigas.
(un poco largo si, pero como todos :D)

La presentación la podeis ver aquí mismo:

Y el PDF está disponible -> aquí <-

Espero que os interese. ;)

Saludos.

————————————————————————————–

English version:

I finished my PhD Thesis  last 5th of May… :D

(I have written this post today because I didn’t want to use a keyboard in two weeks XD).

It is titled Solving the Multiobjetive Military Pathfinding Problem Using Ant Colony Optimization Algorithms.

The presentation and the pdf of the Thesis are available (in spanish) at:

http://geneura.ugr.es/~amorag/tesis/


I wish it will be interesting for you. ;)

Bye bye. :D