APRENDIZAJE AUTOMATIZADO
(MACHINE LEARNING)
 

Algunos datasets que se utilizan durante el curso:

Play-tennis: Datos correspondientes a la tabla 3.2, página 59, del libro de Tom Mitchell.

play-tennis.data

play-tennis.names

Labor-negotiation: Datos correspondientes a negociaciones laborales en Canada en el 87-88. Viene incluido en el paquete del c4.5 como ejemplo. La descripción detallada de los datos está al comienzo del archivo .names.

labor-neg.data

labor-neg.test

labor-neg.names

Syntethic data: Datos generados artificialmente, usados en el libro:"Pattern Recognition and Neural Networks", B. D. Ripley, 1996. Contiene 2 features y dos clases. Cada clase corresponde a una distribución bimodal, que es una mezcla equilibrada de dos distribuciones normales. Las matrices de covarianza son comunes a las 4 distribuciones normales, lo único que las diferencia es el centro de cada una. El conjunto de entrenamiento contiene 250 puntos, y el de test, 1000.

synth.data

synth.names

synth.test

synth.net

XOR: Datos artificiales, generados para demostración. Contiene 6 features y dos clases. Los vectores son tomados de forma independiente para cada feature, a partir de una distribución uniforme en el [-1:1]. Los dos primeros features, llamados x e y, definen la clase a la que pertenece el vector, los 4 restantes son ruido. La clase es la función xor aplicada al signo de x e y. El conjunto de entrenamiento contiene 200 puntos.

xor.data

xor.names

Damero: Datos artificiales, generados para demostración. Contiene 2 features y dos clases. Los vectores son tomados de una distribución uniforme en el [0:1] x [0:1]. Las clases corresponden a los colores de un tablero de Damas (de 3x3 casillas), con algunos puntos mal clasificados cerca de los bordes . El conjunto de entrenamiento contiene 200 puntos, y el de test 900.

damero.data

damero.test
 

Círculo: Datos artificiales, generados para demostración. Contiene 2 features y dos clases. Los vectores son tomados de una distribución uniforme en el [0:1] x [0:1]. La clase 0 es un círculo de radio 0.4 centrado en el [0.5,0.5]. La clase 1 es el resto. El conjunto de entrenamiento contiene 200 puntos, y el de test 2000.

circulo.data

circulo.test

Dos Elipses: Datos artificiales, generados para demostración. Contiene 2 features y dos clases. Los vectores son tomados de una distribución uniforme en el [-0.5:0.5] x [-0.5:0.5]. La clase 1 son dos elipses, una centrada en el [-0.25,0] y la otra en el [0.25,0]. La clase 0 es el resto. El conjunto de entrenamiento contiene 1000 puntos, y el de test 2000.

dos_elipses.data

dos_elipses.test

Iris: Datos reales, correspondientes a mediciones realizadas sobre los pétalos de tres especies de iris. Es uno de los problemas más estudiados en Machine Learning y Pattern Recognition. Los primeros trabajos sobre este problema datan de la década de 1930. Las descripción de los parametros que contiene está en el archivo .names

iris.data

iris.test

iris.names

Hypothyroid:

Datos de enfermedades de la tiroides tomados en pacientes del Garavan Institute, Sydney, Australia. Los datos corresponden a resultados de diversos test y antecedentes clínicos de los pacientes, y la clase a predecir es el tipo de enfermedad de la tiroides que tiene ese paciente. Las descripción de los parametros que contiene está en el archivo .names

hypo.data

hypo.test

hypo.names

Faces: Los inputs correspondes a los valores de intensidad de los píxeles en imágenes de caras, según se describe detalladamente  en la página 112 del libro de Mitchell. El archivo faces contiene datos de 4 clases, indicando la dirección donde mira la persona. El archivo faces_lr sólo contiene 2 clases, personas que miran a izquierda o derecha, por lo que la longitud de los archivos .data y .test es la mitad que la de los originales. (Los datos fueron pre-procesados por Sergio Freschi - IFIR - Gracias!).

faces.data

faces.test

faces.net

faces_lr.data

faces_lr.test

faces_lr.net

Sunspots: Es una de las series temporales más estudiadas en la literatura. Los datos corresponden a los promedios anuales del número de manchas en el sol, desde 1770 hasta la fecha. Los inputs son los promedios de los últimos 12 años, y la variable a predecir es el número de manchas del año próximo.

ssp.data

ssp.test

ssp.net

Heladas: Datos reales, correspondientes a observaciones meteorológicas en la zona de Zavalla (50 Km de Rosario). El objetivo es predecir la ocurrencia o nó de una helada en la mañana siguiente. Los datos disponibles son mediciones de variables meteorológicas en distintos horarios. La descripción de las variables está incluida en el archivo heladas.names. El archivo heladas.test contiene datos reales, pero la clase a predecir fue reemplazada por 0, para realizar sobre él predicciones genuinas (este archivo se usa solamente en el trabajo final del curso 2001).

heladas.data

heladas.test

heladas.names

Cmc: (Contraceptive Method Choice) Datos reales, correspondientes a una encuesta hecha en Indonesia en 1987 sobre el uso de métodos anticonceptivos. Los datos son características demográficas y socioeconómicas de mujeres casadas no-embarazadas, y el objetivo es predecir si usa o no métodos anticonceptivos.

cmc.data

cmc.names
 
Diabetes: Datos reales, correspondientes a estudios clínicos realizados sobre una población de indios Pima (cerca de Phoenix, Arizona, USA.). El objetivo es detectar si el paciente tiene o no signos de diabetes según los criterios establecidos por la Organización Mundial de la Salud.

diabetes.data

diabetes.names

Letters Este dataset corresponde a distintos atributos obtenidos a partir del procesamiento de imágenes de letras manuscritas. Una descripción detallada puede encontrarse en letters.names. El dataset vowels fue extraído del repositorio de UCI, disponible en la web.  

letters.data

letters.names

BBBs: Datos reales, correspondientes a mediciones cuantitativas de propiedades de compuestos moleculares (drogas - medicamentos). El objetivo es predecir si el compuesto será capaz de pasar de la sangre al cerebro (o sea cruzar la Blood-Brain-Barrier o BBB)

BBBs.data