Algunos datasets que se utilizan durante el curso:
Play-tennis: Datos correspondientes a la tabla 3.2, página 59, del libro de Tom Mitchell.
Labor-negotiation: Datos correspondientes a negociaciones laborales en Canada en el 87-88. Viene incluido en el paquete del c4.5 como ejemplo. La descripción detallada de los datos está al comienzo del archivo .names.
Syntethic data: Datos generados artificialmente, usados en el libro:"Pattern Recognition and Neural Networks", B. D. Ripley, 1996. Contiene 2 features y dos clases. Cada clase corresponde a una distribución bimodal, que es una mezcla equilibrada de dos distribuciones normales. Las matrices de covarianza son comunes a las 4 distribuciones normales, lo único que las diferencia es el centro de cada una. El conjunto de entrenamiento contiene 250 puntos, y el de test, 1000.
XOR: Datos artificiales, generados para demostración. Contiene 6 features y dos clases. Los vectores son tomados de forma independiente para cada feature, a partir de una distribución uniforme en el [-1:1]. Los dos primeros features, llamados x e y, definen la clase a la que pertenece el vector, los 4 restantes son ruido. La clase es la función xor aplicada al signo de x e y. El conjunto de entrenamiento contiene 200 puntos.
Damero: Datos artificiales, generados para demostración. Contiene 2 features y dos clases. Los vectores son tomados de una distribución uniforme en el [0:1] x [0:1]. Las clases corresponden a los colores de un tablero de Damas (de 3x3 casillas), con algunos puntos mal clasificados cerca de los bordes . El conjunto de entrenamiento contiene 200 puntos, y el de test 900.
Círculo: Datos artificiales, generados para demostración. Contiene 2 features y dos clases. Los vectores son tomados de una distribución uniforme en el [0:1] x [0:1]. La clase 0 es un círculo de radio 0.4 centrado en el [0.5,0.5]. La clase 1 es el resto. El conjunto de entrenamiento contiene 200 puntos, y el de test 2000.
Dos Elipses: Datos artificiales, generados para demostración. Contiene 2 features y dos clases. Los vectores son tomados de una distribución uniforme en el [-0.5:0.5] x [-0.5:0.5]. La clase 1 son dos elipses, una centrada en el [-0.25,0] y la otra en el [0.25,0]. La clase 0 es el resto. El conjunto de entrenamiento contiene 1000 puntos, y el de test 2000.
Iris: Datos reales, correspondientes a mediciones realizadas sobre los pétalos de tres especies de iris. Es uno de los problemas más estudiados en Machine Learning y Pattern Recognition. Los primeros trabajos sobre este problema datan de la década de 1930. Las descripción de los parametros que contiene está en el archivo .names
Hypothyroid:
Datos de enfermedades de la tiroides tomados en pacientes del Garavan Institute, Sydney, Australia. Los datos corresponden a resultados de diversos test y antecedentes clínicos de los pacientes, y la clase a predecir es el tipo de enfermedad de la tiroides que tiene ese paciente. Las descripción de los parametros que contiene está en el archivo .names
Faces: Los inputs correspondes a los valores de intensidad de los píxeles en imágenes de caras, según se describe detalladamente en la página 112 del libro de Mitchell. El archivo faces contiene datos de 4 clases, indicando la dirección donde mira la persona. El archivo faces_lr sólo contiene 2 clases, personas que miran a izquierda o derecha, por lo que la longitud de los archivos .data y .test es la mitad que la de los originales. (Los datos fueron pre-procesados por Sergio Freschi - IFIR - Gracias!).
Sunspots: Es una de las series temporales más estudiadas en la literatura. Los datos corresponden a los promedios anuales del número de manchas en el sol, desde 1770 hasta la fecha. Los inputs son los promedios de los últimos 12 años, y la variable a predecir es el número de manchas del año próximo.
Heladas: Datos reales, correspondientes a observaciones meteorológicas en la zona de Zavalla (50 Km de Rosario). El objetivo es predecir la ocurrencia o nó de una helada en la mañana siguiente. Los datos disponibles son mediciones de variables meteorológicas en distintos horarios. La descripción de las variables está incluida en el archivo heladas.names. El archivo heladas.test contiene datos reales, pero la clase a predecir fue reemplazada por 0, para realizar sobre él predicciones genuinas (este archivo se usa solamente en el trabajo final del curso 2001).
Cmc: (Contraceptive Method Choice) Datos reales, correspondientes a una encuesta hecha en Indonesia en 1987 sobre el uso de métodos anticonceptivos. Los datos son características demográficas y socioeconómicas de mujeres casadas no-embarazadas, y el objetivo es predecir si usa o no métodos anticonceptivos.
cmc.names
Diabetes: Datos
reales, correspondientes a estudios clínicos realizados sobre
una población de indios Pima (cerca de Phoenix, Arizona, USA.).
El objetivo es detectar si el paciente tiene o no signos de diabetes
según los criterios establecidos por la Organización
Mundial de la Salud.
Letters: Este
dataset corresponde a distintos atributos obtenidos a partir del
procesamiento de imágenes de letras manuscritas. Una
descripción detallada puede encontrarse en letters.names. El
dataset vowels fue extraído del repositorio de UCI, disponible
en la web.
BBBs: Datos reales, correspondientes a mediciones cuantitativas de propiedades de compuestos moleculares (drogas - medicamentos). El objetivo es predecir si el compuesto será capaz de pasar de la sangre al cerebro (o sea cruzar la Blood-Brain-Barrier o BBB)