La motivación principal de la MD y el DW es la necesidad de organizar grandes volúmenes de datos y descubrir patrones significativos no triviales que sirvan a investigadores y administradores para lograr un mayor entendimiento de los fenómenos y procesos de su interés.
Minería de datos
La minería de datos (data mining), conocida también como descubrimiento de conocimiento en bases de datos (knowledge discovery in databases), es una disciplina de las ciencias e ingenierías de la computación que intenta hallar patrones significativos en conjuntos de datos para producir modelos descriptivos, predictivos y clasificadores apoyándose en técnicas de manejo y programación de bases de datos, en estadística y aprendizaje automático (ML, por machine learning).
El ML es de especial utilidad para la MD. Es una disciplina de la inteligencia artificial en la que se crean algoritmos y modelos que intentan imitar la capacidad que tienen los sistemas nerviosos de los seres vivos para abstraer patrones. La noción de patrón es de gran importancia en la MD;se entiende como la combinación de características o de eventos que presentan alguna regularidad para la percepción por tener algún tipo de orden o de estructura.
Existen dos grandes grupos de algoritmos de ML: aprendizaje supervisado y no supervisado. En ambos casos, el algoritmo recibe como entrada un conjunto de datos (data set) y produce como salida un modelo descriptivo, clasificador o predictivo. El data set es una tabla bidimensional, organizada en renglones y columnas. Cada renglón constituye una instancia, ejemplo, registro o tupla que describe un caso real del proceso o fenómeno analizado. Cada columna constituye un atributo.
Qué se produce en un proyecto de MD
El principal producto en un proyecto de MD es uno o más modelos descriptivos, clasificadores o predictivos, basados en estadística y/o en aprendizaje automático.
Un proyecto de MD requiere la colaboración entre el analista de MD y el usuario experto del dominio de conocimiento al cual se refieran los datos a analizar. La generación de un modelo basado en MD consiste en los siguientes pasos:
1) definición del objetivo del modelo
2) selección de datos para análisis y modelación y de sus fuentes
3) recolección, limpieza y pre-procesamiento de datos
4) análisis estadísticos básicos
5) selección y aplicación de algoritmos de aprendizaje automático
6) reporte y evaluación de hallazgos con el experto de dominio
7) explotación de los hallazgos
Data warehousing
El data warehousing es el conjunto de técnicas para diseñar, construir y mantener datotecas. Una datoteca es una colección de datos organizados de modo que se optimice el desempeño de las consultas de grandes volúmenes de información. Las datotecas se diferencian de las bases de datos localizadas en los sistemas OLTP porque el propósito principal de las datotecas es facilitar y eficientar las operaciones de consulta de grandes volúmenes de datos para hacer Procesamiento Analítico en Línea (On Line Analytical Processing, OLAP). En cambio, las bases de datos de los sistemas OLTP intentan favorecer el desempeño de operaciones de actualización con volúmenes pequeños de datos. Generalmente las datotecas se ubican en servidores separados de los sistemas OLTP para evitar que el procesamiento de consultas voluminosas disminuya el desempeño del OLTP. Otra diferencia importante es tipo de usuarios típicos de cada uno: los de las datotecas son mayoritariamente de nivel gerencial o directivo, realizando tareas nivel táctico o estratégico; los de OLTP realizan actividades a nivel operativo.
En la mayoría de las datotecas se realiza un proceso denominado Extracción-Transformación-Carga (Extract-Transform-Load, ETL). Una datoteca puede construirse en alguna de tres modalidades: 1) repositorio, 2) data mart o 3) data warehouse.
Data warehouse
Un data warehouse (bodega de datos) es una MDD similar al data mart y se caracteriza por contener datos sumarizados de todas las áreas, departamentos y procesos de una empresa o institución. Su diferencia principal con el data mart es el tamaño y el alcance.
La necesidad del data warehousing y la minería de datos en los ámbitos científico, gubernamental y de negocios ha venido creciendo durante los últimos años y es evidente que esta tendencia prevalecerá. Por ello, es pertinente profundizar en la investigación básica y aplicada de estas disciplinas y ampliar sus aplicaciones prácticas.
Todo esto aprenderemos en el curso de Minería de datos por primera vez en Metepec.
Impartido por DR. SERGIO RAFAEL CORIA OLGUÍN – EGRESADO DE CIENCIAS DE COMPUTACIÓN, UNAM
Doctor en Ciencias de la Computación
Universidad Nacional Autónoma de México (UNAM) En el Depto. de Ciencias de Computación del Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas (IIMAS), de la UNAM, en el área de Inteligencia Artificial (Reconocimiento Automático del Habla).
Universidad de Rochester, NY, EUA
Estancia de investigación y estudio Deptos. de Ciencias de Computación y de Lingüística.
ÁREAS DE INVESTIGACIÓN Y DESARROLLO
Inteligencia artificial, en especial: aprendizaje automático, minería de datos (data mining) y procesamiento del lenguaje natural. Adicionalmente, data warehousing (diseño e implementación de datotecas), bases de datos para web, sistemas de información geográfica, y aplicaciones para gobierno digital.
Aquí el temario del curso:
Nota: No son cursos de programación, sino de análisis de datos y creación de modelos (cupo limitado 10 personas)
INTRODUCCIÓN A LAS DATOTECAS (teórico-práctico)
Duración: 8 hrs
Necesaria laptop con software de hoja de cálculo y procesador de textos
Instructor: Dr. Sergio R. Coria
1.Conceptos básicos
1.1.Datoteca
1.2.Repositorio
1.3.Data mart
1.4.Data warehouse (DW)
1.5.OLAP y OLTP
2. El flujo de datos para crear un DW
3. Práctica de normalización de base de datos
4. Proceso de creación de data warehouse y de data mart
4.1.Bases de datos multidimensionales (hipercubos)
4.2.Tablas de hechos (métricas, facts, measurements)
4.3.Tablas de dimensiones
5. Esquemas de BD más usados en datotecas
5.1. Estrella (star)
5.2.Copo de nieve (snow flake)
6. Prácticas de diseño de datoteca
INTRODUCCIÓN A LA MINERÍA DE DATOS (DATA MINING) (teórico-práctico)
Duración: 8 hrs
Necesaria laptop con software de hoja de cálculo y procesador de textos
Instructor: Dr. Sergio R. Coria
1. Conceptos básicos
1.1.Minería de datos (MD, KDD)
1.2.Patrón
2. Proceso general de la MD
3. Relación con los data warehouses, el CRM y el ERP
4. Métodos para análisis estadísticos básicos
4.1.Diagramas de barras o columnas
4.2.Histograma
4.3.Pareto
5. Práctica de análisis con Excel
6. Aprendizaje automático para MD
6.1.Modelos bayesianos
6.2.Árboles de decisión
6.3.Redes neuronales artificiales
7. Prácticas con software libre WEKA
7.1.Preparación de datos
7.2.Generación de un modelo
7.3.Evaluación del modelo
8. Cómo usar la MD para comercialización y optimización de procesos
9. Cómo pedir modelos de MD a tu depto. de sistemas
El costo: 2800 CADA BLOQUE
Se entrega reconocimiento curricular.
Horarios: 2 sábados 10:00 a 14:00 hrs y de 15:00 a 19:00 hrs.
Mas info al 5-08-05-06 o [email protected]
18 Comments