La motivación principal de la MD y el DW es la necesidad de organizar grandes volúmenes de datos y descubrir patrones significativos no triviales que sirvan a investigadores y administradores para lograr un mayor entendimiento de los fenómenos y procesos de su interés.

Minería de datos

La minería de datos (data mining), conocida también como descubrimiento de conocimiento en bases de datos (knowledge discovery in databases), es una disciplina de las ciencias e ingenierías de la computación que intenta hallar patrones significativos en conjuntos de datos para producir modelos descriptivos, predictivos y clasificadores apoyándose en técnicas de manejo y programación de bases de datos, en estadística y aprendizaje automático (ML, por machine learning).

El ML es de especial utilidad para la MD. Es una disciplina de la inteligencia artificial en la que se crean algoritmos y modelos que intentan imitar la capacidad que tienen los sistemas nerviosos de los seres vivos para abstraer patrones. La noción de patrón es de gran importancia en la MD;se entiende como la combinación de características o de eventos que presentan alguna regularidad para la percepción por tener algún tipo de orden o de estructura.

Existen dos grandes grupos de algoritmos de ML: aprendizaje supervisado y no supervisado. En ambos casos, el algoritmo recibe como entrada un conjunto de datos (data set) y produce como salida un modelo descriptivo, clasificador o predictivo. El data set es una tabla bidimensional, organizada en renglones y columnas. Cada renglón constituye una instancia, ejemplo, registro o tupla que describe un caso real del proceso o fenómeno analizado. Cada columna constituye un atributo.

Qué se produce en un proyecto de MD

El principal producto en un proyecto de MD es uno o más modelos descriptivos, clasificadores o predictivos, basados en estadística y/o en aprendizaje automático.

Un proyecto de MD requiere la colaboración entre el analista de MD y el usuario experto del dominio de conocimiento al cual se refieran los datos a analizar. La generación de un modelo basado en MD consiste en los siguientes pasos:

1) definición del objetivo del modelo

2) selección de datos para análisis y modelación y de sus fuentes

3) recolección, limpieza y pre-procesamiento de datos

4) análisis estadísticos básicos

5) selección y aplicación de algoritmos de aprendizaje automático

6) reporte y evaluación de hallazgos con el experto de dominio

7) explotación de los hallazgos

Data warehousing

El data warehousing es el conjunto de técnicas para diseñar, construir y mantener datotecas. Una datoteca es una colección de datos organizados de modo que se optimice el desempeño de las consultas de grandes volúmenes de información. Las datotecas se diferencian de las bases de datos localizadas en los sistemas OLTP porque el propósito principal de las datotecas es facilitar y eficientar las operaciones de consulta de grandes volúmenes de datos para hacer Procesamiento Analítico en Línea (On Line Analytical Processing, OLAP). En cambio, las bases de datos de los sistemas OLTP intentan favorecer el desempeño de operaciones de actualización con volúmenes pequeños de datos. Generalmente las datotecas se ubican en servidores separados de los sistemas OLTP para evitar que el procesamiento de consultas voluminosas disminuya el desempeño del OLTP. Otra diferencia importante es tipo de usuarios típicos de cada uno: los de las datotecas son mayoritariamente de nivel gerencial o directivo, realizando tareas nivel táctico o estratégico; los de OLTP realizan actividades a nivel operativo.

En la mayoría de las datotecas se realiza un proceso denominado Extracción-Transformación-Carga (Extract-Transform-Load, ETL). Una datoteca puede construirse en alguna de tres modalidades: 1) repositorio, 2) data mart o 3) data warehouse.

Data warehouse

Un data warehouse (bodega de datos) es una MDD similar al data mart y se caracteriza por contener datos sumarizados de todas las áreas, departamentos y procesos de una empresa o institución. Su diferencia principal con el data mart es el tamaño y el alcance.

La necesidad del data warehousing y la minería de datos en los ámbitos científico, gubernamental y de negocios ha venido creciendo durante los últimos años y es evidente que esta tendencia prevalecerá. Por ello, es pertinente profundizar en la investigación básica y aplicada de estas disciplinas y ampliar sus aplicaciones prácticas.

Todo esto aprenderemos en el curso de Minería de datos por primera vez en Metepec.

Impartido por DR. SERGIO RAFAEL CORIA OLGUÍN – EGRESADO DE CIENCIAS DE COMPUTACIÓN, UNAM

Doctor en Ciencias de la Computación

Universidad Nacional Autónoma de México (UNAM) En el Depto. de Ciencias de Computación del Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas (IIMAS), de la UNAM, en el área de Inteligencia Artificial (Reconocimiento Automático del Habla).

Universidad de Rochester, NY, EUA

Estancia de investigación y estudio Deptos. de Ciencias de Computación y de Lingüística.

ÁREAS DE INVESTIGACIÓN Y DESARROLLO

Inteligencia artificial, en especial: aprendizaje automático, minería de datos (data mining) y procesamiento del lenguaje natural. Adicionalmente, data warehousing (diseño e implementación de datotecas), bases de datos para web, sistemas de información geográfica, y aplicaciones para gobierno digital.

Aquí el temario del curso:

Nota: No son cursos de programación, sino de análisis de datos y creación de modelos (cupo limitado 10 personas)

INTRODUCCIÓN A LAS DATOTECAS (teórico-práctico)

Duración: 8 hrs

Necesaria laptop con software de hoja de cálculo y procesador de textos

Instructor: Dr. Sergio R. Coria

1.Conceptos básicos

1.1.Datoteca

1.2.Repositorio

1.3.Data mart

1.4.Data warehouse (DW)

1.5.OLAP y OLTP

2. El flujo de datos para crear un DW

3. Práctica de normalización de base de datos

4. Proceso de creación de data warehouse y de data mart

4.1.Bases de datos multidimensionales (hipercubos)

4.2.Tablas de hechos (métricas, facts, measurements)

4.3.Tablas de dimensiones

5. Esquemas de BD más usados en datotecas

5.1. Estrella (star)

5.2.Copo de nieve (snow flake)

6. Prácticas de diseño de datoteca

INTRODUCCIÓN A LA MINERÍA DE DATOS (DATA MINING) (teórico-práctico)

Duración: 8 hrs

Necesaria laptop con software de hoja de cálculo y procesador de textos

Instructor: Dr. Sergio R. Coria

1. Conceptos básicos

1.1.Minería de datos (MD, KDD)

1.2.Patrón

2. Proceso general de la MD

3. Relación con los data warehouses, el CRM y el ERP

4. Métodos para análisis estadísticos básicos

4.1.Diagramas de barras o columnas

4.2.Histograma

4.3.Pareto

5. Práctica de análisis con Excel

6. Aprendizaje automático para MD

6.1.Modelos bayesianos

6.2.Árboles de decisión

6.3.Redes neuronales artificiales

7. Prácticas con software libre WEKA

7.1.Preparación de datos

7.2.Generación de un modelo

7.3.Evaluación del modelo

8. Cómo usar la MD para comercialización y optimización de procesos

9. Cómo pedir modelos de MD a tu depto. de sistemas

El costo: 2800 CADA BLOQUE

Se entrega reconocimiento curricular.

Horarios: 2 sábados 10:00 a 14:00 hrs y de 15:00 a 19:00 hrs.

Mas info al 5-08-05-06 o [email protected]

18 Comments

Emmanuel
marzo 9, 2015 at 9:45 am
hola, estoy muy interesado en el curso pero, no puedo en ese horario, existe la posibilidad de hacerlo en linea o e otro horario?
Reply

Hub
marzo 9, 2015 at 6:10 pm
Hola emmanuel, en línea se pierde mucho de la parte de experiencia y práctica de ponente. Nos podrías dar tus horarios disponibles, ya que podemos dividir en lugar de dos dines que sean 4 y solo 4hrs por fin de semana
Reply

aldo
marzo 9, 2015 at 6:50 pm
¿Cuando empieza el curso?
Reply

Hub
marzo 10, 2015 at 9:09 am
Saludos Aldo, el curso comenzará cuando se tenga el cupo lleno debido a la agenda del DR. para hoy sólo tenemos 5 lugares disponibles, es decir a la brevedad!
Reply

Isidro Ruiz
marzo 11, 2015 at 9:33 am
Estoy al norte de Veracruz, hay posibilidades de cambiar el horario o el lugar donde se realice el curso??
Reply

Hub
marzo 11, 2015 at 2:36 pm
Lugar imposible, el horario el mejor es en fin de semana debido a los compromisos laborales de todos, lo que estamos buscando es el cambio de 4 hrs por fin de semana pero eso para tu caso significaría más traslados, tenemos convenios con distintos hoteles!
Reply

Aldo
marzo 25, 2015 at 6:39 pm
otra pregunta cuando a bloques sin ?
Reply
Pingback : BIG DATA PARA EL MERCADÓLOGO | Schloss Marketing
[…] Puedes consultar el curso completo aquí https://www.hubmetepec.com/curso-mineria-de-datos-en-metepec-mexico/ […]
Reply
Julio
mayo 12, 2016 at 1:03 pm
Ya paso el curso???
Reply

Hub Metepec
mayo 13, 2016 at 9:33 am
ya, pero lo volveremos a abrir
Reply

Victor Daniel Gaeta Lares
junio 29, 2016 at 10:54 am
Hola buen día aun cuentan con este curso, tiene horarios sabatinos y que costo tiene. Saludos.
Reply

Hub Metepec
julio 7, 2016 at 9:57 am
Hola victor, en breve pondremos las nuevas fechas para el curso
Reply

gerardo mendoza
julio 23, 2016 at 3:32 pm
Tendran fechas para el curso de minería de datos
Reply

Hub Metepec
julio 25, 2016 at 9:49 am
estamos armando grupo , se abre con mínimo 5 personas
Reply

Vane C
septiembre 22, 2017 at 10:17 am
Tendrán fechas para el curso de minería de datos
Reply

Victor Castillo
octubre 1, 2017 at 8:33 pm
estamos programando el siguiente para enero
Reply

ivan hernandez
mayo 21, 2019 at 2:46 pm
Hola tienen fechas para próximos cursos?
Reply

hubmetepec
julio 9, 2019 at 9:07 am
no tenemos fecha próxima, el curso de verano se vendió totalmente
Reply

Curso Minería de Datos en Metepec México

Aquí el temario del curso:

18 Comments

Leave a comment or Cancel Reply