Skip to content

Diapositivas, ejercicios, código de ejemplo y página del curso de Datos Masivos para la licenciatura de Ciencia de Datos

Notifications You must be signed in to change notification settings

blancavazquez/CursoDatosMasivosI

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 

Repository files navigation

Curso de Datos Masivos I, IIMAS-UNAM

Este repositorio contiene las diapositivas, libretas de trabajo y tareas del curso de Datos Masivos I impartido en la Licenciatura en Ciencia de Datos en el IIMAS.

Temario

1. Conceptos básicos

  • Definición y características
  • Generación, procedencia y preparación de datos
  • El principio de Bonferroni
  • Privacidad y riesgo
  • Modelos de computación para datos masivos

2. Modelo de mapeo y reducción

  • Sistema de almacenamiento y procesamiento distribuido
  • Modelo de programación
  • Algoritmos con el modelo de mapeo y reducción
  • Extensiones
  • El modelo costo-comunicación
  • Teoría de la complejidad para el modelo de mapeo y reducción

3. Búsqueda de elementos similares

  • Medidas de similitud y distancia Resúmenes de conjuntos con preservación de similitud
  • Funciones hash sensibles a la localidad
  • Métodos para altos grados de similitud
  • Aplicaciones

4. Algoritmos para flujos de datos

  • Modelos de flujo de datos
  • Muestreo
  • Filtrado
  • Conteo
  • Estimación de momentos
  • Búsqueda de los elementos más comunes

5. Algoritmos de memoria externa

  • Modelo de memoria externa
  • Modelo de caché inconsciente
  • Cotas fundamentales de operaciones de entrada y salida
  • Escaneo
  • Ordenamiento
  • Búsqueda
  • Estructuras de datos estáticos y dinámicos

Bibliografía

  • Jure Leskovec, Anand Rajaraman and Jeffrey D. Ullman. Mining of Massive Datasets. Second Edition. Cambridge University Press, 2014. Liga
  • Charu C. Aggarwal. Data Mining. Springer International Publishing, 2015. Liga
  • Jeffrey Vitter. Algorithms and Data Structures for External Memory. Now Foundations and Trends, 2008. Liga

Horario

  • Martes 10:00am a 11:30am
  • Miércoles 13:00pm a 15:00pm
  • Jueves 10:00am a 11:30am

Criterios de evaluación

  • Proyectos (50%)
  • Tareas (30%)
  • Exámenes (10%)
  • Participación (10%)

Profesores

Blanca Hilda Vázquez Gómez

  • Correo: blancavazquez2013[arroba]gmail.com

Gibran Fuentes Pineda

  • Correo: gibranfp[arroba]unam.mx

Ambiente de programación

En este curso las herramientas de programación que se emplearán son las siguientes:

About

Diapositivas, ejercicios, código de ejemplo y página del curso de Datos Masivos para la licenciatura de Ciencia de Datos

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published