Este repositorio contiene las diapositivas, libretas de trabajo y tareas del curso de Datos Masivos I impartido en la Licenciatura en Ciencia de Datos en el IIMAS.
1. Conceptos básicos
- Definición y características
- Generación, procedencia y preparación de datos
- El principio de Bonferroni
- Privacidad y riesgo
- Modelos de computación para datos masivos
2. Modelo de mapeo y reducción
- Sistema de almacenamiento y procesamiento distribuido
- Modelo de programación
- Algoritmos con el modelo de mapeo y reducción
- Extensiones
- El modelo costo-comunicación
- Teoría de la complejidad para el modelo de mapeo y reducción
3. Búsqueda de elementos similares
- Medidas de similitud y distancia Resúmenes de conjuntos con preservación de similitud
- Funciones hash sensibles a la localidad
- Métodos para altos grados de similitud
- Aplicaciones
4. Algoritmos para flujos de datos
- Modelos de flujo de datos
- Muestreo
- Filtrado
- Conteo
- Estimación de momentos
- Búsqueda de los elementos más comunes
5. Algoritmos de memoria externa
- Modelo de memoria externa
- Modelo de caché inconsciente
- Cotas fundamentales de operaciones de entrada y salida
- Escaneo
- Ordenamiento
- Búsqueda
- Estructuras de datos estáticos y dinámicos
- Jure Leskovec, Anand Rajaraman and Jeffrey D. Ullman. Mining of Massive Datasets. Second Edition. Cambridge University Press, 2014. Liga
- Charu C. Aggarwal. Data Mining. Springer International Publishing, 2015. Liga
- Jeffrey Vitter. Algorithms and Data Structures for External Memory. Now Foundations and Trends, 2008. Liga
- Martes 10:00am a 11:30am
- Miércoles 13:00pm a 15:00pm
- Jueves 10:00am a 11:30am
- Proyectos (50%)
- Tareas (30%)
- Exámenes (10%)
- Participación (10%)
Blanca Hilda Vázquez Gómez
- Correo: blancavazquez2013[arroba]gmail.com
Gibran Fuentes Pineda
- Correo: gibranfp[arroba]unam.mx
En este curso las herramientas de programación que se emplearán son las siguientes: