En este repositorio podrán encontrar todo el material que utilizaremos en el curso. Se irá actualizando constantemente y podrán descargarlo si así lo desean o clonarlo por medio de GitHub.
El presente curso tiene como objetivo enseñar a producir documentos profesionales basados en datos. Haciendo uso de la R
para construir la sintaxis. Para poder producir un documento profesional, la persona debe poder manipular datos, visualizar y poder organizar estructuradamente un flujo de trabajo.
Para este curso vamos a trabajar, desde el principio, con código en R
. Es necesario tener la última versión de este lenguaje, al momento de escribir este repositorio ésta es la versión 4.0.2, llamada Taking Off Again.
Para instalarlo, es necesario entrar a The Comprehensive R Archive Network y seguir las instrucciones para cada sistema operativo.
- Basta con descargar el archivo
.pkg
de este link, descomprimir el archivo, abrir el archivo y seguir las instrucciones.
- Basta con descargar el archivo
.exe
de este link, abrir el archivo y seguir las instrucciones.
En Terminal, escribir las siguientes dos líneas:
sudo apt-get update
sudo apt-get install r-base
Para instalar RStudio (plataforma que usaremos para el uso de R
), es necesario acudir a esta página y seleccionar nuestro sistema operativo en el menú Installers for Supported Platforms. En el caso de Windows, este es el archivo, y en el caso de MAC OSX el archivo es éste.
Para Ubuntu, hay que correr estas líneas en Terminal:
sudo apt-get install gdebi-core
wget https://download2.rstudio.org/server/xenial/amd64/rstudio-server-1.3.1056-amd64.deb
sudo gdebi rstudio-server-1.3.1056-amd64.deb
Es importante tener LaTeX para crear documentos en PDF. Para instalarlo, hay que entrar a este sitio y seleccionar nuestro sistema operativo. Para MAC OSX este es el archivo a instalar, para Windows es éste y para Ubuntu hay que seguir estos pasos.
Hay, realmente, miles de materiales excelentes para aprender R
. En mi experiencia éstos han sido los más útiles.
-
Wickham y Grolemund - R for Data Science: Este el libro sagrado de los que usamos
R
a través deltidyverse
. Es el mejor y más completo libro para aprender a usar en lenguaje. Les recomiendo mucho terminarlo. -
Cotton - Learning R A Step-by-Step Function Guide to Data Analysis
-
Phillips - YaRrr! The Pirate’s Guide to R: Una guía introductoria (y bastante divertida) de aprender
R
. Altamente recomendable también para aprender métodos bayesianos. Yo aprendíR
con este manual. Phillips también tiene gran material introductorio en su canal de YouTube -
Burns - R's Inferno: La premisa del autor es simple "si estás usando R y piensas que es un infierno, este libro es para ti".
-
Privé - Advanced R Course:Un buen libro avanzado sobre el tema.
-
Stack Overflow: No hay de otra, es crucial preguntar.
-
Prabhakaran - Top 50 ggplot2 Visualizations - The Master List (With Full R Code)
-
Sebastián Garrido - Recursos para R: "Segasi" ha recolectado un montón de recursos introductorios (y no tanto) en su página personal.
En este curso se pretende que podamos presentar resultados en reportes profesionales y muy elegantes que puean ser leídos (y usados) por cualquiera. Así, usaremos Markdown "con sabor" a R
para generar código y resultados.
-
Xie, Allaire & Grolemund - R Markdown: The Definitive Guide: La Guía definitiva para usar Markdown "con sabor" a R.
-
A simple guide to LaTeX - Step by Step: Si bien no usaremos LaTeX directamente, sí es importante tenerlo instalado y conocer su existencia y su sintaxis básica para usarla en RMarkdown.
Este curso está construido con base en siguientes materiales:
-
Ismay & Kim - Statistical Inference via Data Science: A ModernDive into R and the Tidyverse.
-
Navarro - Learning statistics with R: A tutorial for psychology students and other beginners.. El código del libro disponible aquí.
-
Field et a. - Discovering Statistics Using R. Este libro es bastante didactivo, pero un poco infantil para lectorxs más maduros.
-
Sheather - A Modern Approach to Regression with R. El código se encuentra aquí.
-
James, et al. - An Introduction to Statistical Learning with Applications in R. El PDF y el código se encuentran en el link.
-
Bruce & Bruce - Practical Statistics for Data Scientists 50 Essential Concepts: El código de este libro se encuentra en este repositorio.
-
Hastie, et al. - The Elements of Statistical Learning. El PDF y el código se encuentran en el link.
-
Teetor - R Cookbook Proven Recipes for Data Analysis, Statistics, and Graphics
Algunos repositorios recomendados para buscar buenas bases de datos.
- Awesome Public Datasets
- TidyTuesday Datasets
- FiveThirtyEight
- Las bases de datos del programa de competencias Kaggle
- Harvard Dataverse
- Datos abiertos del Gobierno Federal
- Banco de Información del LNPP del CIDE
- Google Dataset Search
- Open ICPSR
- UK Data Service
- Empirical Studies of Conflict
-
Sesión 1:
- Temas:
- Introducción al uso de
R
y RStudio - Introducción a la sintaxis
- Introducción a manipulación básica de datos: tipos y estructuras de datos
- Comandos básicos para medidas de tendencia central (y su interpretación)
- ¿Cómo hacer tablas profesionales para reportes profesionales?
- ¿Cómo llamar datos en formato .xls, .csv, .txt o .dta
- Uso de R Makrdown para reportes
- Introducción al uso de
- Temas:
-
Sesión 2: Manipulación y tidyverso.
- Temas:
- Introducción a
tidyverse
(y sus diferencias conRbase
) - Manipulación de datos con
dplyr
- Introducción a los usos de
select
yfilter
, para filtrar y seleccionar tablas - Introducción a
group_by
ysummarise
para sumar y obtener medidas de tencia central por grupos - Introducción a
mutate
para la creación de variables - Usos avanzado se
dplyr
- Introducción a
- Temas:
-
Sesión 3: Visualización
- Temas:
- Introducción a la visualización de datos bajo en enfoque de la "gramática de gráficas" (gg)
- Introducción a
ggplot2
- Introducción a geometrías, mapping, formas, escalas y paletas
- Extensiones a
ggplot2
:GGally
,ggridges
,ggtiles
- "Es que las gráficas de STATA me gustan mucho": Temas con
hrbrthemes
yggthemes
- Temas:
-
Sesión 4: Usos prácticos
- Temas:
- Uso de datos geográficos con
sf
- Uso de datos de encuestas con
srvyr
- Introducción al uso de cadenas de texto
- Uso de datos geográficos con
- Temas:
Mi nombre es Manuel Toral, actualmente trabajo con datos judiciales para el análisis de la política pública del Poder Judicial, fui investigador especializado en datos en Mexicanos Contra la Corrupción y la Impunidad. Estudié Política Pública en la Escuela Harris de la Universidad de Chicago y Ciencia Política y Relaciones Internacionales en el Centro de Investigación y Docencia Económicas. Como instuctor en R
, soy parte del directorio de instructores de RStudio, aquí puedes ver mi perfil.
Llevo 5 años usando R
de manera profesional en una diversidad de proyectos de corte inmobiliario, análisis de grandes cantidades de datos, seguridad, justicia y, actualmente, en corrupción, transparencia y combate a la impunidad en México. Puedes ver algo de mis últimos trabajos de investigación con datos en el blog Desarmando la Corrupción de MCCI en alianza con la revista Nexos.
Como docente en R
, he sido el experto residente de la Escuela Harris de la Universidad de Chicago, en la que dirgí la "STATA and R Bar", que asesoraba en el uso de estas herramientas a alumnos de maestría y doctorado. En 2017, fui contratado por la Unidad de Investigación Aplicada de MCCI para capacitar a sus integrantes en el uso de R, equipo al que finalmente me integré como investigador. Actualmente, me dedico al estudio de información judicial.