Puedes correr un ambiente standalone de spark en local
Una vez se clone el proyecto
git clone https://github.com/HubertRonald/SparkWork.git
Luego habilita los siguientes scripts de bash para que puedan ser ejecutados:
chmod +x start.sh stop.sh
Después asegurase de tener docker encendido
Se puede iniciar rápidamente desde la terminal con (desde la carpeta SparkWork
):
./start.sh
Copia el siguiente enlace
Si en caso no apareciera en los logs, intentar los siguiente:
docker-compose logs
Asimismo asegurarse de no tener abierto alguna sesión previa. Caso contratio cerrar esa pestaña del navegador y ejecutar nuevamente el script ./start.sh
en la terminal.
Hecho lo anterior en la parte izquierda, se verá el notebook Spark_DataFrames_Ejemplo.ipynb
El archivo zipcodesUSDummy es una pequeña muestra tomada de US-Zip-Codes-JSON. Creditos a Brandom Miller
Fue generado en gitignore.io con los filtros python
, macos
, windows
y consumido mediante su API como archivo crudo desde la terminal:
curl -L https://www.toptal.com/developers/gitignore/api/python,macos,windows > .gitignore
- Hubert Ronald - Trabajo Inicial - HubertRonald / SparkWork
Ve también la lista de contribuyentes que participaron en este proyecto.
Este proyecto está bajo licencia MIT - ver la LICENCIA archivo (en inglés) con más detalles