Skip to content

MuttData/bigdata-workshop-es

 
 

Repository files navigation

Workshop de Big Data con Apache Spark [🇪🇸]

Material del Workshop de Big Data

Contenidos

Infrastructura

El workshop simula una instalación de producción utilizando container de Docker. docker-compose.yml contiene las definiciones y configuraciones para esos servicios y sus respectivas UIs:

Los puertos de acceso a cada servicio quedaron los defaults. Ej: spark master:7077, postgres: 5432

Levantar ambiente

Instalar el ambiente siguiendo las instrucciones acá.

Correr el script que levanta el ambiente Usage: control-env.sh (start|stop|cleanup):

./control-env.sh start

**IMPORTANTE** el script `control-env.sh cleanup` borra cualquier dato que haya sido procesado anteriormente.


# Access Spark-Master and run spark-shell
docker exec -it master bash
root@588acf96a879:/app# spark-shell

Probar:

val file = sc.textFile("/dataset/yahoo-symbols-201709.csv")
file.count
file.take(10).foreach(println)

Acceder al Spark Master: http://localhost:8080 y SPARK-UI: http://localhost:4040.

Troubleshooting

Si los jobs mueren (KILLED) y no se completan puede ser debido a la memória disponible para Docker, aumente la memoria > 8Gb al proceso de Docker:

Siga leyendo

Sobre

Gustavo Arjones © 2017-2020 arjon.es | LinkedIn | Twitter

Mutt Data © 2021-

Releases

No releases published

Packages

No packages published

Languages

  • HTML 41.3%
  • Jupyter Notebook 31.5%
  • TeX 15.0%
  • Python 6.9%
  • Scala 4.4%
  • Shell 0.8%
  • Dockerfile 0.1%