• 687374918
  • info@devacademy.es

Hands-on de análisis de datos con Hadoop y Spark

Detalle del plan de formación

Además de saber ingerir y almacenar la información en el cluster Big Data, es necesario saber qué hacer y poder exprimir al máximo los datos del cluster. Es por ello que es necesario saber cómo analizar los datos tanto con tecnologías Hadoop como Spark.

En este curso, se enseñará paso a paso cómo se pueden analizar distintos tipos de datos con tecnologías del ecosistema de Hadoop, a través de Hive, y también con herramientas de Spark. Para lo cual se partirá de un cluster de Hadoop y Spark donde se instalará Hive para poder analizar tweets. Finalmente se aplicará un caso práctico para el análisis de logs a través de Spark. Todo se realizará de una manera guiada para que los alumnos entiendan como se pueden utilizar este tipo de herramientas.

Además, este curso busca facilitar el inicio y aprendizaje de la herramienta, así como conceptos básicos e importantes de las ETLs. Se enseñarán las mejores prácticas que podrás traladar a cualquier otra herramienta de integración de datos.

Por lo tanto, durante el curso se usará una metodología de 20% de teoría y 80% de hands-on para que los alumnos practiquen con estas tecnologías.

Temario

  • Introducción Vagrant
  • Introducción Spark
  • Introducción Hive
  • Despliegue de Hive.
  • Ejercicios
    • Análisis de Tweets mediante Hive
    • Análisis de Logs a través de Spak

 

Casos prácticos

  • Análisis de Tweets mediante Hive
    • Se distribuirá un dataset de tweets, previamente descargado, para crear con Hive una tabla que interprete los json de cada tweet. Una vez creada la tabla se realizarán distintas sentencias de Hive para analizarlos
  • Análisis de Logs a través de Spark
    • Se proporcionará un dataset de logs de Webs para analizarlos, con Spark, mediante una aplicación de Python. Para lo cual se verá de manera guiada como se deben cargar los logs para manipularlos y poder ejecutar distintas agregaciones. Para la realización de esta práctica se dotara al alumno de un programa Python que se deberá ir completando a lo largo de la práctica

 

Material

  • Cuenta de AWS. Si no se tiene cuenta se proporcionará un máquina virtual, para lo cual será necesario tener instalado VirtualBox y Vagrant
  • Putty (o emulador Linux)
  • Aunque no es requerido si aconsejable tener conocimientos básicos de SQL y Python para el seguimiento de las prácticas
  • Diapositivas con el contenido del curso
  • Pen-drive con una máquina virtual con Hadoop y Spark, sw de Hive, fuente del programa de Spark.

Responsabilidades profesor

Presentar el contenido conforme lo presentado en el programa de formación
Guía con las instrucciones para la instalación de Hive y la realización de las prácticas
Facilitar una VM de Vagrant
Pen-drive con una máquina virtual con Hadoop y Spark, SW de Hive, fuente del programa de Spark, datasets para la realización de las prácticas.
Dar acceso al material necesario (PDFs, ejercicios, software, etcs) para el curso contratado.
Proveer de local para impartir la formación

Responsabilidades alumno

Para empezar, para participar en la formación en el periodo determinado, trayendo un notebook con los requisitos mínimos necesarios para la participación en la formación, siendo estos los siguientes:
Instalar Oracle VM VirtualBox y Vagrant
Putty (o emulador Linux)
Mínimo de 4GB de memoria RAM
Es aconsejable tener conocimientos de SQL (se facilitarán las consultas en clase)
Es aconsejable tener conocimientos de Python (se facilitarán los scripts en clase)
Habilitada la virtualización tanto en software como hardware. Es posible que sin esto no sea posible iniciar Virtualbox u otras herramientas asociadas
Poseer privilegios de administración en la máquina

Observaciones importantes

Confirmaciones
Las confirmaciones serán enviadas a la dirección de e-mail enviada por el alumno

Cancelaciones
Los plazos para la cancelación de inscripciones solicitadas, son de 5 días laborales antes del inicio del curso.
En caso de cancelación fuera de plazo por parte del alumno, DevAcademy se reserva el derecho a cobrar un porcentaje (20%) del valor del curso.
Además, DevAcademy se reserva el derecho de cancelar o posponer la formación, siempre y cuando avise al contratante y/o devuelva el importe íntegro en caso de cancelación

Obligaciones del alumno
Es obligatorio que el alumno cumpla con todos las obligaciones recomendadas por el profesor para seguir todos los ejercicios y no demorar ni perjudicar la clase. Además, es posible que días antes se envie un email como recordatorio al alumno con instrucciones a seguir u obligaciones desarrollar para poder estar preparado al comienzo de la clase.



DevAcademy 2021- info@devacademy.es - Telf: 687374918