• 687374918
  • info@devacademy.es

Procesamiento de datos Big Data con Hadoop & Spark

Detalle del plan de formación

Para empezar, actualmente el mundo digital está pasando por una revolución debido a la gran cantidad de datos que se generan en poco tiempo: el Big Data.

Esta revolución está causando nuevos retos que las empresas tienen que enfrentar con tecnologías específicas de procesamiento distribuido, como Hadoop o Spark.

Hadoop es el gran corazón de todo el “Big Data”. Es gracias a esta tecnología que las empresas se han animado a procesar de forma sencilla y barata toda la cantidad ingente de datos. Además, este programa busca el introducir a los alumnos en esta tecnología y su ecosistema.

Spark es una plataforma de computación de código abierto para análisis y procesos avanzados, que tiene muchas ventajas sobre Hadoop. Desde el principio, Spark fue diseñado para soportar en memoria algoritmos iterativos que se pudiesen desarrollar sin escribir un conjunto de resultados cada vez que se procesaba un dato.

Sin embargo, gracias a sus componentes, es sencillo el desarrollar aplicaciones Big data en SQL, Python, Scala o Java usando los diferentes módulos que los desarrolladores tienen a su disposición

Por último, este programa formativo busca facilitar el inicio del alumno en el mundo Big data y las tecnologías de su ecosistema, haciendo foco en Hadoop para el almacenamiento distribuido y Spark para el procesamiento distribuido de forma práctica y cercana al mundo profesional.

Temario

Introducción al Big Data y su ecosistema 

  • Introducción al Big Data
  • Introducción a Hadoop y su arquitectura
  • Hadoop en detalle
    • Sistema de ficheros HDFS
    • El paradigma MapReduce
    • Estructura de un cluster Hadoop: JobTracker, TaskTracker, NameNode y Datanode
    • Arquitectura YARN
    • EJERCICIO: Despliegue de sandbox Big Data y configuración inicial
    • Ejercicios con el sistema de ficheros de Hadoop
  • Ecosistema Hadoop
    • Herramientas
    • Distribuciones: Cloudera, Horton, MapR
  • Tecnologías Datawarehouse
    • Hive
    • Ejercicios Hive
  • Tecnologías Desarrollo
    • Pig
    • Sqoop

Procesamiento de datos con Spark

  • Introducción Apache Spark
  • Conceptos más importantes (librerías internas y visión general)
  • RDD’s
    • Creación
    • Operaciones (Tranformaciones, acciones, evaluación lazy)
    • Persistencia
  • Carga y exportación de datos
    • Formatos de fichero
    • Sistema de fichero
  • Ejecución en cluster
    • Driver y sus ejecutores
    • Cluster manager
    • Despliegue con spark-submit
  • Ejercicios Spark con Python
  • Spark SQL
    • Ejercicios prácticos
  • Introducción a Spark Streamming (ver programa de formación específico de Real Time)

Ejercicios prácticos

El alumno desarrollará durante todo el curso ejercicios prácticos de procesamiento distribuido. Como por ejemplo,  el histórico de logs, datos de twitter o diferentes ejemplos usando componentes que el alumno podrá reaprovechar en desarrollos profesionales.

 

Fechas, horario y lugar

Actualmente no hay fechas disponibles. Mándanos un email para tenerte en lista y completer un grupo para poder organizarlo. En caso de ser empresa te ayudamos a organizarlo a medida para tus empleados o compañeros.

Responsabilidades profesor

Presentar el contenido conforme lo presentado en el programa de formación
Dar acceso al material necesario (PDFs, ejercicios, software, etcs) para el curso contratado.
Proveer de local para impartir la formación

Responsabilidades alumno

Participar en la formación en el periodo determinado, trayendo un notebook con los requisitos mínimos necesarios para la participación en la formación, siendo estos los siguientes:
Mínimo de 4GB de memoria RAM
Mínimo de 10GB de espacio en disco (HD).
Habilitada la virtualización tanto en software como hardware
Por último,poseerá privilegios de administración

Observaciones importantes

Confirmaciones
Las confirmaciones serán enviadas a la dirección de e-mail enviada por el alumno.

Cancelaciones
Los plazos para la cancelación de inscripciones solicitadas, son de 5 días laborales antes del inicio del curso.
En caso de cancelación fuera de plazo por parte del alumno, DevAcademy se reserva el derecho a cobrar un porcentaje (20%) del valor del curso.
Además, DevAcademy se reserva el derecho de cancelar o posponer la formación, siempre y cuando avise al contratante y/o devuelva el importe íntegro en caso de cancelación

Obligaciones del alumno
Es obligatorio que el alumno cumpla con todos las obligaciones recomendadas por el profesor para seguir todos los ejercicios y no demorar ni perjudicar la clase. Además, es posible que días antes se envie un email como recordatorio al alumno con instrucciones a seguir u obligaciones desarrollar para poder estar preparado al comienzo de la clase.



DevAcademy 2024 - info@devacademy.es - Telf: 687374918