• 687374918
  • info@devacademy.es

Curso en Desarrollo Big Data con Apache Spark

Detalle del plan de formación

Programa Práctico en Desarrollo Big Data con Apache Spark

El Big data es una de las áreas innovadoras del software y procesamiento de datos y en completo crecimiento desde hace muy pocos años, donde el objetivo es procesar todos los datos con el fin de transformarlos en información y así generar conocimiento.

La gran mayoría de los proyectos de Big Data disponen de un stack tecnológico donde no suelen faltar tecnologías innovadoras tanto en la parte de ingestión, almacenamiento y procesamiento. La tecnología más demandada en los proyectos es Apache Spark, pues casi el 80% de los mismos buscan el ingestar, limpiar, transformar y procesar los datos, y esta herramienta es la más socorrida por todos los equipos Big Data.

Spark es una plataforma de computación de código abierto para análisis y procesos avanzados, que tiene muchas ventajas sobre Hadoop. Desde el principio, Spark fue diseñado para soportar en memoria algoritmos iterativos que se pudiesen desarrollar sin escribir un conjunto de resultados cada vez que se procesaba un dato.

Este curso busca facilitar el inicio y aprendizaje de la herramienta en los dos puntos clave: procesamiento Batch y procesamiento Real Time, así como conceptos básicos e importantes de Spark. Se enseñarán las mejores prácticas que podrás usar en tus desarrollos para procesamiento de grandes volúmenes de datos

Temario

Breve introducción al Big Data 

  • Qué es BigData
  • Ecosistema de tecnologías Big Data y visión global

Conceptos básicos de programación para Spark

  • Estructuras de datos en Scala y Python
  • Estructuras de control y funciones en Scala y Python

Introducción a Apache Spark

Procesamiento de datos en Batch

    • Apache Spark
      • Instalación
      • Dependencias
  • Apache Spark a fondo
    • RDD’s
      • Creación
      • Operaciones (Tranformaciones, acciones, evaluación lazy)
      • Ejercicios prácticos
      • Persistencia y almacenamiento
    • DataFrames
      • Formatos de fichero (CSV, JSON,Parquet..etc)
      • Operaciones (Tranformaciones, acciones, evaluación lazy)
      • Persistencia y almacenamiento
      •  Ejercicios prácticos
    • DataSets
      • Operaciones (Tranformaciones, acciones, evaluación lazy)
      • Ejercicios prácticos
    • SQL API
      • Ejercicios prácticos
    • Ejecución en cluster
      • Driver y sus ejecutores
      • Cluster manager
      • Despliegue con spark-submit
    • Spark UI
      • DAG
      • Plan de ejecución
      • Optimización

Procesamiento de datos en Real Time

  • Conceptos de procesamiento Real Time
  • Apache Kafka
    • Productor
    • Consumidor
  • Apache Spark a fondo
    • Spark Streaming
      • Operaciones
      •  Ejercicios prácticos
    • Structured Streaming 
      • Operaciones
      •  Ejercicios prácticos
    • Spark UI Streaming
      • Optimización Streaming

Casos prácticos

Durante las sesiones de trabajo, los alumnos aprenderán diferentes ejercicios guiados para probar e introducir la tecnología de forma sencilla. Además, serán propuestos diferentes casos prácticos como a continuación

Procesamiento de un flujo de datos

  • Caso práctico Batch: Los alumnos aprenderán a desplegar un programa en Spark que lea datos de una fuente de datos constante y realizar operaciones dinámicas de los mismos, obteniendo un output que será almacenado en un sistema de ficheros
  • Caso práctico Real Time: Los alumnos desarrollarán  durante las sesiones ejercicios prácticos de procesamiento distribuido en tiempo real, ya sea el histórico de logs, datos de twitter o diferentes ejemplos usando componentes que el alumno podrá reaprovechar en desarrollos profesionales

Fechas, horario y lugar

Actualmente no hay fechas disponibles. Mándanos un email para tenerte en lista y completer un grupo para poder organizarlo. En caso de ser empresa te ayudamos a organizarlo a medida para tus empleados o compañeros.

Responsabilidades profesor y DevAcademy

 Presentar el contenido conforme lo presentado en el programa de formación
Dar acceso al material necesario (PDFs, ejercicios, software, etcs) para el curso contratado.
 Proveer de local para impartir la formación

Responsabilidades alumno

Participar en la formación en el periodo determinado, trayendo un notebook con los requisitos mínimos necesarios para la participación en la formación, siendo estos los siguientes:
 Mínimo de 8GB de memoria RAM
 Mínimo de 10GB de espacio en disco (HD).
 Habilitada la virtualización tanto en software como hardware
 Poseer privilegios de administración

Observaciones importantes

Confirmaciones
Las confirmaciones serán enviadas a la dirección de e-mail enviada por el alumno

Cancelaciones
Los plazos para la cancelación de inscripciones solicitadas, son de 5 días laborales antes del inicio del curso.
En caso de cancelación fuera de plazo por parte del alumno, DevAcademy se reserva el derecho a cobrar un porcentaje (20%) del valor del curso.
DevAcademy se reserva el derecho de cancelar o posponer la formación, siempre y cuando avise al contratante y/o devuelva el importe íntegro en caso de cancelación

Obligaciones del alumno
Es obligatorio que el alumno cumpla con todos las obligaciones recomendadas por el profesor para seguir todos los ejercicios y no demorar ni perjudicar la clase. Es posible que días antes se envie un email como recordatorio al alumno con instrucciones a seguir u obligaciones desarrollar para poder estar preparado al comienzo de la clase.

Si quieres informarte sobre más cursos de DevAcademy, haz click aquí



DevAcademy 2024 - info@devacademy.es - Telf: 687374918