• 687374918
  • info@devacademy.es

Real Time con Apache Spark Streaming

Detalle del plan de formación

Desarrollado en Scala, Spark es una plataforma de computación de código abierto para análisis y procesos avanzados, que tiene muchas ventajas sobre Hadoop. Desde el principio, Spark fue diseñado para soportar en memoria algoritmos iterativos que se pudiesen desarrollar sin escribir un conjunto de resultados cada vez que se procesaba un dato. Esta habilidad para mantener todo en memoria es una técnica de computación de alto rendimiento aplicado al análisis avanzado, la cual permite que Spark tenga unas velocidades de procesamiento que sean 100 veces más rápidas que las conseguidas utilizando MapReduce.

Spark Streaming

Spark Streaming es uno de los módulos del core de Spark API que permite la escalabilidad, alto rendimiento y tolerancia a fallos de flujos de datos vivos.

Estos datos pueden ser ingeridos desde diferentes fuentes como Kafka, Flume, Twitter, ZeroMQ, Kinesis, or sockets TCP, y pueden ser procesados usando algoritmos complejos que utilizan mapeadores y reductores, por ejemplo. Finalmente, este output que se genera al procesar datos vivos de un flujo constante se podrán guardar en diferentes sistemas de archivos, bases de datos o dashboards dinámicos. Además, se pueden aplicar algoritmos de minería de datos en estos flujos de datos.

En este curso podrás aprender a cómo procesar flujos de datos constantes. Se recorrerá toda la teoría y con ejercicios prácticos podrás iniciarte en este apasionante mundo del Big Data Real Time con la tecnología más innovadora y más influyente en este ámbito de forma sencilla y guiada por un profesor.

Temario

  • Qué es un flujo de Streaming
  • Sistemas de Streaming
  • Qué es Apache Spark Streaming
  • Ventajas de Apache Spark Streaming
  • Los RDD en Apache Spark
  • Discretized Streams (DStream)
  • Creación de un DStream
  • Transformación de un DStream
  • Operaciones de persistencia (Outputs)
  • Dataframes y operaciones SQL
  • Ejercicios varios con propósito general del caso práctico

Caso práctico durante la sesión

  • Procesamiento de un flujo de datos
    • Los alumnos aprenderán a desplegar un programa en Spark que lea datos de una fuente de datos constante y realizar operaciones dinámicas de los mismos, obteniendo un output que será almacenado en un sistema de ficheros.

Responsabilidades profesor

Presentar el contenido conforme lo presentado en el programa de formación
Proyecto en Github para clonar
Dar acceso al material necesario (PDFs, ejercicios, software, etcs) para el curso contratado.
Proveer de local para impartir la formación

Responsabilidades alumno

Participar en la formación en el periodo determinado, trayendo un notebook con los requisitos mínimos necesarios para la participación en la formación, siendo estos los siguientes:
Mínimo de 4GB de memoria RAM
Mínimo de 10GB de espacio en disco (HD).
Habilitada la virtualización tanto en software como hardware
Poseer privilegios de administración

Observaciones importantes

Confirmaciones
Las confirmaciones serán enviadas a la dirección de e-mail enviada por el alumno

Cancelaciones
Los plazos para el cancelamiento de inscripciones solicitadas, son de 5 días laborales antes del inicio del curso.
En caso de cancelamiento fuera de plazo por parte del alumno, DevAcademy se reserva el derecho a cobrar un porcentaje (20%) del valor del curso.
DevAcademy se reserva el derecho de cancelar o posponer la formación, siempre y cuando avise al contratante y/o devuelva el importe íntegro en caso de cancelación

Obligaciones del alumno
Es obligatorio que el alumno cumpla con todos las obligaciones recomendadas por el profesor para seguir todos los ejercicios y no demorar ni perjudicar la clase. Es posible que días antes se envie un email como recordatorio al alumno con instrucciones a seguir u obligaciones desarrollar para poder estar preparado al comienzo de la clase.



DevAcademy 2024 - info@devacademy.es - Telf: 687374918