• 687374918
  • info@devacademy.es

Introducción práctica a Big Data & Apache Spark

Detalle del plan de formación

Big data es una de las áreas innovadoras del software y procesamiento de datos y en completo crecimiento desde hace muy pocos años debido a la gran demanda del procesamiento de datos generados en las grandes compañías. Apache Spark.

Para poder hacer procesamientos de datos masivos se han inventado metodologías y tecnologías específicas con el fin de aplicar el concepto «divide y vencerás» en hardware asequible por las empresas y distribuido. Una de las grandes tecnologías durante los últimos años y cada vez más adoptada en los proyectos es Apache Spark.

DevAcademy, consciente de las necesidades de profesionales y empresas de acometer proyectos en tecnologías Big Data ofrece un programa de formación de introducción en Big Data donde los alumnos podrán ver una visión global del estado del ecosistema Big Data y aprender las bondades que ofrece Apache Spark a la hora de crear flujos de procesamiento Batch y Near Real Rime

Temario

Módulo 1. Introducción a Big Data y el ecosistema 

  • Introducción al Big Data
  • Introducción a Hadoop y su arquitectura
  • Hadoop en detalle
    • Sistema de ficheros HDFS
    • El paradigma MapReduce
    • Estructura de un cluster Hadoop: JobTracker, TaskTracker, NameNode y Datanode
    • Arquitectura YARN
    • Ejercicios con el sistema de ficheros de Hadoop
  • Ecosistema Hadoop
    • Herramientas
    • Distribuciones
  • Tecnologías Datawarehouse
    • Hive
  • Tecnologías Desarrollo
    • Pig
    • Sqoop

Procesamiento de datos con Spark

  • Introducción Apache Spark
  • Conceptos más importantes (librerías internas y visión general)
  • RDD’s
    • Creación
    • Operaciones (Tranformaciones, acciones, evaluación lazy)
    • Persistencia
  • Carga y exportación de datos
    • Formatos de fichero
    • Sistema de fichero
  • Ejecución en cluster
    • Driver y sus ejecutores
    • Cluster manager
    • Despliegue con spark-submit
  • Ejercicios Spark con Python
  • Spark SQL y Dataframes
    • Ejercicios prácticos
  • Introducción a Spark Streamming
  • Introducción a Spark MLib

 

 

Fechas, horario y lugar

Actualmente no hay fechas disponibles. Mándanos un email para tenerte en lista y completer un grupo para poder organizarlo. En caso de ser empresa te ayudamos a organizarlo a medida para tus empleados o compañeros.

Responsabilidades profesor

Presentar el contenido conforme lo presentado en el programa de formación
Dar acceso al material necesario (PDFs, ejercicios, software, etcs) para el curso contratado.
Proveer de local para impartir la formación

Responsabilidades alumno

Participar en la formación en el periodo determinado, trayendo un notebook con los requisitos mínimos necesarios para la participación en la formación, siendo estos los siguientes:
Mínimo de 4GB de memoria RAM
Mínimo de 10GB de espacio en disco (HD).
Habilitada la virtualización tanto en software como hardware
Poseer privilegios de administración

Observaciones importantes

Confirmaciones
Las confirmaciones serán enviadas a la dirección de e-mail enviada por el alumno

Cancelaciones
Los plazos para la cancelación de inscripciones solicitadas, son de 5 días laborales antes del inicio del curso.
En caso de cancelación fuera de plazo por parte del alumno, DevAcademy se reserva el derecho a cobrar un porcentaje (20%) del valor del curso.
Por lo tanto, DevAcademy se reserva el derecho de cancelar o posponer la formación, siempre y cuando avise al contratante y/o devuelva el importe íntegro en caso de cancelación

Obligaciones del alumno
Es obligatorio que el alumno cumpla con todos las obligaciones recomendadas por el profesor para seguir todos los ejercicios y no demorar ni perjudicar la clase. Además, es posible que días antes se envie un email como recordatorio al alumno con instrucciones a seguir u obligaciones desarrollar para poder estar preparado al comienzo de la clase.



DevAcademy 2024 - info@devacademy.es - Telf: 687374918