ippon

Big Data avec Spark (3 jours)

Revenir aux formations

Objectifs.

3 jours de formation sur Spark afin d'explorer toutes les possibilités qu'offre ce nouveau framework, notamment lorsqu'il est couplé avec Cassandra.La formation comprend plus 50% de Tps basé en Scala.

Contenu de la formation.

Présentation d’Apache Spark
  • Objectif du framework et cas d’utilisation
  • Histoire du framework
  • Proximité avec Hadoop et comparaison
  • Les différents modules de Spark
  • Intégration dans l’écosystème
  • Initiation au MapReduce
...
Les bases en Scala
  • Pourquoi utiliser Scala pour écrire des applications Spark
  • Déclaration de variables, de méthodes et de classes
  • Lambda expressions
  • Pattern matching
...
L’API de Spark
  • La notion de Resilient Distributed Dataset (RDD)
  • Construction de RDD : les sources existantes
  • Transformation de RDD : les opérations possibles
  • Actions finales sur un RDD
  • Les partitions : valeurs par défaut et réglages
  • Réutilisation de RDD : cache sur disque ou un mémoire
  • Accumulateurs et variables broadcastées
  • TP : Mise en pratique de l’API des RDD
...
Spark SQL & DataFrames
  • Principe de fonctionnement
  • DataFrames
  • Création de DataFrames depuis un RDD ou via un reader
  • Requêtage en SQL
  • Réutilisation de DataFrames
  • TP
    • Mise en pratique de l’API des DataFrames
    • Exploration de données avec Spark SQL
...
Spark en cluster
  • Topologie et terminologie
  • Types d’hébergement possibles : Yarn, Mesos, Standalone
  • Principe de Data Locality
  • Déployer ses traitements et son stockage de manière appropriée
  • Choix du matériel : recommandations
  • TP
    • Mise en cluster de Spark
    • Mise en pratique avec HDFS
    • Tests de résilience
...
Spark et Cassandra
  • Lecture de tables Cassandra complètes
  • Requêtage via CQL
  • Mapping objet des résultats
  • Écriture de RDD et DataFrames dans Cassandra
  • Connecteur Cassandra et Data Locality
  • Spark dans DSE (DataStax Enterprise)
  • TP
    • Chargement d’une base Cassandra à partir de fichiers
    • Requêtage d’une base Cassandra et dénormalisation des données
...
Spark ML (et MLlib)
  • Introduction au Machine Learning
  • Les différentes classes d’algorithmes de ML
  • Introduction au workflow typique de ML : data cleansing, feature engineering...
  • Les algorithmes présents dans Spark ML et MLlib
  • Utilisation de l’API de Spark ML et MLlibt
  • TP
    • Feature engineering
    • Classification en utilisant l’algorithme de Random Forests
    • Cross-validation
...
Spark Streaming
  • Principe de fonctionnement
  • Notion de DStream
  • Opérations par “fenêtres glissantes”
  • API de streaming
  • Garantie de livraison des messages
  • Comparaison avec Storm/Storm Trident et Apache Flink
  • Sources basiques
  • Sources avancées
    • Apache Kafka
    • Apache Flume
  • Manipulation de streams
    • Transformations
    • Opérations fenêtrées
    • Dataframes et SQL
    • Opérations de ML
    • Cache et persistence
    • Checkpoints
  • Déploiement et monitoring
  • Tuning
  • Tolérance de panne
  • TP : utilisation de DStreams pour manipuler un fichier open data
  • Structured Streaming:
    • Présentation et concepts
    • Modèle de programmation
    • Sources de données
  • TP : utilisation de DataStreams pour manipuler un fichier open data
...

Niveau des participants.

Le niveau requis pour participer à la formation : nous contacter

Le niveau atteint à l’issue de la formation : nous contacter

Localisation.

Cette formation peut être dispensée sur Paris comme en régions, nous contacter pour plus de détails.

Public.

Architectes, chefs de projet

Besoin d'aide?

Vous souhaitez discuter avec nous à propos de votre projet de formation ? Vous voulez organiser une formation personnalisée dans vos locaux ?

Suivez-nous