ippon

Big Data avec Spark (3 jours)

Revenir aux formations

Objectifs.

3 jours de formation sur Spark afin d'explorer toutes les possibilités qu'offre ce nouveau framework, notamment lorsqu'il est couplé avec Cassandra.La formation comprend plus 50% de Tps basé en Scala.

Contenu de la formation.

Présentation d’Apache Spark
  • Objectif du framework et cas d’utilisation
  • Histoire du framework
  • Proximité avec Hadoop et comparaison
  • Les différents modules de Spark
  • Intégration dans l’écosystème
  • Initiation au MapReduce
...
Les bases en Scala
  • Pourquoi utiliser Scala pour écrire des applications Spark
  • Déclaration de variables, de méthodes et de classes
  • Lambda expressions
  • Pattern matching
...
L’API de Spark
  • La notion de Resilient Distributed Dataset (RDD)
  • Construction de RDD : les sources existantes
  • Transformation de RDD : les opérations possibles
  • Actions finales sur un RDD
  • Les partitions : valeurs par défaut et réglages
  • Réutilisation de RDD : cache sur disque ou un mémoire
  • Accumulateurs et variables broadcastées
  • TP : Mise en pratique de l’API des RDD
...
Spark SQL & DataFrames
  • Principe de fonctionnement
  • DataFrames
  • Création de DataFrames depuis un RDD ou via un reader
  • Requêtage en SQL
  • Réutilisation de DataFrames
  • TP
    • Mise en pratique de l’API des DataFrames
    • Exploration de données avec Spark SQL
...
Spark en cluster
  • Topologie et terminologie
  • Types d’hébergement possibles : Yarn, Mesos, Standalone
  • Principe de Data Locality
  • Déployer ses traitements et son stockage de manière appropriée
  • Choix du matériel : recommandations
  • TP
    • Mise en cluster de Spark
    • Mise en pratique avec HDFS
    • Tests de résilience
...
Spark et Cassandra
  • Lecture de tables Cassandra complètes
  • Requêtage via CQL
  • Mapping objet des résultats
  • Écriture de RDD et DataFrames dans Cassandra
  • Connecteur Cassandra et Data Locality
  • Spark dans DSE (DataStax Enterprise)
  • TP
    • Chargement d’une base Cassandra à partir de fichiers
    • Requêtage d’une base Cassandra et dénormalisation des données
...
Spark ML (et MLlib)
  • Introduction au Machine Learning
  • Les différentes classes d’algorithmes de ML
  • Introduction au workflow typique de ML : data cleansing, feature engineering...
  • Les algorithmes présents dans Spark ML et MLlib
  • Utilisation de l’API de Spark ML et MLlibt
  • TP
    • Feature engineering
    • Classification en utilisant l’algorithme de Random Forests
    • Cross-validation
...
Spark Streaming
  • Principe de fonctionnement
  • Notion de DStream
  • Opérations par “fenêtres glissantes”
  • API de streaming
  • Garantie de livraison des messages
  • Comparaison avec Storm/Storm Trident et Apache Flink
  • Sources basiques
  • Sources avancées
    • Apache Kafka
    • Apache Flume
  • Manipulation de streams
    • Transformations
    • Opérations fenêtrées
    • Dataframes et SQL
    • Opérations de ML
    • Cache et persistence
    • Checkpoints
  • Déploiement et monitoring
  • Tuning
  • Tolérance de panne
  • TP : utilisation de DStreams pour manipuler un fichier open data
  • Structured Streaming:
    • Présentation et concepts
    • Modèle de programmation
    • Sources de données
  • TP : utilisation de DataStreams pour manipuler un fichier open data
...

Niveau des participants.

Le niveau requis pour participer à la formation : débutant

Le niveau atteint à l’issue de la formation : avancé

Localisation.

Cette formation peut être dispensée sur Paris comme en régions, nous contacter pour plus de détails.

Public.

Architectes, chefs de projet

Besoin d'aide?

Vous souhaitez discuter avec nous à propos de votre projet de formation ? Vous voulez organiser une formation personnalisée dans vos locaux ?

Suivez-nous