Spark | Développer des applications pour le Big Data Mixte : présentiel / à distance

Dernière mise à jour : 16/04/2024

Bannière visuelle de présentation de la formation

Présentation

Cette formation vous fournira une solide introduction technique à l'architecture Spark et au fonctionnement de Spark. Vous apprendrez les éléments de base de Spark, notamment les RDD et le moteur de calcul distribué, ainsi que les constructions de niveau supérieur, qui fournissent une interface plus simple et plus performante, notamment Spark SQL et DataFrames.

 

Vous verrez également des capacités plus avancées telles que l'utilisation de Spark Streaming pour traiter les données en continu, et aurez un aperçu du traitement graphique Spark (GraphX et GraphFrames) et du Machine Learning Spark (SparkML Pipelines).

 

Enfin, vous explorerez les éventuels problèmes de performance, le dépannage, les techniques de déploiement de grappes et les stratégies d'optimisation.

Informations éligibilité financement Actions Collectives

Formation pouvant être prise en charge à 100% dans le cadre des Actions Collectives.

Pour en bénéficier, contactez-nous à hello.institute@docaposte.fr et complétez votre inscription sur campusAtlas. 

https://www.docaposteinstitute.com/wp-content/uploads/2023/08/Eligible-actions-co-1.png

Objectifs

  • Comprendre la n√©cessit√© de Spark dans le traitement des donn√©es
  • Comprendre l'architecture Spark et la distribution des calculs aux nŇďuds de cluster.
  • Se familiariser avec l'installation de base / la configuration / l'agencement de Spark
  • Utiliser Spark pour des op√©rations interactives et ad hoc
  • Utiliser Dataset/DataFrame/Spark SQL pour traiter efficacement les donn√©es structur√©es
  • Comprendre les bases des RDD (Resilient Distributed Datasets), ainsi que le partitionnement, la circulation dans les pipelines et le calcul des donn√©es
  • Comprendre la mise en cache des donn√©es de Spark et son utilisation
  • Comprendre les implications et les optimisations des performances lors de l'utilisation de Spark
  • Se familiariser avec le traitement graphique et l'apprentissage machine SparkML

Programme

La montée en puissance de Scala

  • Introduction √† Scala, variables, types de donn√©es, flux de contr√īle
  • L'interpr√©teur Scala
  • Collections et m√©thodes standard (par exemple map())
  • Fonctions, m√©thodes, fonctions litt√©rales
  • Classe, objet, trait

 

Introduction à Spark

  • Vue d'ensemble, motivations, syst√®mes Spark
  • Ecosyst√®me de Spark
  • Spark vs. Hadoop
  • Environnements typiques de d√©ploiement et d'utilisation de Spark

 

Les RDD et l'architecture Spark

  • Concepts de RDD, partitions, cycle de vie, √©valuation paresseuse
  • Travailler avec les RDD - Cr√©er et transformer (carte, filtre, etc.)
  • Mise en cache - Concepts, type de stockage, directives

 

DataSets/DataFrames et Spark SQL

  • Introduction et utilisation
  • Cr√©ation et utilisation d'un ensemble de donn√©es
  • Travailler avec JSON
  • Utilisation du DataSet DSL
  • Utiliser SQL avec Spark
  • Formats de donn√©es
  • Optimisations : Catalyst et Tungsten
  • DataSets vs. DataFrames vs. RDD

 

Créer des applications Spark

  • Aper√ßu, code de pilote simple, SparkConf
  • Cr√©ation et utilisation d'un contexte SparkContext/SparkSession
  • Cr√©ation et fonctionnement des applications
  • Cycle de vie des applications
  • Gestionnaires de clusters
  • Logging et d√©bogage

 

Spark Streaming

  • Vue d'ensemble et principes de base de la diffusion en continu
  • Streaming structur√©
  • DStreams (Discretized Steams),
  • Architecture, Stateless, Stateful, et Windowed Transformations
  • API de diffusion en continu (Spark Streaming)
  • Programmation et transformations

 

Caractéristiques et optimisation des performances

  • UI Spark
  • D√©pendances √©troites vs. larges
  • R√©duire au minimum le traitement et le brassage des donn√©es
  • Mise en cache - Concepts, type de stockage, lignes directrices
  • Utilisation de la mise en cache
  • Utilisation des variables de diffusion et des accumulateurs

 

Aperçu de Spark GraphX

  • Introduction
  • Construire des graphiques simples
  • API GraphX
  • Exemple de chemin le plus court

 

Aperçu de MLLib

  • Introduction
  • Vecteurs caract√©ristiques
  • Regroupement / Groupement, K-Means
  • Recommandations
  • Classifications

 

Conclusion

Public visé

  • Chefs de projet,
  • Data Scientist,
  • D√©veloppeurs,
  • Architectes...

Modalités pédagogiques

Docaposte Institute propose plusieurs dispositifs pédagogiques adaptés aux apprenants :

 

  • Formation en pr√©sentiel
    • En groupe (inter-entreprises ou intra-entreprise)
    • En individuel (monitorat)
    • En journ√©e ou en cours du soir (sur demande sp√©cifique)
  • Formation en distanciel
    • Distanciel synchrone
    • Distanciel asynchrone

 

 

Prérequis

  • Connaissance de la programmation fonctionnelle avec les langages Java ou Python,
  • Connaissances en gestion des bases de donn√©es,
  • Notions de calculs statistiques.

Moyens et supports pédagogiques

  • ¬∑¬†¬†¬†¬†¬†¬† Apports¬†des connaissances communes.
  • ¬∑¬†¬†¬†¬†¬†¬† Mises en situation sur le th√®me de la formation¬†et des cas concrets.
  • ¬∑¬†¬†¬†¬†¬†¬† M√©thodologie d'apprentissage attractive, interactive et participative.
  • ¬∑¬†¬†¬†¬†¬†¬† Equilibre th√©orie / pratique : 60 % / 40 %.
  • ¬∑¬†¬†¬†¬†¬†¬† Supports de cours fournis au format papier et/ou num√©rique.
  • ¬∑¬†¬†¬†¬†¬†¬† Ressources documentaires en ligne et r√©f√©rences mises √† disposition par le formateur.
  • ¬∑¬†¬†¬†¬†¬†¬† Pour les formations en pr√©sentiel dans les locaux mis¬†√† disposition, les apprenants¬†sont accueillis dans une salle de cours √©quip√©e d'un r√©seau Wi-Fi, d'un tableau blanc ou paperboard. Un ordinateur avec les logiciels appropri√©s est mis √† disposition (le cas √©ch√©ant).

Modalités d'évaluation et de suivi

En amont de la formation

·       Recueil des besoins des apprenants afin de disposer des informations essentielles au bon déroulé de la formation (profil, niveau, attentes particulières...).

·       Auto-positionnement des apprenants afin de mesurer le niveau de départ.

Tout au long de la formation

¬∑¬†¬†¬†¬†¬†¬† √Čvaluation continue des acquis avec¬†des questions orales, des exercices, des QCM, des cas pratiques ou mises en situation...

A la fin de la formation

·       Auto-positionnement des apprenants afin de mesurer l'acquisition des compétences.

·       Evaluation par le formateur des compétences acquises par les apprenants.

·       Questionnaire de satisfaction à chaud afin de recueillir la satisfaction des apprenants à l'issue de la formation.

·       Questionnaire de satisfaction à froid afin d'évaluer les apports ancrés de la formation et leurs mises en application au quotidien.

Accessibilité

Nos formations peuvent être adaptées à certaines conditions de handicap. Nous contacter pour toute information et demande spécifique.

M'inscrire à la formation

Valider la pré-inscription
Inscription possible jusqu'à 10 jours avant démarrage formation

Prochaines Sessions

  • D√©sol√©, cette formation n'est pas programm√©e pour le moment.

    Si vous êtes responsable formation, vous pouvez faire une requête pour l'organiser en INTRA dans votre entreprise.

Dans la même catégorie

Catalogue de formation propulsé par Dendreo,
Plateforme dédiée pour les OF