Formation Scala pour la Data Science : Fondamentaux et Préparation Spark Mixte : présentiel / à distance

Dernière mise à jour : 06/02/2026

Pré-inscription

Veuillez décrire votre situation

Ajouter au panier

Présentation

Cette formation de trois jours est conçue pour introduire les Data Scientists à Scala, en mettant l'accent sur son utilisation dans un environnement Spark. Le premier jour couvre les bases de Scala, y compris sa syntaxe et la manipulation de données sur Databricks. Le deuxième jour explore les paradigmes fonctionnels et impératifs, ainsi que la modélisation des données et la gestion des erreurs. Le troisième jour prépare les participants à utiliser Scala avec Spark, en structurant des notebooks et en travaillant sur un projet final de pipeline data science. Chaque journée inclut des exercices pratiques pour renforcer les compétences acquises et préparer les participants à des projets réels.

Objectifs

Acquérir les bases de Scala pour une utilisation efficace avec Spark.
Comprendre les spécificités du langage par rapport à Python, notamment dans le contexte data science.
Être capable d'écrire du code Scala propre, idiomatique, prêt à être utilisé avec Spark.

Public visé

Le public visé pour cette formation comprend principalement les data scientists, les chefs de projet et les développeurs.

Cette formation est également adaptée aux statisticiens, consultants Big Data, et data analysts.

Prérequis

Connaissance solide de Python ou un langage du type Java, notamment dans un contexte notebook et data science

Programme

Jour 1 – Introduction à Scala pour Data Scientists

Contexte et positionnement de Scala

Historique et cas d'usage
Intérêt de Scala dans un environnement Spark
Scala vs Python pour la data science

Syntaxe de base Scala

Variables, types, expressions
Fonctions : déclaration, expression lambda
Structures de contrôle (if, match, for, while)

Collections et manipulation de données

List, Set, Map, Tuple
Immutabilité, transformation avec map, filter, flatMap
Comparaison avec les outils Python : pandas, list comprehension, etc.

Premiers pas sur Databricks (support de la formation)

Notebooks Scala
Chargement de fichiers simples (CSV, JSON)
Affichage de données tabulaires

Exercices pratiques : mini-notebooks de manipulation de données (prétraitement, parsing, regroupement)

Jour 2 – Paradigmes et structuration du code Scala

Fonctionnel vs impératif

Réduction des effets de bord
Fonctions pures, immutabilité, fonctions d'ordre supérieur
Illustration sur des transformations de données

Pattern matching avancé

Cas d'usage sur des structures de données complexes (JSON, vecteurs, etc.)
Comparaison avec les structures conditionnelles Python

Modélisation avec classes et objets

case class pour modéliser des données typées
companion object, méthodes utilitaires
Introduction à la POO en Scala

Gestion fonctionnelle des erreurs

Option, Some, None dans le prétraitement
Try, Success, Failure dans les chargements et conversions de données

Exercices pratiques : pipeline de préparation de données (nettoyage, enrichissement, typage)

Jour 3 – Scala pour la data science avec Spark (préparation)

Structuration de notebooks Scala pour Spark

Organisation du code (fonctions réutilisables, séparations logiques)
Bonnes pratiques de structuration des notebooks

Lecture/écriture de données

Chargement de données CSV, JSON, Parquet
Préparation des données avant modélisation
Export de résultats typés

Interopérabilité et pratique mixte Scala/Python (si utile)

Notebooks mixtes via %python, %scala
Cas d'usage : Scala pour les prétraitements, Python pour les modèles

Projet final – Atelier Scala data science (sans Spark API avancée)

Objectif : simuler un pipeline data science complet (chargement, nettoyage, enrichissement)
Structuration idiomatique Scala pour une future utilisation avec Spark

Exercice final : pipeline Scala préparatoire à un traitement Spark distribué

Modalités pédagogiques

Docaposte Institute propose plusieurs dispositifs pédagogiques adaptés aux apprenants :

Formation en présentiel

En groupe (inter-entreprises ou intra-entreprise)
En individuel (monitorat)
En journée ou en cours du soir (sur demande spécifique)

Formation en distanciel

Distanciel synchrone
Distanciel asynchrone

Moyens et supports pédagogiques

Apports des connaissances communes.
Mises en situation sur le thème de la formation et des cas concrets.
Méthodologie d'apprentissage attractive, interactive et participative.
Equilibre théorie / pratique : 60 % / 40 %.
Supports de cours fournis au format papier et/ou numérique.
Ressources documentaires en ligne et références mises à disposition par le formateur.
Pour les formations en présentiel dans les locaux mis à disposition, les apprenants sont accueillis dans une salle de cours équipée d'un réseau Wi-Fi, d'un tableau blanc ou paperboard. Un ordinateur avec les logiciels appropriés est mis à disposition (le cas échéant).

Modalités d'évaluation et de suivi

En amont de la formation :

Recueil des besoins des apprenants afin de disposer des informations essentielles au bon déroulé de la formation (profil, niveau, attentes particulières...).
Auto-positionnement des apprenants afin de mesurer le niveau de départ.

Tout au long de la formation :

Évaluation continue des acquis avec des questions orales, des exercices, des QCM, des cas pratiques ou mises en situation...

A la fin de la formation :

Auto-positionnement des apprenants afin de mesurer l'acquisition des compétences.
Evaluation par le formateur des compétences acquises par les apprenants.
Questionnaire de satisfaction à chaud afin de recueillir la satisfaction des apprenants à l'issue de la formation.
Questionnaire de satisfaction à froid afin d'évaluer les apports ancrés de la formation et leurs mises en application au quotidien.

Informations sur l'admission

Nous consulter.

Modalités d'admission

Admission sans disposition particulière

Accessibilité

Nos formations peuvent être adaptées à certaines conditions de handicap. Nous contacter pour toute information et demande spécifique.

Catégorie : Data et IA Appliquée
Sous-Catégorie : Data Science & Machine Learning
Durée : 21h
Prix : 2 150 € HT

Prix INTRA : Nous consulter
Référence : MOD_20251497
Satisfaction :

★★★★★

★★★★★
Taux de réussite : - %
Télécharger le programme

Accessibilité à nos formations

Si vous êtes en situation de handicap, contactez-nous avant le début de votre formation pour que nous puissions vous orienter efficacement et vous accueillir dans les meilleures conditions.

Inscription possible jusqu'à 10 jours avant le démarrage de la formation

Prochaines Sessions

Cette formation n'est pas programmée pour le moment.

Contactez-nous pour planifier une session ensemble !

Dans la même catégorie

Voir toutes les formations

Catalogue de formation propulsé par Dendreo,
Plateforme dédiée pour les OF