Gestion de données
5$/h – Science des données (datascience) – Niveau 2 (anglais)
Objectif:
Les méthodes d’analyse prédictive sont au cœur de ce cours. Les participants apprendront les méthodes statistiques standard actuellement utilisées dans l’industrie pour effectuer des analyses prédictives. Ceci inclut la régression linéaire et non linéaire et plusieurs méthodes de classification telles que la régression logistique, KNN, les arbres de décision et la SVM. Les participants apprendront à rechercher les données disponibles et à choisir la meilleure méthode prédictive à appliquer. Les éléments clés de ce cours sont la compréhension de ces méthodes, la méthodologie pour les évaluer et les critères pour choisir la meilleure méthode.
La méthodologie du cours est basée sur de courtes conférences en ligne présentant les concepts et utilisant des exemples de l’industrie. Chaque leçon théorique est suivie d’un laboratoire utilisant des données réelles, où les participants effectueront des tâches spécifiques avec Python et conçues pour renforcer les concepts théoriques. Le cours se termine avec un hackathon effectué à l’aide de Google Cloud Platform (GCP) ou Google Colab.
Contenu:
- Introduction à l’apprentissage statistique applique à la science des données
- Analyse de données de base à l’aide de Python : histogrammes, nuages de points et de nuages de points
- Régression linéaire des variables continues
- Classificateur de vraisemblance maximale et de régression logistique. Classificateur K-Nearest Neighbors (KNN)
- Arbres de décision pour la régression et la classification
- Apprentissage automatique dans les plates-formes basées sur le cloud – GCP.
Thèmes hebdomadaires
Semaine 1: Thèmes 1 et 2
- Introduction, description du cours et aperçu.
- Analyse statistique de base : corrélation, histogrammes, diagrammes en boîtes et en nuages de points.
Semaine 2: Thèmes 3 et 4
- Régression des variables continues au-delà de la linéarité
Semaine 3: Thèmes 5 et 6
- Classification dirigée
Semaine 4: Thème 7
- Apprentissage automatique dans GCP
PLANGUES DE PROGRAMMATION À UTILISER
Pour le cours, nous utiliserons principalement Python, qui est la norme de l’industrie pour l’apprentissage statistique qui fournit des fonctions pour la plupart des méthodes. Les principes fondamentaux de SQL sont nécessaires pour concevoir des requêtes dans GCP pour le ML et l’analyse de données. MS-Teams sera la plate-forme d’apprentissage en ligne qui permettra des réunions et des présentations en ligne, l’affichage de sondages et de devoirs et l’enregistrement de conférences pour la révision de la conférence par les étudiants.
LABORATOIRES ET ENSEMBLES DE DONNÉES
Lors des laboratoires, le participant mettra en pratique les méthodes de prédiction et de classification vues en classe en utilisant les ensembles de données fournis.
Préalables
- Manipulation et traitement des données dans un outil de BI ou un système de base de données SQL.
- Principes fondamentaux de SQL.
- Réussite du cours Science des données niveau 1ou connaissances équivalentes.