Gestion de données
5$/h – Science des données (datascience) – Niveau 3 (anglais)
Objectif:
Ce cours traite de méthodes plus avancées d’apprentissage automatique. À la fin du cours, le participant aura appris un ensemble de méthodes à appliquer pour les problèmes de régression, de classification supervisée et non supervisée.
La méthodologie du cours est basée sur des cours théoriques animés par l’instructeur, qui présentera les concepts à l’aide d’exemples. Les course sont suivis de laboratoire utilisant des données réelles où les participants effectueront des tâches spécifiques en Python et GCP. Ces taches sont conçues pour renforcer les concepts théoriques introduits.
Les étudiants compléteront un court projet de prédiction de données avec les données de leur choix, où ils mettront en pratique la théorie apprise dans le cours. Des exemples de projets d’anciens étudiants sont énumérés ci-dessous
https://public.tableau.com/views/StudentProjects/StudentProjects
Contenu:
- Revue de régression et méthodes avancées de sélection des variables : Ridge, Lasso.
- Méthodes d’évaluation supervisée et non supervisée
- Prévision
- Big Data et systèmes commerciaux d’apprentissage automatique
- Présentation du projet
Sujets hebdomadaires
- Semaine 1: Thèmes 1
- Semaine 2: Thème 2
- Semaine 3: Thème 3
- Semaine 4: Thème 4
Plateformes
Pour le cours, nous utiliserons principalement Python, qui est la norme de l’industrie pour l’apprentissage statistique et fournit des fonctions pour la plupart des méthodes. Pour l’apprentissage automatique (ML) basé sur le cloud dans GCP, l’étudiant aura besoin de compétences SQL de base. Les plates-formes cloud à utiliser sont Google colab et GCP.
Laboratoires
Dans les laboratoires, le participant appliquera les méthodes de prédiction et de classification vues en classe à l’aide d’ensembles de données pratiques. Nous utiliserons des ensembles de données du manuel et de sources publiques telles que :
https://www.kaggle.com/
https://archive.ics.uci.edu/ml/datasets.html
Préalables
Réussite du cours Science des données -niveau 2