STT 3795 - Fondements théoriques en science des données - Hiver 2025 UdeM
STT 3795
Fondements théoriques en science des données
Hiver 2025
Guy Wolf (guy.wolf@umontreal.ca)
AEs: Adrien Aumon, Myriam Lizotte
La science des données est un domaine émergent à l'intersection des mathématiques appliquées,
de la statistique, et de l’informatique. Cette discipline exploite des outils computationnels qui
permettent de traiter et d’extraire des informations pertinentes provenant de grandes quantités
de données devenant actuellement de plus en plus disponibles dans presque tous les domaines de
l'industrie et de la science. Ce cours présentera les fondements mathématiques sous-jacents à
plusieurs des principaux problèmes, algorithmes, et méthodes de la science des données.
Les étudiants se familiariseront avec une sélection variée d’approches d'apprentissage supervisées
(p.ex., classification) et non supervisées (p.ex., regroupement), ainsi que des modèles mathématiques
des structures intrinsèques des données (p.ex., variétés). Les cours et les discussions en classe
porteront à la fois sur les dérivations et les applications des algorithmes discutés. Ils seront
accompagnés d'exercices qui combinent des questions théoriques concernant les aspects mathématiques
du cours, ainsi que des tâches de programmation qui illustrent les défis de la pratique.
Horaires
Horaire des cours:
Les mardis 12h30-15h20, Pav. André-Aisenstadt
Horaires de disponibilité:
Guy Wolf (enseignant), sur MS Teams avec possibilité de fixer un RDV si nécessaire.
Adrien Aumon (AE), sur MS Teams avec possibilité de fixer un RDV si nécessaire; disponibilités prévues avant les intras et des échéances de devoirs.
Myriam Lizotte (AE), sur MS Teams avec possibilité de fixer un RDV si nécessaire; disponibilités prévues avant les intras et des échéances de devoirs.
Sujets
Les sujets qui seront (provisoirement) abordés dans ce cours sont les suivants:
- Traitement formel des données:
- Données tabulaires et non-tabulaires
- Statistiques sommaires
- Visualisations
- Classification:
- Classification bayésienne
- Classification naïve bayésienne
- Réseaux bayésiens / réseaux de croyances
- Machine à vecteurs de support («SVM» en anglais)
- Classification lineaire
- Astuce du noyau
- Arbres de décision
- Mesures d'impureté: entropie et Gini
- Gain d'information et d'impurité
- Forêts aléatoires
- Regroupement:
- DBScan
- k-moyennes
- Regroupement hiérarchique
- Réduction de dimension:
- Projections aléatoires
- Analyse en composantes principales («PCA» en anglais)
- Positionnement multidimensionnel («MDS» en anglais)
- Isomap
- Diffusion maps
- Des géométries de données:
- Espaces métriques; des distances, des similarités et des dissimilarité
- Graphes et noyaux d'affinités ou de similarités
- Variétés de données et géométries de diffusion
- Espace de Hilbert à noyau reproduisant («RKHS» en anglais)
Diapositives (sur MS Teams):
- Sujet 01 - introduction à la science des données
- Sujet 02 - traitement formel des données
- Sujet 03 - classification bayésienne
- Sujet 04 - SVM
- Sujet 05 - arbres de décision
- Sujet 06 - PCA
- Sujet 07 - regroupement par densités
- Sujet 08 - regroupement partitionnel
- Sujet 09 - regroupement hiérarchiques
- Sujet 10 - MDS et des espaces métriques
- Sujet 11 - apprentissage de variétés
- Sujet 12 - cartes de diffusion
Composition de la note finale:
La note finale de ce cours sera composée de trois composantes:
- 20% -- Intra I (2025-02-18)
- 30% -- Intra II (2025-04-01)
- 30% -- projet en groupe
- 20% -- devoirs
Projet final:
- Sélection de groupes:
- Chaque groupe doit être composé de 2-3 membres.
- Date limite prévue: 2025-02-21, 23h59
- Proposition de projet:
- Les propositions doivent comprendre: (a) la description et les objectifs du projet; (b) les contributions prévues de chaque membre de l'équipe (c) les données utilisées et les sources de données.
- Limite de pages: 2 pages
- Date limite prévue: 2025-02-28, 23h59
- Rapport de projet:
- Les rapports doivent comprendre: (i) Introduction: contexte du problème considéré;
(ii) Objectifs; (iii) Description des données analysées; (iv) Méthodologie : algorithmes / outils utilisés, ainsi que des notions du cours utilisé dans le projet;
(v) Résultats : il peut s'agir aussi bien de tentatives réussies que de tentatives infructueuses;
(vi) Conclusion / discussion : expliquer ce qui a (ou bien n'a pas) fonctionné, les directions futures qui peuvent être intéressantes, etc.;
(vii) Contributions des membres de l'équipe : un paragraphe par membre de l'équipe avec leurs contributions spécifiques au projet.
- Longueur attendue: 10-15 pages (taille de police: 11pt-12pt ; marge: 1in)
- Date limite prévue: 2025-04-25, 23h59
Devoirs:
Bien que les échanges entre étudiants ne sont pas découragés, il faut que les devoirs soient réalisés et soumis individuellement.
- Devoir I - date limite prévue en février [sur MS Teams]
- Devoir II - date limite prévue en mars [sur MS Teams]