Projet de la partie Traitement Automatique du Langage de l'UE RITAL (parcours DAC) M1-S2 à Sorbonne Université
- MAOUCHE Mounir M1-IMA
- SAID Racha M1-DAC
- Reconnaissance de locuteur
- Analyse de sentiments
- Utilisation d'une représentation bag of words pour de la classification de textes sur deux datasets différents
- Détermination d'une stratégie de nettoyage et de normalisation des textes adaptée pour chacune des tâches
- Elaboration d'un système de tests permettant de sélectionner les modèles les plus performants ainsi que l'affinage de leurs paramètres
- Evaluation des performances des modèles à travers des mesures adaptées à la nature des datasets (equilibré/déséquilibré)
- Etude et utilisation de différentes notions de machine learning pour maximiser le score du modèle (sur/sous-échantillonnage, lissage, régularisation...)
- "Présidents" : Phrases extraites d'un débat entre François Mitterrand et Jacques Chirac
- "Movies" : Revues de films accompagnées de leur polarité
- f1-score : 71.68 %
- AUC ROC : 96.43 %
- AUC RP : 87.23 %
- accuracy : 81.16 %
- précision : 89.16 %
- rappel : 81.44 %