generated from jupyterlite/demo
-
Notifications
You must be signed in to change notification settings - Fork 0
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
Showing
1 changed file
with
147 additions
and
0 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,147 @@ | ||
{ | ||
"cells": [ | ||
{ | ||
"cell_type": "markdown", | ||
"metadata": {}, | ||
"source": [ | ||
"# Étude de cas - Titanic\n", | ||
"\n", | ||
"## Table des matières\n", | ||
"\n", | ||
"[**Étape 1 : Compréhension métier**](#Étape-1-:-Compréhension-métier)\n", | ||
"\n", | ||
"[**Étape 2 : Compréhension des données**](#Étape-2-:-Compréhension-des-données)\n", | ||
"\n", | ||
"- [**Chargement des données**](#Chargement-des-données)\n", | ||
"- [**Vérification de la qualité des données**](#Vérification-de-la-qualité-des-données)\n", | ||
"- [**Analyse exploratoire des données - AED**](#Analyse-exploratoire-des-données---AED)\n", | ||
" \n", | ||
"[**Étape 3 : Préparation des données**](#Étape-3-:-Préparation-des-données)\n", | ||
"- [**Traitement des données manquantes**](#Traitement-des-données-manquantes)\n", | ||
"- [**Ingénierie des caractéristiques**](#Ingénierie-des-caractéristiques)\n", | ||
"\n", | ||
"[**Étape 4 : Modélisation**](#Étape-4-:-Modélisation)" | ||
] | ||
}, | ||
{ | ||
"cell_type": "markdown", | ||
"metadata": {}, | ||
"source": [ | ||
"## Étape 1 : Compréhension métier\n", | ||
"Cette phase initiale se concentre sur la compréhension des objectifs et des exigences du projet d'un point de vue métier, puis sur la conversion de cette connaissance en une définition du problème de data mining et un plan préliminaire conçu pour atteindre les objectifs.\n", | ||
"\n", | ||
"#### Histoire du Titanic\n", | ||
"Le naufrage du RMS Titanic est l'un des naufrages les plus tristement célèbres de l'histoire. Le 15 avril 1912, lors de son voyage inaugural, le Titanic a coulé après avoir heurté un iceberg, tuant 1502 personnes sur 2224 passagers et membres d'équipage. Cette tragédie sensationnelle a choqué la communauté internationale et conduit à de meilleures réglementations de sécurité pour les navires.\n", | ||
"\n", | ||
"L'une des raisons pour lesquelles le naufrage a entraîné une telle perte de vies humaines était qu'il n'y avait pas assez de canots de sauvetage pour les passagers et l'équipage. Bien qu'il y ait eu un élément de chance impliqué dans la survie au naufrage, certains groupes de personnes étaient plus susceptibles de survivre que d'autres, comme les femmes, les enfants et les passagers de la classe supérieure.\n", | ||
"\n", | ||
"#### Objectif\n", | ||
"Dans ce défi, nous allons compléter l'analyse des types de personnes susceptibles de survivre.\n", | ||
"\n", | ||
"De plus, nous construirons un modèle de régression pour prédire le prix du billet (Fare)." | ||
] | ||
}, | ||
{ | ||
"cell_type": "markdown", | ||
"metadata": {}, | ||
"source": [ | ||
"## Étape 2 : Compréhension des données\n", | ||
"La phase de compréhension des données commence par une collecte initiale des données et se poursuit par des activités visant à se familiariser avec les données, à identifier les problèmes de qualité des données, à découvrir les premiers aperçus des données ou à détecter des sous-ensembles intéressants pour former des hypothèses sur les informations cachées. Cette étape est souvent mélangée avec l'étape suivante, la préparation des données." | ||
] | ||
}, | ||
{ | ||
"cell_type": "markdown", | ||
"metadata": {}, | ||
"source": [ | ||
"### Dictionnaire des données\n", | ||
"Les données sont dans un fichier csv titanic.csv.\n", | ||
"\n", | ||
"| Variable | Définition | Clé |\n", | ||
"| --- | --- | --- |\n", | ||
"| survival | Survie | 0 = Non, 1 = Oui |\n", | ||
"| pclass | Classe de billet | 1 = 1ère, 2 = 2ème, 3 = 3ème |\n", | ||
"| sex | Sexe | male/female |\t\n", | ||
"| Age | Âge | en années |\n", | ||
"| sibsp | Nombre de frères et sœurs / conjoints à bord du Titanic | |\n", | ||
"| parch | Nombre de parents / enfants à bord du Titanic | |\n", | ||
"| ticket | Numéro de billet | |\n", | ||
"| fare | Tarif passager | |\n", | ||
"| cabin | Numéro de cabine | |\n", | ||
"| embarked | Port d'embarquement | C = Cherbourg, Q = Queenstown, S = Southampton |\n", | ||
"\n", | ||
"**Notes sur les variables**\n", | ||
"- pclass : Un indicateur du statut socio-économique (SES)\n", | ||
" - 1ère = Supérieure\n", | ||
" - 2ème = Moyenne\n", | ||
" - 3ème = Inférieure\n", | ||
"\n", | ||
"- age : L'âge est fractionnel s'il est inférieur à 1. Si l'âge est estimé, il est sous la forme de xx.5\n", | ||
"\n", | ||
"- sibsp : Le jeu de données définit les relations familiales de cette manière...\n", | ||
"- Frère ou sœur = frère, sœur, demi-frère, demi-sœur\n", | ||
"- Conjoint = mari, femme (les maîtresses et fiancés ont été ignorés)\n", | ||
"\n", | ||
"- parch : Le jeu de données définit les relations familiales de cette manière...\n", | ||
" - Parent = mère, père\n", | ||
" - Enfant = fille, fils, belle-fille, beau-fils\n", | ||
" - Certains enfants ont voyagé uniquement avec une nounou, donc parch=0 pour eux." | ||
] | ||
}, | ||
{ | ||
"cell_type": "markdown", | ||
"metadata": {}, | ||
"source": [ | ||
"### Chargement des données\n", | ||
"\n", | ||
"Ce jeu de données est dans ```titanic.csv```. Assurez-vous que le fichier est dans le dossier actuel." | ||
] | ||
}, | ||
{ | ||
"cell_type": "code", | ||
"execution_count": null, | ||
"metadata": {}, | ||
"outputs": [], | ||
"source": [ | ||
"import pandas as pd\n", | ||
"import matplotlib.pyplot as plt\n", | ||
"import piplite\n", | ||
"await piplite.install('seaborn')\n", | ||
"import seaborn as sns\n", | ||
"import warnings\n", | ||
"warnings.filterwarnings('ignore')\n", | ||
"%matplotlib inline" | ||
] | ||
}, | ||
{ | ||
"cell_type": "code", | ||
"execution_count": null, | ||
"metadata": {}, | ||
"outputs": [], | ||
"source": [ | ||
"df_titanic = pd.read_csv('titanic.csv')\n", | ||
"df_titanic.head()" | ||
] | ||
} | ||
], | ||
"metadata": { | ||
"kernelspec": { | ||
"display_name": "Python 3", | ||
"language": "python", | ||
"name": "python3" | ||
}, | ||
"language_info": { | ||
"codemirror_mode": { | ||
"name": "ipython", | ||
"version": 3 | ||
}, | ||
"file_extension": ".py", | ||
"mimetype": "text/x-python", | ||
"name": "python", | ||
"nbconvert_exporter": "python", | ||
"pygments_lexer": "ipython3", | ||
"version": "3.7.1" | ||
} | ||
}, | ||
"nbformat": 4, | ||
"nbformat_minor": 2 | ||
} |