diff --git a/docs/fr/index.md b/docs/fr/index.md
index 53a685078..045eb818d 100644
--- a/docs/fr/index.md
+++ b/docs/fr/index.md
@@ -12,10 +12,10 @@ translator: Loïck Bourdois
 **DS-GA 1008 - PRINTEMPS 2020 - [NYU CENTER FOR DATA SCIENCE](http://cds.nyu.edu/)**
 
 | INSTRUCTEURS | Yann Le Cun & Alfredo Canziani |
-| CONFÉRENCES | Lundi 16h55 - 18h35, [GCASL C95](http://library.nyu.edu/services/campus-media/classrooms/gcasl-c95/) |
-| PRATIQUE | Mardi 19h10 - 20h00, [GCASL C95](http://library.nyu.edu/services/campus-media/classrooms/gcasl-c95/) |
+| COURS MAGISTRAUX | Lundi 16h55 - 18h35, [GCASL C95](http://library.nyu.edu/services/campus-media/classrooms/gcasl-c95/) |
+| TRAVAUX DIRIGÉS | Mardi 19h10 - 20h00, [GCASL C95](http://library.nyu.edu/services/campus-media/classrooms/gcasl-c95/) |
 | FORUM       | [r/NYU_DeepLearning](https://www.reddit.com/r/NYU_DeepLearning/) |
-| MATERIEL | [Google Drive](https://bitly.com/DLSP20), [Notebooks](https://github.com/Atcold/pytorch-Deep-Learning) |
+| MATÉRIEL | [Google Drive](https://bitly.com/DLSP20), [Notebooks en anglais](https://github.com/Atcold/pytorch-Deep-Learning) | [Notebooks en français](https://github.com/lbourdois/pytorch-Deep-Learning-Notebooks-in-French) |
 
 
 <!--
@@ -26,11 +26,11 @@ translator: Loïck Bourdois
 
 ## Description
 
-Ce cours porte sur les techniques d'apprentissage profond et de représentation les plus récentes.
+Ce cours porte sur les techniques de représentation et d'apprentissage profond les plus récentes.
 Il se concentre sur l'apprentissage profond supervisé et non supervisé, les méthodes d’enchâssement, l'apprentissage métrique, les réseaux convolutifs et récurrents.
 Il est illustré d’applications à la vision par ordinateur, la compréhension du langage naturel et la reconnaissance vocale.
 
-Pour suivre ce cours, il est fortement conseillé d’avoir des prérequis en algèbre et d’avoir déjà suivi un cours introductif d'apprentissage machine ou de data science.
+Pour suivre ce cours, il est fortement conseillé d’avoir des prérequis en algèbre et d’avoir déjà suivi un cours introductif d'apprentissage machine ou de *data science*.
 D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+4 ou bac+5.
 
 
@@ -53,7 +53,7 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
 <!-- =============================== SEMAINE 1 ================================ -->
     <tr>
       <td rowspan="3" align="center"><a href="{{site.baseurl}}/fr/week01/01">①</a></td>
-      <td rowspan="2">Conférence</td>
+      <td rowspan="2">Cours magistral</td>
       <td><a href="{{site.baseurl}}/fr/week01/01-1">Histoire et motivations</a></td>
       <td rowspan="2">
         <a href="https://drive.google.com/open?id=1Q7LtZyIS1f3TfeTGll3aDtWygh3GAfCb">🖥️</a>
@@ -62,8 +62,8 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
     </tr>
     <tr><td><a href="{{site.baseurl}}/fr/week01/01-2">Evolution et Apprentissage profond</a></td></tr>
     <tr>
-      <td rowspan="1">Pratique</td>
-      <td><a href="{{site.baseurl}}/fr/week01/01-3">Réseaux de neurones (Neural Network : NN)</a></td>
+      <td rowspan="1">Travaux dirigés</td>
+      <td><a href="{{site.baseurl}}/fr/week01/01-3">Réseaux de neurones</a></td>
       <td>
         <a href="https://github.com/Atcold/pytorch-Deep-Learning/blob/master/01-tensor_tutorial.ipynb">📓</a>
         <a href="https://github.com/Atcold/pytorch-Deep-Learning/blob/master/02-space_stretching.ipynb">📓</a>
@@ -73,8 +73,8 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
 <!-- =============================== SEMAINE 2 ================================ -->
     <tr>
       <td rowspan="3" align="center"><a href="{{site.baseurl}}/fr/week02/02">②</a></td>
-      <td rowspan="2">Conférence</td>
-      <td><a href="{{site.baseurl}}/fr/week02/02-1"> Descente de gradient stochastique et rétropropagation </a></td>
+      <td rowspan="2">Cours magistral</td>
+      <td><a href="{{site.baseurl}}/fr/week02/02-1">Descente de gradient stochastique et rétropropagation</a></td>
       <td rowspan="2">
         <a href="https://drive.google.com/open?id=1w2jV_BT2hWzfOKBR02x_rB4-dfVUI6SR">🖥️</a>
         <a href="https://www.youtube.com/watch?v=d9vdh3b787Y">🎥</a>
@@ -82,8 +82,8 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
     </tr>
     <tr><td><a href="{{site.baseurl}}/fr/week02/02-2">La rétropropagation en pratique</a></td></tr>
     <tr>
-      <td rowspan="1">Pratique</td>
-      <td><a href="{{site.baseurl}}/fr/week02/02-3">Entraînement d’un NN </a></td>
+      <td rowspan="1">Travaux dirigés</td>
+      <td><a href="{{site.baseurl}}/fr/week02/02-3">Entraînement d’un réseau de neurones</a></td>
       <td>
         <a href="https://github.com/Atcold/pytorch-Deep-Learning/blob/master/slides/01%20-%20Spiral%20classification.pdf">🖥</a>
         <a href="https://github.com/Atcold/pytorch-Deep-Learning/blob/master/04-spiral_classification.ipynb">📓</a>
@@ -94,7 +94,7 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
 <!-- =============================== SEMAINE 3 ================================ -->
     <tr>
       <td rowspan="3" align="center"><a href="{{site.baseurl}}/fr/week03/03">③</a></td>
-      <td rowspan="2">Conférence</td>
+      <td rowspan="2">Cours magistral</td>
       <td><a href="{{site.baseurl}}/fr/week03/03-1">Transformation de paramètres</a></td>
       <td rowspan="2">
         <a href="https://drive.google.com/open?id=18UFaOGNKKKO5TYnSxr2b8dryI-PgZQmC">🖥️</a>
@@ -103,7 +103,7 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
     </tr>
     <tr><td><a href="{{site.baseurl}}/fr/week03/03-2">Réseaux de neurones convolutifs (ConvNets)</a></td></tr>
     <tr>
-      <td rowspan="1">Pratique</td>
+      <td rowspan="1">Travaux dirigés</td>
       <td><a href="{{site.baseurl}}/fr/week03/03-3">Propriétés des signaux naturels</a></td>
       <td>
         <a href="https://github.com/Atcold/pytorch-Deep-Learning/blob/master/slides/02%20-%20CNN.pdf">🖥</a>
@@ -114,7 +114,7 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
 <!-- =============================== SEMAINE 4 ================================ -->
     <tr>
       <td rowspan="1" align="center"><a href="{{site.baseurl}}/fr/week04/04">④</a></td>
-      <td rowspan="1">Pratique</td>
+      <td rowspan="1">Travaux dirigés</td>
       <td><a href="{{site.baseurl}}/fr/week04/04-1">Convolution à 1 dimension</a></td>
       <td>
         <a href="https://github.com/Atcold/pytorch-Deep-Learning/blob/master/07-listening_to_kernels.ipynb">📓</a>
@@ -124,7 +124,7 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
 <!-- =============================== SEMAINE 5 ================================ -->
     <tr>
       <td rowspan="3" align="center"><a href="{{site.baseurl}}/fr/week05/05">⑤</a></td>
-      <td rowspan="2">Conférence</td>
+      <td rowspan="2">Cours magistral</td>
       <td><a href="{{site.baseurl}}/fr/week05/05-1">Optimisation I</a></td>
       <td rowspan="2">
         <a href="https://drive.google.com/open?id=1pwlGN6hDFfEYQqBqcMjWbe4yfBDTxsab">🖥️</a>
@@ -133,7 +133,7 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
     </tr>
     <tr><td><a href="{{site.baseurl}}/fr/week05/05-2">Optimisation II</a></td></tr>
     <tr>
-      <td rowspan="1">Pratique</td>
+      <td rowspan="1">Travaux dirigés</td>
       <td><a href="{{site.baseurl}}/fr/week05/05-3">ConvNets, autograd</a></td>
       <td>
         <a href="https://github.com/Atcold/pytorch-Deep-Learning/blob/master/03-autograd_tutorial.ipynb">📓</a>
@@ -144,7 +144,7 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
 <!-- =============================== SEMAINE 6 ================================ -->
     <tr>
       <td rowspan="3" align="center"><a href="{{site.baseurl}}/fr/week06/06">⑥</a></td>
-      <td rowspan="2">Conférence</td>
+      <td rowspan="2">Cours magistral</td>
       <td><a href="{{site.baseurl}}/fr/week06/06-1">Applications des ConvNets</a></td>
       <td rowspan="2">
         <a href="https://drive.google.com/open?id=1opT7lV0IRYJegtZjuHsKhlsM5L7GpGL1">🖥️</a>
@@ -154,7 +154,7 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
     </tr>
     <tr><td><a href="{{site.baseurl}}/fr/week06/06-2">Réseaux de neurones récurrents (RNNs) et Attention</a></td></tr>
     <tr>
-      <td rowspan="1">Pratique</td>
+      <td rowspan="1">Travaux dirigés</td>
       <td><a href="{{site.baseurl}}/fr/week06/06-3">Entraîner des RNNs</a></td>
       <td>
 	<a href="https://github.com/Atcold/pytorch-Deep-Learning/blob/master/slides/04%20-%20RNN.pdf">🖥️</a>
@@ -166,16 +166,16 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
 <!-- =============================== SEMAINE 7 ================================ -->
     <tr>
       <td rowspan="3" align="center"><a href="{{site.baseurl}}/fr/week07/07">⑦</a></td>
-      <td rowspan="2">Conférence</td>
-      <td><a href="{{site.baseurl}}/fr/week07/07-1">Modèles à base d’énergie (EBM)</a></td>
+      <td rowspan="2">Cours magistral</td>
+      <td><a href="{{site.baseurl}}/fr/week07/07-1">Modèles à base d’énergie (EBMs)</a></td>
       <td rowspan="2">
         <a href="https://drive.google.com/open?id=1z8Dz1YtkOEJpU-gh5RIjORs3GGqkYJQa">🖥️</a>
         <a href="https://youtu.be/tVwV14YkbYs">🎥</a>
       </td>
     </tr>
-    <tr><td><a href="{{site.baseurl}}/fr/week07/07-2">Apprentissage auto-supervisé et EBM</a></td></tr>
+    <tr><td><a href="{{site.baseurl}}/fr/week07/07-2">Apprentissage autosupervisé et EBMs</a></td></tr>
     <tr>
-      <td rowspan="1">Pratique</td>
+      <td rowspan="1">Travaux dirigés</td>
       <td><a href="{{site.baseurl}}/fr/week07/07-3">Auto-encodeurs</a></td>
       <td>
         <a href="https://github.com/Atcold/pytorch-Deep-Learning/blob/master/slides/05%20-%20Generative%20models.pdf">🖥️</a>
@@ -186,16 +186,16 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
 <!-- =============================== SEMAINE 8 ================================ -->
     <tr>
       <td rowspan="3" align="center"><a href="{{site.baseurl}}/fr/week08/08">⑧</a></td>
-      <td rowspan="2">Conférence</td>
+      <td rowspan="2">Cours magistral</td>
       <td><a href="{{site.baseurl}}/fr/week08/08-1">Méthodes contrastives</a></td>
       <td rowspan="2">
         <a href="https://drive.google.com/open?id=1Zo_PyBEO6aNt0GV74kj8MQL7kfHdIHYO">🖥️</a>
         <a href="https://youtu.be/ZaVP2SY23nc">🎥</a>
       </td>
     </tr>
-    <tr><td><a href="{{site.baseurl}}/fr/week08/08-2">Variable latente régularisée </a></td></tr>
+    <tr><td><a href="{{site.baseurl}}/fr/week08/08-2">Variable latente régularisée</a></td></tr>
     <tr>
-      <td rowspan="1">Pratique</td>
+      <td rowspan="1">Travaux dirigés</td>
       <td><a href="{{site.baseurl}}/fr/week08/08-3">Entraîner des Auto-Encodeurs Variationnels (VAEs)</a></td>
       <td>
         <a href="https://github.com/Atcold/pytorch-Deep-Learning/blob/master/slides/05%20-%20Generative%20models.pdf">🖥️</a>
@@ -206,7 +206,7 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
 <!-- =============================== SEMAINE 9 ================================ -->
     <tr>
       <td rowspan="3" align="center"><a href="{{site.baseurl}}/fr/week09/09">⑨</a></td>
-      <td rowspan="2">Conférence</td>
+      <td rowspan="2">Cours magistral</td>
       <td><a href="{{site.baseurl}}/fr/week09/09-1">Eparsité</a></td>
       <td rowspan="2">
         <a href="https://drive.google.com/open?id=1wJRzhjSqlrSqEpX4Omagb_gdIkQ5f-6K">🖥️</a>
@@ -215,7 +215,7 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
     </tr>
     <tr><td><a href="{{site.baseurl}}/fr/week09/09-2">Modèles du monde, Réseaux génératifs antagonistes (GANs)</a></td></tr>
     <tr>
-      <td rowspan="1">Pratique</td>
+      <td rowspan="1">Travaux dirigés</td>
       <td><a href="{{site.baseurl}}/fr/week09/09-3">Entraîner des GANs</a></td>
       <td>
         <a href="https://github.com/Atcold/pytorch-Deep-Learning/blob/master/slides/05%20-%20Generative%20models.pdf">🖥️</a>
@@ -226,16 +226,16 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
 <!-- =============================== SEMAINE 10 =============================== -->
     <tr>
       <td rowspan="3" align="center"><a href="{{site.baseurl}}/fr/week10/10">⑩</a></td>
-      <td rowspan="2">Conférence</td>
-      <td><a href="{{site.baseurl}}/fr/week10/10-1">Apprentissage auto-supervisé appliqué à la vision par ordinateur I</a></td>
+      <td rowspan="2">Cours magistral</td>
+      <td><a href="{{site.baseurl}}/fr/week10/10-1">Apprentissage autosupervisé appliqué à la vision par ordinateur I</a></td>
       <td rowspan="2">
         <a href="https://drive.google.com/open?id=16lsnDN2HIBTcRucbVKY5B_U16c0tNQhR">🖥️</a>
         <a href="https://youtu.be/0KeR6i1_56g">🎥</a>
       </td>
     </tr>
-    <tr><td><a href="{{site.baseurl}}/fr/week10/10-2"> Apprentissage auto-supervisé appliqué à la vision par ordinateur II</a></td></tr>
+    <tr><td><a href="{{site.baseurl}}/fr/week10/10-2"> Apprentissage autosupervisé appliqué à la vision par ordinateur II</a></td></tr>
     <tr>
-      <td rowspan="1">Pratique</td>
+      <td rowspan="1">Travaux dirigés</td>
       <td><a href="{{site.baseurl}}/fr/week10/10-3">Contrôle prédictif</a></td>
       <td>
         <a href="https://github.com/Atcold/pytorch-Deep-Learning/blob/master/slides/09%20-%20Controller%20learning.pdf">🖥️</a>
@@ -246,7 +246,7 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
 <!-- =============================== SEMAINE 11 =============================== -->
     <tr>
       <td rowspan="3" align="center"><a href="{{site.baseurl}}/fr/week11/11">⑪</a></td>
-      <td rowspan="2">Conférence</td>
+      <td rowspan="2">Cours magistral</td>
       <td><a href="{{site.baseurl}}/fr/week11/11-1">Fonctions d’activation</a></td>
       <td rowspan="2">
         <a href="https://drive.google.com/file/d/1AzFVLG7D4NK6ugh60f0cJQGYF5OL2sUB">🖥️</a>
@@ -257,7 +257,7 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
     </tr>
     <tr><td><a href="{{site.baseurl}}/fr/week11/11-2">Fonctions de perte</a></td></tr>
     <tr>
-      <td rowspan="1">Pratique</td>
+      <td rowspan="1">Travaux dirigés</td>
       <td><a href="{{site.baseurl}}/fr/week11/11-3">PPUU</a></td>
       <td>
         <a href="http://bit.ly/PPUU-slides">🖥️</a>
@@ -268,7 +268,7 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
 <!-- =============================== SEMAINE 12 =============================== -->
     <tr>
       <td rowspan="3" align="center"><a href="{{site.baseurl}}/fr/week12/12">⑫</a></td>
-      <td rowspan="2">Conférence</td>
+      <td rowspan="2">Cours magistral</td>
       <td><a href="{{site.baseurl}}/fr/week12/12-1">Apprentissage profond pour le traitement du langage naturel (NLP) I</a></td>
       <td rowspan="2">
         <a href="https://drive.google.com/file/d/149m3wRavTp4DQZ6RJTej8KP8gv4jnkPW/">🖥️</a>
@@ -277,7 +277,7 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
     </tr>
     <tr><td><a href="{{site.baseurl}}/fr/week12/12-2"> Apprentissage profond pour le traitement du langage naturel (NLP) II</a></td></tr>
     <tr>
-      <td rowspan="1">Pratique</td>
+      <td rowspan="1">Travaux dirigés</td>
       <td><a href="{{site.baseurl}}/fr/week12/12-3">Attention & Transformer</a></td>
       <td>
         <a href="https://github.com/Atcold/pytorch-Deep-Learning/blob/master/slides/10%20-%20Attention%20%26%20transformer.pdf">🖥️</a>
@@ -288,17 +288,17 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
 <!-- =============================== SEMAINE 13 =============================== -->
     <tr>
       <td rowspan="3" align="center"><a href="{{site.baseurl}}/fr/week13/13">⑬</a></td>
-      <td rowspan="2"> Conférence </td>
-      <td><a href="{{site.baseurl}}/fr/week13/13-1"> Réseau convolutif sur graphe I</a></td>
+      <td rowspan="2">Cours magistral</td>
+      <td><a href="{{site.baseurl}}/fr/week13/13-1"> Réseau convolutif pour graphe I</a></td>
       <td rowspan="2">
         <a href="https://drive.google.com/file/d/1oq-nZE2bEiQjqBlmk5_N_rFC8LQY0jQr/">🖥️</a>
         <a href="https://youtu.be/Iiv9R6BjxHM">🎥</a>
       </td>
     </tr>
-    <tr><td><a href="{{site.baseurl}}/fr/week13/13-2"> Réseau convolutif sur graphe II</a></td></tr>
+    <tr><td><a href="{{site.baseurl}}/fr/week13/13-2"> Réseau convolutif pour graphe II</a></td></tr>
     <tr>
-      <td rowspan="1">Practicum</td>
-      <td><a href="{{site.baseurl}}/fr/week13/13-3"> Réseau convolutif sur graphe III</a></td>
+      <td rowspan="1">Travaux dirigés</td>
+      <td><a href="{{site.baseurl}}/fr/week13/13-3"> Réseau convolutif pour graphe III</a></td>
       <td>
         <a href="https://github.com/Atcold/pytorch-Deep-Learning/blob/master/slides/11%20-%20GCN.pdf">🖥️</a>
         <a href="https://github.com/Atcold/pytorch-Deep-Learning/blob/master/16-gated_GCN.ipynb">📓</a>
@@ -308,8 +308,8 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
 <!-- =============================== SEMAINE 14 =============================== -->
     <tr>
       <td rowspan="3" align="center"><a href="{{site.baseurl}}/fr/week14/14">⑭</a></td>
-      <td rowspan="2"> Conférence </td>
-      <td><a href="{{site.baseurl}}/fr/week14/14-1"> Prévision structurée </a></td>
+      <td rowspan="2">Cours magistral</td>
+      <td><a href="{{site.baseurl}}/fr/week14/14-1">Prédiction de structure</a></td>
       <td rowspan="2">
         <a href="https://drive.google.com/file/d/1qBu-2hYWaGYEXeX7kAU8O4S2RZ1hMjsk/">🖥️</a>
         <a href="https://youtu.be/gYayCG6YyO8">🎥</a>
@@ -317,7 +317,7 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
     </tr>
     <tr><td><a href="{{site.baseurl}}/fr/week14/14-2">Méthodes graphiques</a></td></tr>
     <tr>
-      <td rowspan="1">Practicum</td>
+      <td rowspan="1">Travaux dirigés</td>
       <td><a href="{{site.baseurl}}/fr/week14/14-3">Régularisation et réseaux bayésiens</a></td>
       <td>
         <a href="https://github.com/Atcold/pytorch-Deep-Learning/blob/master/slides/07%20-%20Regularisation.pdf">🖥️</a>
@@ -327,6 +327,23 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
         <a href="https://youtu.be/DL7iew823c0">🎥</a>
       </td>
     </tr>
+<!-- =============================== SEMAINE 15 =============================== -->
+    <tr>
+      <td rowspan="2" align="center"><a href="{{site.baseurl}}/fr/week15/15">⑮</a></td>
+      <td rowspan="2">Travaux dirigés</td>
+      <td><a href="{{site.baseurl}}/fr/week15/15-1">Inférence pour les EBMs à variable latente</a></td>
+      <td rowspan="1">
+        <a href="https://github.com/Atcold/pytorch-Deep-Learning/blob/master/slides/12%20-%20EBM.pdf">🖥️</a>
+        <a href="https://youtu.be/sbhr2wjU1-I">🎥</a>
+      </td>
+    </tr>
+    <tr>
+      <td><a href="{{site.baseurl}}/fr/week15/15-2">Entraînement des EBMs à variable latente</a></td>
+      <td rowspan="1">
+        <a href="https://github.com/Atcold/pytorch-Deep-Learning/blob/master/slides/12%20-%20EBM.pdf">🖥️</a>
+        <a href="https://youtu.be/XLSb1Cs1Jao">🎥</a>
+      </td>
+    </tr>
   </tbody>
 </table>
 
@@ -334,11 +351,11 @@ D’après Yann Le Cun, ces cours sont destinés à des personnes de niveau bac+
 
 | Rôle | Photo | Contact | A propos |
 |:-----|:-----:|:--------|:------|
-|Instructeur|<img src="images/Yann.png" width="100" height="100">|<a href="https://twitter.com/ylecun">Yann Le Cun</a><br>yann@cs.nyu.edu|Silver Professor en Computer <br> Science à la New York <br> University (NYU) <br> et lauréat du prix Turing 2019|
-|Instructeur|<img src="https://avatars1.githubusercontent.com/u/2119355" width="100" height="100">|<a href="https://twitter.com/alfcnz">Alfredo Canziani</a><br>canziani@nyu.edu| Prof. Ast. en Computer Science à la NYU|
-|Assistant|<img src="https://pbs.twimg.com/profile_images/1186879808845860864/czRv3g1G_400x400.jpg" width="100" height="100">|<a href="https://twitter.com/marikgoldstein">Mark Goldstein</a><br>goldstein@nyu.edu|Doctorant en Computer Science à NYU|
-|Webmaster|<img src="https://pbs.twimg.com/profile_images/673997980370927616/vMXf545j_400x400.jpg" width="100" height="100">|<a href="https://twitter.com/ebetica">Zeming Lin</a><br>zl2799@nyu.edu| Doctorant en Computer Science à NYU|
-|Traducteur|<img src="https://st3.depositphotos.com/13159112/17145/v/450/depositphotos_171453724-stock-illustration-default-avatar-profile-icon-grey.jpg" width="100" height="100">| <a href="https://twitter.com/BdsLoick">Loïck Bourdois <br>| N'appartient pas au corps enseignant de la NYU |
+|Instructeur|<img src="../images/Yann.png" width="100" height="100">|<a href="https://twitter.com/ylecun">Yann Le Cun</a><br>yann@cs.nyu.edu|*Silver Professor* en *Computer*<br> *Science* à la *New York* <br> *University* (NYU) et<br>lauréat du prix Turing 2019|
+|Instructeur|<img src="https://avatars1.githubusercontent.com/u/2119355" width="100" height="100">|<a href="https://twitter.com/alfcnz">Alfredo Canziani</a><br>canziani@nyu.edu| Prof. Ast. en<br>*Computer Science* à la NYU|
+|Assistant|<img src="https://pbs.twimg.com/profile_images/1186879808845860864/czRv3g1G_400x400.jpg" width="100" height="100">|<a href="https://twitter.com/marikgoldstein">Mark Goldstein</a><br>goldstein@nyu.edu|Doctorant en<br>*Computer Science* à la NYU|
+|Webmaster|<img src="https://pbs.twimg.com/profile_images/673997980370927616/vMXf545j_400x400.jpg" width="100" height="100">|<a href="https://twitter.com/ebetica">Zeming Lin</a><br>zl2799@nyu.edu|Doctorant en<br>*Computer Science* à la NYU|
+|Traducteur|<img src="https://st3.depositphotos.com/13159112/17145/v/450/depositphotos_171453724-stock-illustration-default-avatar-profile-icon-grey.jpg" width="100" height="100">| <a href="https://twitter.com/BdsLoick">Loïck Bourdois <br>| N'appartient pas au corps<br>enseignant de la NYU |
 
 
 <!--
@@ -356,8 +373,8 @@ Wishing you a deep reading :]
 Tous les textes présents sur ce site sont des notes de cours prises par les étudiants de la New York University lors des conférences données par Yann Le Cun, Alfredo Canziani, Ishan Misra, Mike Lewis et Xavier Bresson.
 Ainsi les textes en anglais ont été rédigés par plus de 130 personnes, ce qui a un impact sur l’homogénéité des textes (certains écrivent au passé, d’autres au présent ; les abréviations utilisées ne sont pas forcément toujours les mêmes ; certains écrivent des phrases courtes, quand d’autres écrivent des phrases pouvant aller jusqu’à 5 ou 6 lignes, etc.).
 
-La traduction en français qui vous est proposée a été effectuée par une seule et unique personne puis relu par différentes, le but étant d’atténuer les problèmes cités à l’instant, et de proposer une traduction homogène. L’ensemble des choix qui ont été retenus pour la rédaction et la traduction sont détaillés [ici](https://github.com/Atcold/pytorch-Deep-Learning/wiki/French-translation).
-Cette traduction a nécessité soixante-dix d’heures et a été plusieurs fois vérifiée. Néanmoins, il se peut qu’il y ait des oublis : fautes de frappe, d’orthographe, etc. Si vous en remarquez, nous vous invitons à soumettre une PR sur le [répertoire GitHub du site](https://github.com/Atcold/pytorch-Deep-Learning/pulls) en précisant avec un `[FR]` qu’elle concerne la traduction française.
+La traduction en français qui vous est proposée a été effectuée par une seule personne, le but étant d’atténuer les problèmes cités à l’instant, et de proposer une traduction homogène. L’ensemble des choix qui ont été retenus pour la rédaction et la traduction sont détaillés [ici](https://github.com/Atcold/pytorch-Deep-Learning/wiki/French-translation).
+Cette traduction a nécessité environ six cents heures et a été plusieurs fois vérifiée. Néanmoins, il se peut qu’il y ait des oublis : fautes de frappe, d’orthographe, etc. Si vous en remarquez, nous vous invitons à soumettre une PR sur le [répertoire GitHub du site](https://github.com/Atcold/pytorch-Deep-Learning/pulls) en précisant avec un `[FR]` qu’elle concerne la traduction française.
 
 Enfin, précisons que ce site est destiné à accompagner l’édition « Printemps 2020 » du cours sur l’apprentissage profond de la NYU. Dans les éditions futures, les retranscriptions des cours présents sur le site ne seront pas modifiées ce qui ne sera pas le cas des notebooks.
 De ce fait, tous les liens renvoyant vers les notebooks vous conduiront vers leurs versions anglaises les plus récentes.
diff --git a/docs/fr/week01/01-1.md b/docs/fr/week01/01-1.md
index 302c81f32..4d92b7bd2 100644
--- a/docs/fr/week01/01-1.md
+++ b/docs/fr/week01/01-1.md
@@ -183,12 +183,12 @@ $$
 <!--
 Note that instead of scalar inputs, they will be vector inputs. More generally, multi-dimensional inputs. Backpropagation allows you to compute the derivative of the difference of the output you want and the output you get (which is the value of the objective function) with respect to any value inside the network. Finally, backpropagation is essential as it applies to multiple layers.
 
-It is important to consider how to interpret inputs. For example, an image of $256$\times$256$ would require a 200,000 valued matrix. These would be huge matrices that the neural network layers will need to handle. It would be impractical to utilize such matrices. Therefore, it is important to make hypothesis of the structure of the matrix.
+It is important to consider how to interpret inputs. For example, an image of 256$$\times$$256 would require a 200,000 valued matrix. These would be huge matrices that the neural network layers will need to handle. It would be impractical to utilize such matrices. Therefore, it is important to make hypothesis of the structure of the matrix.
 -->
 
 Notez qu'au lieu d'entrées scalaires, il s'agit d'entrées vectorielles. Plus généralement, il s'agit d'entrées multidimensionnelles. La rétropropagation permet de calculer la dérivée de la différence entre la sortie souhaitée et la sortie obtenue (qui est la valeur de la fonction objectif) par rapport à toute valeur à l'intérieur du réseau. Enfin, la rétropropagation est essentielle car elle s'applique à plusieurs couches.
 
-Il est important de réfléchir à la manière d'interpréter les entrées. Par exemple, une image de $256$\times$256$ nécessite une matrice d'une valeur de 200 000. On aurait alors d'énormes matrices que les couches du réseau neuronal auraient à manipuler. Il n'est donc pas pratique d'utiliser de telles matrices. Par conséquent, il est important de faire des hypothèses sur la structure de la matrice.
+Il est important de réfléchir à la manière d'interpréter les entrées. Par exemple, une image de 256$$\times$$256 nécessite une matrice d'une valeur de 200 000. On aurait alors d'énormes matrices que les couches du réseau neuronal auraient à manipuler. Il n'est donc pas pratique d'utiliser de telles matrices. Par conséquent, il est important de faire des hypothèses sur la structure de la matrice.
 
 
 <!--
diff --git a/docs/fr/week01/01-2.md b/docs/fr/week01/01-2.md
index 10667fa3d..756bcdb59 100644
--- a/docs/fr/week01/01-2.md
+++ b/docs/fr/week01/01-2.md
@@ -40,7 +40,7 @@ Dans le cerveau des animaux, les neurones réagissent aux bords qui ont des orie
 
 En se basant sur deux concepts, Fukushima (1982) a construit un réseau de neurones qui fonctionne de la même manière que le cerveau. Premièrement, les neurones sont répliqués sur l'ensemble du champ visuel. Deuxièmement, il existe des cellules complexes qui regroupent les informations provenant de cellules simples (unités d'orientation-sélection). Par conséquent, le déplacement de l'image modifie l'activation des cellules simples mais n'influence pas l'activation intégrée de la cellule complexe (le *pooling* convolutif).
 
-Yann Le Cun (1990) a utilisé la rétropropagation pour entraîner un ConvNet à reconnaître les chiffres manuscrits. Il existe une [démo de 1992](https://www.youtube.com/watch?v=FwFduRA_L6Q&list=PL80I41oVxglKKxF1OBbKHdOEX2VZVNzAR&index=1) où l'algorithme reconnaît les chiffres de n'importe quel style. La reconnaissance de caractères/motifs à l'aide d'un modèle entraîné de bout en bout était nouvelle à l'époque. Auparavant, les gens utilisaient des extracteurs de caractéristiques avec un modèle supervisé par-dessus.
+Yann Le Cun (1990) a utilisé la rétropropagation pour entraîner un ConvNet à reconnaître les chiffres manuscrits. Il existe une [démo de 1993](https://www.youtube.com/watch?v=FwFduRA_L6Q&list=PL80I41oVxglKKxF1OBbKHdOEX2VZVNzAR&index=1) où l'algorithme reconnaît les chiffres de n'importe quel style. La reconnaissance de caractères/motifs à l'aide d'un modèle entraîné de bout en bout était nouvelle à l'époque. Auparavant, les gens utilisaient des extracteurs de caractéristiques avec un modèle supervisé par-dessus.
 
 Ces nouveaux systèmes ConvNets pouvaient reconnaître plusieurs caractères dans l'image en même temps. Pour ce faire, les gens utilisaient une petite fenêtre de saisie pour un ConvNet et la glissaient sur toute l'image. Si elle s'activait, cela signifiait qu'un caractère particulier était présent.
 
@@ -52,7 +52,7 @@ La révolution de l'apprentissage profond (bien que le terme ne soit pas utilis
 
 Après avoir vu le succès d'AlexNet, la communauté de la vision par ordinateur (souvent abrégée en *CV* en anglais pour *Computer Vision*) a été convaincue que les ConvNets fonctionnent. Alors que tous les articles de 2011-2012 mentionnant les ConvNets étaient alors rejetés, depuis 2016 la plupart des papiers acceptés utilisent les ConvNets.
 
-Au fil des ans, le nombre de couches utilisées a augmenté : LeNet -- 7, AlexNet -- 12, VGG -- 19, ResNet -- 50. Toutefois, il y a un compromis à faire entre le nombre d'opérations nécessaires pour calculer le résultat, la taille du modèle et sa précision. Ainsi, un sujet actuellement populaire est de savoir comment comprimer les réseaux pour rendre les calculs plus rapides.
+Au fil des ans, le nombre de couches utilisées a augmenté : 7 pour LeNet, 12 pour AlexNet, 19 pour VGG, 50 pour ResNet. Toutefois, il y a un compromis à faire entre le nombre d'opérations nécessaires pour calculer le résultat, la taille du modèle et sa précision. Ainsi, un sujet actuellement populaire est de savoir comment comprimer les réseaux pour rendre les calculs plus rapides.
 
 
 
@@ -103,7 +103,7 @@ Bien que les sciences et les mathématiques qui sous-tendent l'apprentissage pro
 - Pourquoi les architectures à plusieurs couches sont-elles plus performantes, étant donné que nous pouvons approximer n'importe quelle fonction avec deux couches ? 
 - Pourquoi les ConvNets fonctionnent-ils aussi bien avec des données naturelles telles que la parole, les images et le texte ? 
 - Comment sommes-nous capables d'optimiser aussi bien les fonctions non convexes ? 
-- Pourquoi les architectures sur-paramétrées fonctionnent-elles ?
+- Pourquoi les architectures surparamétrées fonctionnent-elles ?
 
 L'extraction de caractéristiques consiste à élargir la dimension de représentation de telle sorte que les caractéristiques élargies aient plus de chances d'être linéairement séparables (en raison de l'augmentation du nombre de plans de séparation possibles).
 
@@ -164,7 +164,7 @@ Une analogie consiste à concevoir un circuit pour calculer une fonction boolée
 
 
 Qu'est-ce que la "profondeur" ?  
-- Une SVM n'est pas profond car ne comporte que deux couches
+- Une SVM n'est pas profonde car ne comporte que deux couches
 - Un arbre de classification n'est pas profond car chaque couche analyse les mêmes caractéristiques (brutes)
 - Un réseau profond comporte plusieurs couches et les utilise pour construire une **hiérarchie de caractéristiques d'une complexité croissante**
 
@@ -173,6 +173,6 @@ Comment les modèles peuvent-ils apprendre les représentations (les bonnes cara
 Hypothèse de la multiplicité : les données naturelles vivent dans une multiplicité à faible dimension. L'ensemble des images possibles est essentiellement infini, l'ensemble des images "naturelles" est un minuscule sous-ensemble. Par exemple : pour une image d'une personne, l'ensemble des images possibles est de l'ordre de grandeur du nombre de muscles du visage qu'elle peut bouger (degrés de liberté) soit environ 50. Un extracteur de caractéristiques idéal (et irréaliste) représente tous les facteurs de variation (chacun des muscles, éclairage, *etc.*).
 
 
-Questions et réponses à la fin de la conférence :  
-- Pour l'exemple du visage, une autre technique de réduction de la dimensionnalité (*c.-à-d.* l’ACP) pourrait-elle extraire ces traits ?
- Cela ne fonctionnerait que si la surface est un hyperplan, ce qui n'est pas le cas.
+*Réponses aux questions d'étudiants :*  
+**Pour l'exemple du visage, une autre technique de réduction de la dimensionnalité (*c.-à-d.* l’ACP) pourrait-elle extraire ces traits ?**
+> Cela ne fonctionnerait que si la surface est un hyperplan, ce qui n'est pas le cas.
diff --git a/docs/fr/week01/01-3.md b/docs/fr/week01/01-3.md
index 9d895fda9..ca489e153 100644
--- a/docs/fr/week01/01-3.md
+++ b/docs/fr/week01/01-3.md
@@ -45,7 +45,7 @@ Avec une telle dimensionnalité, de nombreuses images intéressantes que nous po
 Afin de séparer efficacement ces images, nous envisageons des moyens de transformer les données afin de déplacer les points. Rappelons que dans l'espace bidimensionnel, une transformation linéaire équivaut à une multiplication de matrice. Par exemple, les transformations suivantes peuvent être obtenues en changeant les caractéristiques de la matrice :
 
 - Rotation : lorsque la matrice est orthonormée.
-- Mise à l'échelle ("scalabilité") : lorsque la matrice est diagonale.
+- Mise à l'échelle (« scalabilité ») : lorsque la matrice est diagonale.
 - Réflexion : lorsque le déterminant est négatif.
 - *Shearing*.
 - Translation.
@@ -76,7 +76,7 @@ Dans notre visualisation, nous avons cinq branches d'une spirale, chaque branche
 <center> Figure 1 : Spirale à cinq couleurs </center>
 
 
-Le réseau "étire" le tissu spatial afin de séparer chacun des points en différents sous-espaces. À la convergence, le réseau sépare chacune des couleurs en différents sous-espaces de la surface finale. En d'autres termes, chacune des couleurs dans ce nouvel espace sera linéairement séparable par une régression « un contre tous ». Les vecteurs du diagramme peuvent être représentés par une matrice de 5x2. Cette matrice peut être multipliée à chaque point pour obtenir des scores pour chacune des cinq couleurs. Chacun des points peut ensuite être classé par couleur en utilisant les scores respectifs. Ici, la dimension de sortie est de cinq, une pour chacune des couleurs, et la dimension d'entrée est de deux, une pour les coordonnées x et y de chacun des points. Pour résumer, ce réseau prend essentiellement le tissu spatial et effectue une transformation de l'espace paramétrée par plusieurs matrices puis par des non-linéarités.
+Le réseau « étire » le tissu spatial afin de séparer chacun des points en différents sous-espaces. À la convergence, le réseau sépare chacune des couleurs en différents sous-espaces de la surface finale. En d'autres termes, chacune des couleurs dans ce nouvel espace sera linéairement séparable par une régression « un contre tous ». Les vecteurs du diagramme peuvent être représentés par une matrice de 5x2. Cette matrice peut être multipliée à chaque point pour obtenir des scores pour chacune des cinq couleurs. Chacun des points peut ensuite être classé par couleur en utilisant les scores respectifs. Ici, la dimension de sortie est de cinq, une pour chacune des couleurs, et la dimension d'entrée est de deux, une pour les coordonnées *x* et *y* de chacun des points. Pour résumer, ce réseau prend essentiellement le tissu spatial et effectue une transformation de l'espace paramétrée par plusieurs matrices puis par des non-linéarités.
 
 
 <!--
@@ -105,12 +105,12 @@ La première matrice fait correspondre l'entrée bidimensionnelle à une couche
 
 ## [Random projections - Jupyter Notebook](https://www.youtube.com/watch?v=5_qrxVq1kvc&t=1693s)
 
-The Jupyter Notebook can be found [here](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/02-space_stretching.ipynb). In order to run the notebook, make sure you have the `pDL` environment installed as specified in [`README.md`](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/README.md).
+The English Jupyter Notebook can be found [here](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/02-space_stretching.ipynb). The French one is available [here](https://github.com/lbourdois/pytorch-Deep-Learning-Notebooks-in-French/blob/master/02-space_stretching.ipynb) In order to run the notebook, make sure you have the `pDL` environment installed as specified in [`README.md`](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/README.md).
 -->
 
-## [Projections aléatoires - Jupyter Notebook](https://www.youtube.com/watch?v=5_qrxVq1kvc&t=1693s)
+## [Projections aléatoires - Notebook Jupyter](https://www.youtube.com/watch?v=5_qrxVq1kvc&t=1693s)
 
-Le Notebook Jupyter peut être consulté [ici](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/02-space_stretching.ipynb). Pour le faire fonctionner, assurez-vous que l'environnement `pDL` est installé comme indiqué dans [`README.md`](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/docs/fr/README-FR.md).
+La version anglaise du *notebook* Jupyter peut être consultée [ici](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/02-space_stretching.ipynb). Celle en français est disponible [ici](https://github.com/lbourdois/pytorch-Deep-Learning-Notebooks-in-French/blob/master/02-space_stretching.ipynb). Pour le faire fonctionner, assurez-vous que l'environnement `pDL` est installé comme indiqué dans le fichier [`README.md`](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/docs/fr/README-FR.md).
 
 <!--
 
@@ -146,9 +146,9 @@ La première ligne crée une variable, appelée `device`, qui est assignée au G
 To see the documentation for a function in a notebook cell, use `Shift + Tab.`
 -->
 
-### Astuce Notebook Jupyter
+### Astuce notebook Jupyter
 
-Pour voir la documentation d'une fonction dans une cellule du notebook, utilisez `Shift + Tab`.
+Pour voir la documentation d'une fonction dans une cellule du *notebook*, utilisez `Shift + Tab`.
 
 <!--
 
@@ -232,7 +232,7 @@ Rappelez-vous, le graphique de $\tanh(\cdot)$ de la Fig. 4.
 Figure 4 : Non-linéarité de la tangente hyperbolique
 </center>
 
-Cette non-linéarité a pour effet de délimiter des points entre $-1$ et $+1 $$, créant ainsi un carré. Plus la valeur de $s$ dans l'équation (2) augmente, plus les points sont poussés vers le bord du carré. C'est ce que montre la figure 5. En forçant plus de points vers le bord, nous les étalons davantage et pouvons alors tenter de les classer.
+Cette non-linéarité a pour effet de délimiter des points entre $-1$ et $+1$, créant ainsi un carré. Plus la valeur de $s$ dans l'équation (2) augmente, plus les points sont poussés vers le bord du carré. C'est ce que montre la figure 5. En forçant plus de points vers le bord, nous les étalons davantage et pouvons alors tenter de les classer.
 
 | <img src="{{site.baseurl}}/images/week01/01-3/matrix_multiplication_with_nonlinearity_s=1_lab1.png" width="200px" /> | <img src="{{site. baseurl}}/images/week01/01-3/matrix_multiplication_with_nonlinearity_s=5_lab1.png" width="200px" /> |
 | (a) Non-linéarité avec $s=1$ | (b) Non-linéarité avec $s=5$ |
@@ -253,7 +253,7 @@ Figure 6:  Transformation from an untrained neural network
 -->
 
 ### Réseau neuronal aléatoire
-Enfin, nous visualisons la transformation effectuée par un simple réseau de neurones non entraîné. Le réseau est constitué d'une couche linéaire, qui effectue une transformation affine, suivie d'une tangente hyperbolique non-linéaire, et enfin d'une autre couche linéaire. En examinant la transformation de la figure 6, nous constatons qu'elle est différente des transformations linéaires et non linéaires vues précédemment. Nous allons voir comment rendre ces transformations effectuées par les réseaux de neurones utiles pour notre objectif final de classification.
+Enfin, nous visualisons la transformation effectuée par un simple réseau de neurones non entraîné. Le réseau est constitué d'une couche linéaire, qui effectue une transformation affine, suivie d'une tangente hyperbolique non-linéaire, et enfin d'une autre couche linéaire. En examinant la transformation de la figure 6, nous constatons qu'elle est différente des transformations linéaires et non linéaires vues précédemment. Nous allons voir comment rendre utiles ces transformations effectuées par les réseaux de neurones pour notre objectif final de classification.
 <center>
 <img src="{{site.baseurl}}/images/week01/01-3/untrained_nn_transformation_lab1.png" width="200px" /><br>
 Figure 6 : Transformation d'un réseau de neurones non entraîné 
diff --git a/docs/fr/week02/02-1.md b/docs/fr/week02/02-1.md
index c5c0454e1..c550346b2 100644
--- a/docs/fr/week02/02-1.md
+++ b/docs/fr/week02/02-1.md
@@ -58,17 +58,17 @@ Les modèles paramétrés sont simplement des fonctions qui dépendent d'entrée
 Le modèle paramétré (fonction) prend une entrée, possède un vecteur de paramètres et produit une sortie. Dans l'apprentissage supervisé, cette sortie va dans la fonction de coût ($C(y,\bar{y}$)), qui compare la sortie réelle (${y}$) avec la sortie du modèle ($\bar{y}$). Le graphe de calcul pour ce modèle est présenté à la figure 1.
 
 | <center><img src="{{site.baseurl}}/images/week02/02-1/Figure1.jpg" alt="Figure1" style="zoom : 33% ;" /></center> |
-| <center>Figure 1 : Représentation graphique pour un modèle paramétré </center>|
+| <center>Figure 1 : Représentation sous forme de graphe pour un modèle paramétré </center>|
 
 Exemples de fonctions paramétrées :
 
-- Modèle linéaire - Somme pondérée des composantes du vecteur d'entrée :
+- Modèle linéaire: la somme pondérée des composantes du vecteur d'entrée :
 
   $$
   \bar{y} = \sum_i w_i x_i, C(y,\bar{y}) = \Vert y - \bar{y}\Vert^2
   $$
 
-- Voisin le plus proche - Il y a une entrée $\vect{x}$ et une matrice de poids $\matr{W}$ avec chaque ligne de la matrice indexée par $k$. La sortie est la valeur de $k$ qui correspond à la ligne de $\matr{W}$ la plus proche de $\vect{x}$ :
+- Voisin le plus proche : il y a une entrée $\vect{x}$ et une matrice de poids $\matr{W}$ avec chaque ligne de la matrice indexée par $k$. La sortie est la valeur de $k$ qui correspond à la ligne de $\matr{W}$ la plus proche de $\vect{x}$ :
 
 
 $$ \bar{y} = \underset{k}{\arg\min} \Vert x - w_{k,.} \Vert^2 $$
@@ -120,7 +120,7 @@ Les modèles paramétrés peuvent également comporter des fonctions compliquée
   <img src="{{site.baseurl}}/images/week02/02-1/scalar-valued.PNG" alt="scalar-valued" style="zoom:50% ;" />
 
     - Utilisée pour représenter les fonctions de coût
-    - A un rendement scalaire implicite
+    - A une sortie scalaire implicite
     - Prend plusieurs entrées et produit une seule valeur (généralement la distance entre les entrées)
 
 
@@ -156,28 +156,22 @@ In the standard Supervised Learning paradigm, the loss (per sample) is simply th
 
 Une fonction de perte est une fonction qui est minimisée pendant l’entraînement. Il existe deux types de pertes :
 
-1) Perte par échantillon -
+1) Perte par échantillon :
 
 $$
  L(x,y,w) = C(y, G(x,w))
 $$
 
-2) Perte moyenne -
+2) Perte moyenne :
 
-Pour toute série d'échantillons
-
-$$S = \lbrace(x[p],y[p]) \mid p \in \lbrace 0, \cdots, P-1 \rbrace \rbrace$$
-
-La perte moyenne sur l'ensemble des $S$ est donnée par :
+Pour toute série d'échantillons $S = \lbrace(x[p],y[p]) \mid p \in \lbrace 0, \cdots, P-1 \rbrace \rbrace$, la perte moyenne sur l'ensemble des $S$ est donnée par :
 
 $$L(S,w) = \frac{1}{P} \sum_{(x,y)} L(x,y,w)$$
 
 | <center><img src="{{site.baseurl}}/images/week02/02-1/Average_Loss.png" alt="Average_Loss" style="zoom:33% ;" /></center> |
-| <center>Figure 2 : Graphique de calcul pour le modèle avec perte moyenne </center>|
-
-Dans le paradigme standard de l'apprentissage supervisé, la perte (par échantillon) est simplement le résultat de la fonction de coût. L'apprentissage machine consiste principalement à optimiser les fonctions (généralement en les minimisant). Il peut également s'agir de trouver des équilibres de Nash entre deux fonctions, comme dans le cas des GANs (Generative adversarial network). Cela se fait en utilisant des méthodes basées sur le gradient, mais pas nécessairement sur la descente du gradient.
-
+| <center>Figure 2 : Graphe pour le modèle avec perte moyenne </center>|
 
+Dans le paradigme standard de l'apprentissage supervisé, la perte (par échantillon) est simplement le résultat de la fonction de coût. L'apprentissage machine consiste principalement à optimiser les fonctions (généralement en les minimisant). Il peut également s'agir de trouver des équilibres de Nash entre deux fonctions, comme dans le cas des GANs (*Generative adversarial networks*). Cela se fait en utilisant des méthodes basées sur le gradient, mais pas nécessairement sur la descente du gradient.
 
 
 <!--
@@ -222,43 +216,43 @@ A very popular technique in RL is Actor Critic Methods. A critic method basicall
 
 Une **méthode basée sur le gradient** est une méthode/algorithme qui trouve les minima d'une fonction, en supposant que l'on peut facilement calculer le gradient de cette fonction. Elle suppose que la fonction est continue et différentiable presque partout (il n'est pas nécessaire qu'elle soit différentiable partout).
 
-**Intuition de la descente du gradient** - Imaginez que vous êtes dans une montagne au milieu d'une nuit brumeuse. Comme vous voulez descendre jusqu'au village et que vous n'avez qu'une vision limitée, vous regardez autour de vous pour trouver la direction de la descente la plus raide et faites un pas dans cette direction.
+#### Intuition de la descente du gradient :
+Imaginez que vous êtes dans une montagne au milieu d'une nuit brumeuse. Comme vous voulez descendre jusqu'au village et que vous n'avez qu'une vision limitée, vous regardez autour de vous pour trouver la direction de la descente la plus raide et faites un pas dans cette direction.
 
-**Différentes méthodes de descente de gradient**
+#### Différentes méthodes de descente de gradient**
 
-- Règle de mise à jour de la descente de gradient complète (par batch) :
+- Mise à jour de la descente de gradient complète (par batch) :
 
   $$
   w \leftarrow w - \eta \frac{\partial L(S,w)}{\partial w}
   $$
 
-- Pour SGD (Stochastic Gradient Descent – Descente de Gradient Stochastique), la règle de mise à jour devient :
+- Pour la SGD (la Descente de Gradient Stochastique de l'anglais *Stochastic Gradient Descent*), la règle de mise à jour devient :
 
   - Choisissez un $p \in \lbrace 0, \cdots, P-1 \rbrace$, puis mettez à jour
 
     $$
     w \leftarrow w - \eta \frac{\partial L(x[p], y[p],w)}{\partial w}
+    où ${w}$ représente le paramètre à optimiser.
     $$
 
-Où ${w}$ représente le paramètre à optimiser.
-
 $\eta$ est une constante ici mais dans des algorithmes plus sophistiqués, il pourrait s'agir d'une matrice.
 
 Si c'est une matrice semi-définie positive, nous continuerons à descendre, mais pas nécessairement dans le sens de la descente la plus raide. En fait, la direction de la descente la plus raide n'est pas toujours celle dans laquelle nous voulons aller.
 
-Si la fonction n'est pas différentiable, c'est-à-dire si elle a un trou ou si elle est en forme d'escalier ou est plate, où la pente ne donne aucune information, il faut recourir à d'autres méthodes - appelées méthodes d'ordre 0 ou méthodes sans gradient. L'apprentissage profond est une méthode basée sur le gradient.
+Si la fonction n'est pas différentiable, c'est-à-dire si elle a un trou ou si elle est en forme d'escalier ou est plate (la pente ne donne alors aucune information), il faut recourir à d'autres méthodes appelées méthodes d'ordre 0 ou méthodes sans gradient. L'apprentissage profond est une méthode basée sur le gradient.
 
-Cependant, le RL (Reinforcement Learning pouvant être traduit par Apprentissage par renforcement) implique une **estimation du gradient** sans la forme explicite du gradient. Un exemple est un robot apprenant à faire du vélo où le robot tombe de temps en temps. La fonction objectif mesure la durée pendant laquelle le vélo reste debout sans tomber. Malheureusement, il n'y a pas de gradient pour la fonction objectif. Le robot doit essayer différentes choses.
+Cependant, le RL (Apprentissage par renforcement de l'anglais *Reinforcement Learning*) implique une **estimation du gradient** sans la forme explicite du gradient. Un exemple est un robot apprenant à faire du vélo où le robot tombe de temps en temps. La fonction objectif mesure la durée pendant laquelle le vélo reste debout sans tomber. Malheureusement, il n'y a pas de gradient pour la fonction objectif. Le robot doit essayer différentes choses.
 
-La fonction de coût RL n'est pas différenciable la plupart du temps, mais le réseau qui calcule la sortie est basé sur un gradient. C'est la principale différence entre l'apprentissage supervisé et l'apprentissage par renforcement. Dans ce dernier cas, la fonction de coût $C$ n'est pas différenciable. En fait, elle est totalement inconnue. Elle renvoie simplement une sortie lorsque des entrées lui sont fournies, comme une boîte noire. Cela la rend très inefficace et constitue l'un des principaux inconvénients du RL - en particulier lorsque le vecteur de paramètres est à haute dimension (ce qui implique un énorme espace de solution à rechercher, rendant difficile de trouver où se déplacer).
+La fonction de coût en RL n'est pas différenciable la plupart du temps, mais le réseau qui calcule la sortie est basé sur un gradient. C'est la principale différence entre l'apprentissage supervisé et l'apprentissage par renforcement. Dans ce dernier cas, la fonction de coût $C$ n'est pas différenciable. En fait, elle est totalement inconnue. Elle renvoie simplement une sortie lorsque des entrées lui sont fournies, comme une boîte noire. Cela la rend très inefficace et constitue l'un des principaux inconvénients du RL. En particulier lorsque le vecteur de paramètres est à haute dimension (ce qui implique un énorme espace de solution à rechercher, rendant difficile de trouver où se déplacer).
 
-Une technique très populaire en RL est la méthode de critique des acteurs. Une méthode critique consiste essentiellement en un second module C qui est un module connu et pouvant être entraîné. On peut entraîner le module C, qui est différenciable, à se rapprocher de la fonction de coût / fonction de récompense. La récompense est un coût négatif, plus comme une punition. C'est une façon de rendre la fonction de coût différentiable, ou du moins de l'approcher par une fonction différentiable afin de pouvoir faire de la rétropropagation.
+Une technique très populaire en RL est la méthode de Acteur-Critique (AC). Une méthode critique consiste essentiellement en un second module C qui est un module connu et pouvant être entraîné. On peut entraîner le module C, qui est différenciable, à se rapprocher de la fonction de coût / fonction de récompense. La récompense est un coût négatif, pouvant être vue comme une punition. C'est une façon de rendre la fonction de coût différentiable, ou du moins de l'approcher par une fonction différentiable afin de pouvoir faire de la rétropropagation.
 
 
 <!--
 ## [Advantages of SGD and backpropagation for traditional neural nets](https://www.youtube.com/watch?v=d9vdh3b787Y&t=1036s)
 -->
-## [Avantages du SGD et de la rétropropagation pour les réseaux de neurones traditionnels](https://www.youtube.com/watch?v=d9vdh3b787Y&t=1036s)
+## [Avantages de la SGD et de la rétropropagation pour les réseaux de neurones traditionnels](https://www.youtube.com/watch?v=d9vdh3b787Y&t=1036s)
 
 
 <!--
@@ -291,12 +285,12 @@ $$
 
 Dans la formule, $w$ est approché par $w$ moins la taille du pas, multiplié par le gradient de la fonction de perte par échantillon avec les paramètres pour un échantillon donné, ($x[p]$,$y[p]$).
 
-Si nous faisons cela sur un seul échantillon, nous obtiendrons une trajectoire très bruyante comme le montre la figure 3. Au lieu que la perte soit directement descendante, elle est stochastique. Chaque échantillon tirera la perte vers une direction différente. C'est juste la moyenne qui nous tire au minimum de la moyenne. Bien que cela semble inefficace, c'est beaucoup plus rapide que la descente par batch complet, au moins dans le contexte de l'apprentissage machine, lorsque les échantillons ont une certaine redondance.
+Si nous faisons cela sur un seul échantillon, nous obtiendrons une trajectoire très bruyante comme le montre la figure 3. Au lieu que la perte soit directement descendante, elle est stochastique. Chaque échantillon tirera la perte vers une direction différente. C'est juste la moyenne qui nous tire au minimum de la moyenne. Bien que cela semble inefficace, c'est beaucoup plus rapide que la descente par *batch*, au moins dans le contexte de l'apprentissage machine, lorsque les échantillons ont une certaine redondance.
 
 | <center><img src="{{site.baseurl}}/images/week02/02-1/Figure2.png" alt="Figure2" style="zoom:80% ;" /></center> |
-| <center>Figure 3 : Trajectoire de descente du gradient stochastique pour la mise à jour par échantillon </center>|
+| <center>Figure 3 : Trajectoire d'une descente de gradient stochastique pour une mise à jour par échantillon </center>|
 
-En pratique, nous utilisons des batchs (lots) au lieu de faire une descente de gradient stochastique sur un seul échantillon. Nous calculons la moyenne du gradient sur un lot d'échantillons, et non sur un seul échantillon, puis nous effectuons une étape. La seule raison pour laquelle nous faisons cela est que nous pouvons utiliser plus efficacement le matériel existant (c'est-à-dire les GPU, les CPU multi-cœurs) si nous utilisons des lots, car il est plus facile de les paralléliser. La mise en lots est la façon la plus simple de paralléliser.
+En pratique, nous utilisons des *batchs* (des lots) au lieu de faire une descente de gradient stochastique sur un seul échantillon. Nous calculons la moyenne du gradient sur un lot d'échantillons, et non sur un seul échantillon, puis nous effectuons une étape. La seule raison pour laquelle nous faisons cela est que nous pouvons utiliser plus efficacement le matériel existant (c'est-à-dire les GPU, les CPU multi-cœurs) car il est plus facile de les paralléliser. La mise en lots est la façon la plus simple de paralléliser.
 
 <!--
 ### Traditional neural network
@@ -409,7 +403,7 @@ $$
 g(h(s))' = g'(h(s))\cdot h'(s)
 $$
 
-où $h'(s)$ est le dérivé de $z$ w.r.t $s$ représenté par $\frac{\mathrm{d}z}{\mathrm{d}s}$.
+où $h'(s)$ est le dérivé de $z$ par rapport à $s$ représenté par $\frac{\mathrm{d}z}{\mathrm{d}s}$.
 Pour que le lien entre les dérivés soit clair, nous réécrivons la formule ci-dessus comme suit
 
 $$
@@ -523,7 +517,7 @@ $w_k$: matrix $z_k$: vector $h$: application of scalar ${h}$ function to every c
 
   <center><img src="{{site.baseurl}}/images/week02/02-1/Figure 7.png" alt="Figure 7" style="zoom : 33% ;" /></center>
 
-$w_k$ : matrice $z_k$ : vecteur $h$ : application de la fonction scalaire ${h}$ à chaque composant. Il s'agit d'un réseau neuronal à trois couches avec des paires de fonctions linéaires et non linéaires, bien que la plupart des réseaux neuronaux modernes n'aient pas de séparations linéaires et non linéaires aussi nettes et soient plus complexes.
+$w_k$ est une matrice, $z_k$ un vecteur et $h$ l'application de la fonction scalaire ${h}$ à chaque composant. Il s'agit d'un réseau neuronal à trois couches avec des paires de fonctions linéaires et non linéaires, bien que la plupart des réseaux neuronaux modernes n'aient pas de séparations linéaires et non linéaires aussi nettes et sont plus complexes.
 
 <!--
 ### PyTorch implementation
@@ -575,7 +569,7 @@ class mynet(nn.Module):
         self.m2 = nn.Linear(d2, d3)
 
     def forward(self,x):
-        z0 = x.view(-1)  # flatten input tensor
+        z0 = x.view(-1)  # aplatit le tenseur d'entrée
         s1 = self.m0(z0)
         z1 = torch.relu(s1)
         s2 = self.m1(z1)
@@ -586,9 +580,9 @@ model = mynet(d0, 60, 40, 10)
 out = model(image)
 ```
 
--	Nous pouvons implémenter des réseaux neuronaux avec des classes orientées objet dans PyTorch. Tout d'abord, nous définissons une classe pour le réseau neuronal et nous initialisons les couches linéaires dans le constructeur en utilisant la classe prédéfinie `nn.Linear`. Les couches linéaires doivent être des objets séparés car chacune d'entre elles contient un vecteur de paramètres. La classe `nn.Linear` ajoute aussi implicitement le vecteur de biais. Ensuite, nous définissons une fonction directe sur la façon de calculer les sorties avec la fonction $\text{torch.relu}$ comme activation non linéaire. Nous n'avons pas besoin d'initialiser des fonctions Relu séparées car elles n'ont pas de paramètres.
+Nous pouvons implémenter des réseaux neuronaux avec des classes orientées objet dans PyTorch. Tout d'abord, nous définissons une classe pour le réseau neuronal et nous initialisons les couches linéaires dans le constructeur en utilisant la classe prédéfinie `nn.Linear`. Les couches linéaires doivent être des objets séparés car chacune d'entre elles contient un vecteur de paramètres. La classe `nn.Linear` ajoute aussi implicitement le vecteur de biais. Ensuite, nous définissons une fonction directe sur la façon de calculer les sorties avec la fonction $\text{torch.relu}$ comme activation non linéaire. Nous n'avons pas besoin d'initialiser des fonctions Relu séparées car elles n'ont pas de paramètres.
 
-- Nous n'avons pas besoin de calculer le gradient nous-mêmes puisque PyTorch sait comment propager en arrière et calculer les gradients avec la fonction "forward".
+Nous n'avons pas besoin de calculer le gradient nous-mêmes puisque PyTorch sait comment propager en arrière et calculer les gradients avec la fonction *forward*.
 
 <!--
 ### Backprop through a functional module
@@ -638,7 +632,7 @@ Nous présentons maintenant une forme plus généralisée de rétropropagation.
 | <center>Figure 8 : Rétropropagation par le biais d’un module fonctionnel </center>|
 
 
-- Utilisation de la règle des chaînes pour les fonctions vectorielles
+- Utilisation du théorème de dérivation des fonctions composées (appelé aussi règle de la chaîne) pour les fonctions vectorielles :
 
   $$
    z_g : [d_g\times 1]
@@ -656,9 +650,9 @@ Nous présentons maintenant une forme plus généralisée de rétropropagation.
   [1\times d_f]= [1\times d_g]\times[d_g\times d_f]
   $$
 
-  C'est la formule de base pour $\frac{\partiel c}{\partiel{z_f}}$ en utilisant la règle de la chaîne. Notez que le gradient d'une fonction scalaire par rapport à un vecteur est un vecteur de même taille que le vecteur par rapport auquel vous faites la différence. Afin de rendre les notations cohérentes, il s'agit d'un vecteur ligne au lieu d'un vecteur colonne.
+C'est la formule de base pour $\frac{\partial c}{\partial{z_f}}$ en utilisant la règle de la chaîne. Notez que le gradient d'une fonction scalaire par rapport à un vecteur est un vecteur de même taille que le vecteur par rapport auquel vous faites la différence. Afin de rendre les notations cohérentes, il s'agit d'un vecteur ligne au lieu d'un vecteur colonne.
 
-- Matrice jacobienne
+- Matrice jacobienne :
 
   $$
   \left(\frac{\partial{z_g}}{\partial {z_f}}\right)_{ij}=\frac{(\partial {z_g})_i}{(\partial {z_f})_j}
@@ -666,7 +660,7 @@ Nous présentons maintenant une forme plus généralisée de rétropropagation.
 
 Nous avons besoin de $\frac{\partial {z_g}}{\partial {z_f}}$ (entrées de la matrice jacobienne) pour calculer le gradient de la fonction de coût par rapport à $z_f$, étant donné le gradient de la fonction de coût par rapport à $z_g$. Chaque entrée $ij$ est égale à la dérivée partielle de la composante $i$ème du vecteur de sortie par rapport à la composante $j$ème du vecteur d'entrée.
 
-  Si nous avons une cascade de modules, nous continuons à multiplier les matrices jacobiennes de tous les modules qui descendent et nous obtenons les gradients w.r.t de toutes les variables internes.
+Si nous avons une cascade de modules, nous continuons à multiplier les matrices jacobiennes de tous les modules qui descendent et nous obtenons les gradients par rapport à de toutes les variables internes.
 
 <!--
 ### Backprop through a multi-stage graph
@@ -700,9 +694,9 @@ Considérons une pile de plusieurs modules dans un réseau de neurones, comme le
 | <center><img src="{{site.baseurl}}/images/week02/02-1/Figure10.png" alt="Figure10" style="zoom:33% ;" /></center> |
 | <center>Figure 9 : Rétropropagation par le biais d’un graphe à plusieurs niveaux </center>|
 
-Pour l'algorithme de rétropropagation, nous avons besoin de deux ensembles de gradients - un par rapport aux états (chaque module du réseau) et un par rapport aux poids (tous les paramètres d'un module particulier). Nous avons donc deux matrices jacobiennes associées à chaque module. Nous pouvons à nouveau utiliser la règle de la chaîne pour la rétropropagation.
+Pour l'algorithme de rétropropagation, nous avons besoin de deux ensembles de gradients : un par rapport aux états (chaque module du réseau) et un par rapport aux poids (tous les paramètres d'un module particulier). Nous avons donc deux matrices jacobiennes associées à chaque module. Nous pouvons à nouveau utiliser la règle de la chaîne pour la rétropropagation.
 
-- Utilisation de la règle en chaîne pour les fonctions vectorielles
+- Utilisation de la règle en chaîne pour les fonctions vectorielles :
 
   $$
   \frac{\partial c}{\partial {z_k}}=\frac{\partial c}{\partial {z_{k+1}}}\frac{\partial {z_{k+1}}}{\partial {z_k}}=\frac{\partial c}{\partial {z_{k+1}}}\frac{\partial f_k(z_k,w_k)}{\partial {z_k}}
@@ -712,8 +706,6 @@ Pour l'algorithme de rétropropagation, nous avons besoin de deux ensembles de g
   \frac{\partial c}{\partial {w_k}}=\frac{\partial c}{\partial {z_{k+1}}}\frac{\partial {z_{k+1}}}{\partial {w_k}}=\frac{\partial c}{\partial {z_{k+1}}}\frac{\partial f_k(z_k,w_k)}{\partial {w_k}}
   $$
 
-- Deux matrices jacobiennes pour le module
+- Deux matrices jacobiennes pour le module :
     - Une en ce qui concerne $z[k]$.
     - Une en ce qui concerne $w[k]$.
-
-
diff --git a/docs/fr/week02/02-2.md b/docs/fr/week02/02-2.md
index f7d381e08..1fe560b05 100644
--- a/docs/fr/week02/02-2.md
+++ b/docs/fr/week02/02-2.md
@@ -35,19 +35,23 @@ Note that complications might arise when the architecture of the graph is not fi
 
 ### Exemple
 
-Nous considérons un exemple concret de rétropropagation assistée par un graphique visuel. La fonction arbitraire $G(w)$ est introduite dans la fonction de coût $C$, qui peut être représentée sous forme de graphique. Par la manipulation de la multiplication des matrices jacobiennes, nous pouvons transformer ce graphe en un qui calculera les gradients à l'envers. (Notez que PyTorch et TensorFlow font cela automatiquement pour l'utilisateur, c'est-à-dire que le graphe en avant est automatiquement "inversé" pour créer le graphe dérivé qui rétropropage le gradient).
+Nous considérons un exemple concret de rétropropagation assistée par un graphique visuel. La fonction arbitraire $G(w)$ est introduite dans la fonction de coût $C$, qui peut être représentée sous forme d'un graphe. Par la manipulation de la multiplication des matrices jacobiennes, nous pouvons transformer ce graphe en un qui calculera les gradients à l'envers. 
+Notez que PyTorch et TensorFlow font cela automatiquement pour l'utilisateur, c'est-à-dire que le graphe de la propagation avant avant est automatiquement "inversé" pour créer le graphe dérivé qui rétropropage le gradient.
 
 <center><img src="{{site.baseurl}}/images/week02/02-2/02-2-1.png" alt="Gradient diagram" style="zoom:40%;" /></center>
 
-Dans cet exemple, le graphique vert à droite représente le gradient. En suivant le graphe à partir du nœud supérieur, il s'ensuit que
+Dans cet exemple, le graphe vert à droite représente le gradient. En suivant le graphe à partir du nœud supérieur, il s'ensuit que :
 
 $$
 \frac{\partial C(y,\bar{y})}{\partial w}=1 \cdot \frac{\partial C(y,\bar{y})}{\partial\bar{y}}\cdot\frac{\partial G(x,w)}{\partial w}
 $$
+<br>
+En termes de dimensions :
+- $\frac{\partial C(y,\bar{y})}{\partial w}$ est un vecteur ligne de taille $1\times N$ où $N$ est le nombre de composantes de $w$ 
+-  $\frac{\partial C(y,\bar{y})}{\partial \bar{y}}$ est un vecteur ligne de taille $1\times M$, où $M$ est la dimension de la sortie 
+-   $\frac{\partial \bar{y}}{\partial w}=\frac{\partial G(x,w)}{\partial w}$ est une matrice de taille $M\times N$, où $M$ est le nombre de sorties de $G$ et $N$ est la dimension de $w$.
 
-En termes de dimensions, $\frac{\partial C(y,\bar{y})}{\partial w}$ est un vecteur ligne de taille $1\times N$ où $N$ est le nombre de composantes de $w$ ; $\frac{\partial C(y,\bar{y})}{\partial \bar{y}}$ est un vecteur ligne de taille $1\times M$, où $M$ est la dimension de la sortie ; $\frac{\partial \bar{y}}{\partial w}=\frac{\partial G(x,w)}{\partial w}$ est une matrice de taille $M\times N$, où $M$ est le nombre de sorties de $G$ et $N$ est la dimension de $w$.
-
-Notez que des complications peuvent survenir lorsque l'architecture du graphique n'est pas fixe, mais dépend des données. Par exemple, nous pourrions choisir un module de réseau neuronal en fonction de la longueur du vecteur d'entrée. Bien que cela soit possible, il devient de plus en plus difficile de gérer cette variation lorsque le nombre de boucles dépasse un montant raisonnable.
+Notez que des complications peuvent survenir lorsque l'architecture du graphe n'est pas fixe mais dépend des données. Par exemple, nous pourrions choisir un module de réseau neuronal en fonction de la longueur du vecteur d'entrée. Bien que cela soit possible, il devient de plus en plus difficile de gérer cette variation lorsque le nombre de boucles dépasse un montant raisonnable.
 
 <!--
 ### Basic neural net modules
@@ -123,9 +127,9 @@ There exist different types of pre-built modules besides the familiar Linear and
 
 ### Modules de base des réseaux neuronaux
 
-Il existe différents types de modules préconstruits en plus des modules Linear et ReLU bien connus. Ils sont utiles car ils sont optimisés de manière unique pour remplir leurs fonctions respectives (par opposition à une combinaison d'autres modules élémentaires).
+Il existe différents types de modules préconstruits en plus des modules *Linear* et *ReLU* bien connus. Ils sont utiles car ils sont optimisés de manière unique pour remplir leurs fonctions respectives (par opposition à une combinaison d'autres modules élémentaires).
 
-- Linéaire : $Y=W\cdot X$
+- *Linear* : $Y=W\cdot X$
 
   $$
   \begin{aligned}
@@ -134,7 +138,7 @@ Il existe différents types de modules préconstruits en plus des modules Linear
   \end{aligned}
   $$
 
-- ReLU : $y=(x)^+$
+- *ReLU* : $y=(x)^+$
 
   $$
   \frac{dC}{dX} =
@@ -146,29 +150,25 @@ Il existe différents types de modules préconstruits en plus des modules Linear
 
 - Dupliquer : $Y_1=X$, $Y_2=X$
 
-  - Semblable à un "Y - splitter" où les deux sorties sont égales à l'entrée.
+  - semblable à un "Y - splitter" où les deux sorties sont égales à l'entrée.
 
-  - En rétropropagation, les gradients sont additionnés
+  - en rétropropagation, les gradients sont additionnés
 
-  - Peut être divisé de la même manière en branches de $n$.
-
-    $$
-    \frac{dC}{dX}=\frac{dC}{dY_1}+\frac{dC}{dY_2}
-    $$
+  - peut être divisé en $n$ branches : $ \frac{dC}{dX}=\frac{dC}{dY_1}+\frac{dC}{dY_2}$
 
 
 - Ajouter : $Y=X_1+X_2$
 
-  - En additionnant deux variables, lorsque l'une d'entre elles est perturbée, la production sera perturbée par la même quantité, c'est-à-dire
+  - en additionnant deux variables, lorsque l'une d'entre elles est perturbée, la sortie sera perturbée par la même quantité, c'est-à-dire
 
     $$
-    \frac{dC}{dX_1}=\frac{dC}{dY}\cdot1 \quad \text{and}\quad \frac{dC}{dX_2}=\frac{dC}{dY}\cdot1
+    \frac{dC}{dX_1}=\frac{dC}{dY}\cdot1 \quad \text{et}\quad \frac{dC}{dX_2}=\frac{dC}{dY}\cdot1
     $$
 
 
 - Max : $Y=\max(X_1,X_2)$
 
-  - Comme cette fonction peut également être représentée comme
+  - cette fonction peut également être représentée comme :
 
     $$
     Y=\max(X_1,X_2)=\begin{cases}
@@ -182,12 +182,12 @@ Il existe différents types de modules préconstruits en plus des modules Linear
        \end{cases}
     $$
 
-  - Donc, par la règle de la chaîne,
+  - donc, par la règle de la chaîne :
 
     $$
     \frac{dC}{dX_1}=\begin{cases}
           \frac{dC}{dY}\cdot1 & X_1 > X_2 \\
-          0 & \text{else}
+          0 & \text{sinon}
       \end{cases}
     $$
 
@@ -266,9 +266,9 @@ $$
 ReLU works best for networks with many layers, which has caused alternatives like the sigmoid function and hyperbolic tangent $\tanh(\cdot)$ function to fall out of favour. The reason ReLU works best is likely due to its single kink which makes it scale equivariant.
 -->
 
-### Utiliser ReLU comme fonction d'activation non linéaire
+### Utiliser *ReLU* comme fonction d'activation non linéaire
 
-ReLU fonctionne mieux pour les réseaux à plusieurs couches, ce qui a fait que des alternatives comme la fonction sigmoïde et la fonction de tangente hyperbolique $\tanh(\cdot)$ ont perdu de leur popularité. La raison pour laquelle ReLU fonctionne le mieux est probablement due à son unique nœud qui le rend d'échelle équivalente.
+*ReLU* fonctionne mieux pour les réseaux à plusieurs couches, ce qui a fait que des alternatives comme la fonction sigmoïde et la fonction de tangente hyperbolique $\tanh(\cdot)$ ont perdu de leur popularité. La raison pour laquelle *ReLU* fonctionne le mieux est probablement due à son unique nœud qui le rend d'échelle équivalente.
 
 <!--
 ### Use cross-entropy loss as the objective function for classification problems
@@ -278,7 +278,7 @@ Log softmax, which we discussed earlier in the lecture, is a special case of cro
 
 ### Utiliser la perte d'entropie croisée comme fonction objectif pour les problèmes de classification
 
-La fonction log softmax, dont nous avons parlé plus tôt dans la conférence, est un cas particulier de l'entropie croisée. Dans PyTorch, assurez-vous de fournir la fonction de perte d'entropie croisée avec *log* softmax comme entrée (par opposition à softmax normale).
+La fonction logsoftmax, dont nous avons parlé plus tôt, est un cas particulier de l'entropie croisée. Dans PyTorch, assurez-vous de fournir la fonction de perte d'entropie croisée avec *log*softmax comme entrée (par opposition à la softmax normale).
 
 <!--
 ### Use stochastic gradient descent on minibatches during training
@@ -288,7 +288,7 @@ As discussed previously, minibatches let you train more efficiently because ther
 
 ### Utiliser la descente de gradient stochastique sur les minibatchs pendant l'entraînement
 
-Comme nous l'avons vu précédemment, les minibatchs vous permettent d’entraîner plus efficacement car les données sont redondantes ; vous ne devriez pas avoir besoin de faire une prédiction et de calculer la perte sur chaque observation à chaque étape pour estimer le gradient.
+Comme nous l'avons vu précédemment (voir la page web *Introduction à la descente de gradient et à l’algorithme de rétropropagation* du site), les *minibatchs* vous permettent d’entraîner plus efficacement car les données sont redondantes. Vous ne devriez pas avoir besoin de faire une prédiction et de calculer la perte sur chaque observation à chaque étape pour estimer le gradient.
 
 <!--
 ### Shuffle the order of the training examples when using stochastic gradient descent
@@ -300,7 +300,7 @@ However, there's ongoing debate over whether you need to change the order of the
 
 ### Mélangez l'ordre des exemples d'entraînement lorsque vous utilisez la descente stochastique
 
-L'ordre est important. Si le modèle ne voit que des exemples d'une seule classe à chaque étape de l’entraînement, il apprendra à prédire cette classe sans savoir pourquoi il devrait le faire. Par exemple, si vous essayez de classer des chiffres de l'ensemble de données du MNIST et que les données ne sont pas mélangées, les paramètres de biais dans la dernière couche prédiraient simplement toujours zéro, puis s'adapteraient pour toujours prédire un, puis deux, *etc*. Idéalement, vous devriez avoir des échantillons de chaque classe dans chaque minibatch.
+L'ordre est important. Si le modèle ne voit que des exemples d'une seule classe à chaque étape de l’entraînement, il apprendra à prédire cette classe sans savoir pourquoi il devrait le faire. Par exemple, si vous essayez de classer des chiffres du jeu de données MNIST et que les données ne sont pas mélangées, les paramètres de biais dans la dernière couche prédiraient simplement toujours zéro, puis s'adapteraient pour toujours prédire un, puis deux, *etc*. Idéalement, vous devriez avoir des échantillons de chaque classe dans chaque minibatch.
 
 Cependant, le débat se poursuit pour savoir s'il faut changer l'ordre des échantillons à chaque passage (époque).
 
@@ -316,15 +316,16 @@ $$
 where $\epsilon$ is an arbitrarily small number that we use to avoid division by zero. Repeat the same for green and red channels. This is necessary to get a meaningful signal out of images taken in different lighting; for example, day lit pictures have a lot of red while underwater pictures have almost none.
 -->
 
-### Normaliser les entrées pour avoir une moyenne nulle et une variance de un 
+### Normaliser les entrées pour avoir une moyenne nulle et une variance de 1 
 
-Avant d'entraîner, il est utile de normaliser chaque caractéristique d'entrée afin qu'elle ait une moyenne de zéro et un écart-type de un. Lors de l'utilisation de données d'images RVB, il est courant de prendre la moyenne et l'écart type de chaque canal individuellement et de normaliser l'image par canal. Par exemple, prenez la moyenne $m_b$ et l'écart type $\sigma_b$ de toutes les valeurs du bleu dans l'ensemble de données, puis normalisez les valeurs du bleu pour chaque image individuelle comme
+Avant d'entraîner, il est utile de normaliser chaque caractéristique d'entrée afin qu'elle ait une moyenne de zéro et un écart-type de un. Lors de l'utilisation de données d'images RVB, il est courant de prendre la moyenne et l'écart-type de chaque canal individuellement et de normaliser l'image par canal. Par exemple, prenez la moyenne $m_b$ et l'écart-type $\sigma_b$ de toutes les valeurs du bleu dans l'ensemble de données, puis normalisez les valeurs du bleu pour chaque image individuelle comme
 
 $$
 b_{[i,j]}^{'} = \frac{b_{[i,j]} - m_b}{\max(\sigma_b, \epsilon)}
 $$
 
-où $\epsilon$ est un nombre arbitrairement petit que nous utilisons pour éviter la division par zéro. Répétez la même chose pour les canaux verts et rouges. Ceci est nécessaire pour obtenir un signal significatif à partir d'images prises sous différents éclairages ; par exemple, les images prises en plein jour contiennent beaucoup de rouge alors que les images sous-marines n'en contiennent presque pas.
+où $\epsilon$ est un nombre arbitrairement petit que nous utilisons pour éviter la division par zéro. Répétez la même chose pour les canaux verts et rouges.   
+Ceci est nécessaire pour obtenir un signal significatif à partir d'images prises sous différents éclairages. Par exemple, les images prises en plein jour contiennent beaucoup de rouge alors que les images sous-marines n'en contiennent presque pas.
 
 <!--
 ### Use a schedule to decrease the learning rate
@@ -334,7 +335,7 @@ The learning rate should fall as training goes on. In practice, most advanced mo
 
 ### Utiliser un schéma pour diminuer le taux d'apprentissage
 
-Le taux d'apprentissage devrait diminuer au fur et à mesure de l’entraînement. En pratique, la plupart des modèles avancés sont entraînés en utilisant des algorithmes comme Adam qui adaptent le taux d'apprentissage au lieu d'un simple SGD avec un taux d'apprentissage constant.
+Le taux d'apprentissage devrait diminuer au fur et à mesure de l’entraînement. En pratique, la plupart des modèles avancés sont entraînés en utilisant des algorithmes comme *Adam* qui adaptent le taux d'apprentissage au lieu d'une simple SGD avec un taux d'apprentissage constant.
 
 <!--
 ### Use L1 and/or L2 regularization for weight decay
@@ -368,7 +369,7 @@ L(S, w) = C(S, w) + \alpha \Vert w \Vert^2\\
 w_i = w_i - \eta\frac{\partial L}{\partial w_i} = w_i - \eta \left( \frac{\partial C}{\partial w_i} + 2 \alpha w_i \right)
 $$
 
-Pour comprendre pourquoi on appelle cela le taux de décroissance des poids (weight decay en anglais), notez que nous pouvons réécrire la formule ci-dessus pour montrer que nous multiplions $w_i$ par une constante inférieure à un pendant la mise à jour.
+Pour comprendre pourquoi on appelle cela le taux de décroissance des poids (*weight decay* en anglais), notez que nous pouvons réécrire la formule ci-dessus pour montrer que nous multiplions $w_i$ par une constante inférieure à un pendant la mise à jour :
 
 $$
 w_i = (1 - 2 \eta \alpha) w_i - \eta\frac{\partial C}{\partial w_i}
@@ -376,17 +377,17 @@ $$
 
 La régularisation L1 (Lasso) est similaire, sauf que nous utilisons $\sum_i \vert w_i\vert$ au lieu de $\Vert w \Vert^2$.
 
-Essentiellement, la régularisation essaie de dire au système de minimiser la fonction de coût avec le vecteur de poids le plus court possible. Avec la régularisation L1, les poids qui ne sont pas utiles sont réduits à $0$.
+Essentiellement, la régularisation essaie de dire au système de minimiser la fonction de coût avec le vecteur de poids le plus court possible. Avec la régularisation L1, les poids qui ne sont pas utiles sont mis à $0$.
 
 <!--
 ### Weight initialisation
 
-The weights need to be initialised at random, however, they shouldn't be too large or too small such that output is roughly of the same variance as that of input. There are various weight initialisation tricks built into PyTorch. One of the tricks that works well for deep models is Kaiming initialisation where the variance of the weights is inversely proportional to square root of number of inputs.
+The weights need to be initialised at random, however, they shouldn't be too large or too small such that output is roughly of the same variance as that of input. There are various weight initialisation tricks built into PyTorch. One of the tricks that works well for deep models is Kaiming initialisation where the standard deviation of the weights is inversely proportional to square root of number of inputs.
 -->
 
 ### Initialisation des poids
 
-Les poids doivent être initialisés au hasard, mais ils ne doivent pas être trop grands ou trop petits pour que la sortie soit à peu près de la même variance que l'entrée. PyTorch comporte plusieurs astuces d'initialisation des poids. Une des astuces qui fonctionne bien pour les modèles profonds est l'initialisation de Kaiming où la variance des poids est inversement proportionnelle à la racine carrée du nombre d'entrées.
+Les poids doivent être initialisés au hasard, mais ils ne doivent pas être trop grands ou trop petits pour que la sortie soit à peu près de la même variance que l'entrée. PyTorch comporte plusieurs astuces d'initialisation des poids. Une des astuces qui fonctionne bien pour les modèles profonds est l'initialisation de Kaiming où l'écart-type des poids est inversement proportionnelle à la racine carrée du nombre d'entrées.
 
 <!--
 ### Use dropout
@@ -400,7 +401,7 @@ Finally, note that backpropagation doesn't just work for stacked models; it can
 
 ### Utiliser le dropout
 
-Le dropout est une autre forme de régularisation. Il peut être considéré comme une autre couche du réseau neuronal : il prend les entrées, met aléatoirement à zéro $n/2$ des entrées, et renvoie le résultat en sortie. Cela oblige le système à prendre des informations de toutes les unités d'entrée plutôt que de devenir trop dépendant d'un petit nombre d'unités d'entrée, répartissant ainsi les informations sur toutes les unités d'une couche. Cette méthode a été initialement proposée par <a href="https://arxiv.org/abs/1207.0580">Hinton et al (2012)</a>.
+Le *dropout* est une autre forme de régularisation. Il peut être considéré comme une autre couche du réseau neuronal : il prend les entrées, met aléatoirement à zéro $n/2$ des entrées, et renvoie le résultat en sortie. Cela oblige le système à prendre des informations de toutes les unités d'entrée plutôt que de devenir trop dépendant d'un petit nombre d'unités d'entrée, répartissant ainsi les informations sur toutes les unités d'une couche. Cette méthode a été initialement proposée par <a href="https://arxiv.org/abs/1207.0580">Hinton et al. (2012)</a>.
 
-Pour plus d'astuces, voir <a href="http://yann.Le Cun.com/exdb/publis/pdf/Le Cun-98b.pdf">Le Cun et al 1998</a>.
-Enfin, notez que la rétropropagation ne fonctionne pas seulement pour les modèles empilés ; elle peut fonctionner pour tout graphe acyclique dirigé (DAG en anglais pour directed acyclic graph) tant qu'il y a un ordre partiel sur les modules.
+Pour plus d'astuces, voir <a href="http://yann.Le Cun.com/exdb/publis/pdf/Le Cun-98b.pdf">Le Cun et al. (1998)</a>.
+Enfin, notez que la rétropropagation ne fonctionne pas seulement pour les modèles empilés ; elle peut fonctionner pour tout graphe acyclique dirigé (*DAG* de l'anglais pour *directed acyclic graph*) tant qu'il y a un ordre partiel sur les modules.
diff --git a/docs/fr/week02/02-3.md b/docs/fr/week02/02-3.md
index 76264d7bd..8b63f8494 100644
--- a/docs/fr/week02/02-3.md
+++ b/docs/fr/week02/02-3.md
@@ -59,9 +59,9 @@ What does it mean to perform **classification**? Consider the case of **logistic
 
 ## [Apprentissage supervisé pour la classification](https://www.youtube.com/watch?v=WAn6lip5oWk&t=150s)
 
-* Considérons la **Figure 1(a)** ci-dessous. Les points de ce graphique se trouvent sur les branches de la spirale, et vivent dans $\R^2$. Chaque couleur représente une classe. Le nombre de classes uniques est $K = 3$. Ceci est représenté mathématiquement par l’**Eqn. 1(a)**.
+* Considérons la figure 1(a) ci-dessous. Les points de ce graphique se trouvent sur les branches de la spirale et vivent dans $\R^2$. Chaque couleur représente une classe. Le nombre de classes uniques est $K = 3$. Ceci est représenté mathématiquement par l’*éqn. 1(a)*.
 
-* La **figure 1(b)** montre une spirale similaire, avec un terme de bruit gaussien ajouté. Ceci est représenté mathématiquement par l’**Eqn. 1(b)**.
+* La figure 1(b) montre une spirale similaire, avec un terme de bruit gaussien ajouté. Ceci est représenté mathématiquement par l’*éqn. 1(b)*.
 
   Dans les deux cas, ces points ne sont pas séparables linéairement.
 
@@ -70,13 +70,13 @@ What does it mean to perform **classification**? Consider the case of **logistic
     <td>
       <center>
     <img src="{{site.baseurl}}/images/week02/02-3/clean-spiral.png" width="350px" /><br>
-       <b>Fig. 1(a)</b> Spirale 2D "propre"
+       <b>Figure 1(a) :</b> Spirale 2D "propre"
        </center>
       </td>
       <td>
       <center>
       <img src="{{site.baseurl}}/images/week02/02-3/noisy-spiral.png" width="350px" /><br>
-       <b>Fig. 1(b)</b> Spirale 2D "bruyante"
+       <b>Figure 1(b) :</b> Spirale 2D "bruyante"
        </center>
       </td>
   </table>
@@ -89,20 +89,21 @@ X_{k}(t)=t\left(\begin{array}{c}{\sin \left[\frac{2 \pi}{K}(2 t+k-1)\right]} \\
 0 \leq t \leq 1, \quad k=1, ..., K
 $$
 
-  <center><b>Eqn. 1(a)</b> </center>
+  <center><b>Eqn. 1(a) :</b> </center>
 
 $$
   X_{k}(t)=t\left(\begin{array}{c}{\sin \left[\frac{2 \pi}{K}(2 t+k-1 +\mathcal{N}\left(0, \sigma^{2}\right))\right]} \\ {\cos \left[\frac{2 \pi}{K}(2 t+k-1 +\mathcal{N}\left(0, \sigma^{2}\right))\right]}\end{array}\right)\\0 \leq t \leq 1, \quad k=1, ..., K
 $$
 
-<center><b>Eqn. 1(b)</b></center>
+<center><b>Eqn. 1(b) :</b></center>
 
 
 Que signifie effectuer une **classification** ? Considérons le cas de la **régression logistique**. Si la régression logistique pour la classification est appliquée à ces données, elle créera un ensemble de **plans linéaires** (limites de décision) dans le but de séparer les données dans leurs classes. Le problème avec cette solution est que dans chaque région, il y a des points appartenant à plusieurs classes. Les branches de la spirale traversent les limites de décision linéaires. Ce **n'est pas** une très bonne solution !
 
-**Comment pouvons-nous résoudre ce problème ?** Nous transformons l'espace d'entrée de telle sorte que les données soient forcées d'être linéairement séparables. Au cours de l’entraînement d'un réseau de neurones à cette fin, les limites de décision qu'il apprend essaieront de s'adapter à la distribution des données d’entraînement.
+**Comment pouvons-nous résoudre ce problème ?**  
+Nous transformons l'espace d'entrée de telle sorte que les données soient forcées d'être linéairement séparables. Au cours de l’entraînement d'un réseau de neurones à cette fin, les limites de décision qu'il apprend essaieront de s'adapter à la distribution des données d’entraînement.
 
-**Note** : Un réseau de neurones est toujours représenté à partir de la base. La première couche est en bas, et la dernière en haut. Ceci est dû au fait que, conceptuellement, les données d'entrée sont des caractéristiques de bas niveau pour n'importe quelle tâche que le réseau neuronal tente d'accomplir. Lorsque les données traversent le réseau de **bas en haut**, chaque couche suivante extrait des caractéristiques de plus haut niveau.
+**Note** : un réseau de neurones est toujours représenté à partir de la base. La première couche est en bas, et la dernière en haut. Ceci est dû au fait que, conceptuellement, les données d'entrée sont des caractéristiques de bas niveau pour n'importe quelle tâche que le réseau neuronal tente d'accomplir. Lorsque les données traversent le réseau de **bas en haut**, chaque couche suivante extrait des caractéristiques de plus haut niveau.
 
 
 <!--
@@ -132,23 +133,23 @@ Last week, we saw that a newly initialised neural network transforms its input i
 
 ## Données d'entraînement
 
-La semaine dernière, nous avons vu qu'un réseau de neurones nouvellement initialisé transforme son entrée de manière arbitraire. Cette transformation, cependant, n'est pas **(initialement)** déterminante dans l'accomplissement de la tâche en question. Nous explorons comment, à l'aide de données, nous pouvons forcer cette transformation à avoir une signification qui soit pertinente pour la tâche à accomplir. Les données suivantes sont utilisées comme données d'entraînement pour un réseau.
+La semaine précédente, nous avons vu qu'un réseau de neurones nouvellement initialisé transforme son entrée de manière arbitraire. Cette transformation, cependant, n'est pas **(initialement)** déterminante dans l'accomplissement de la tâche en question. Nous explorons comment, à l'aide de données, nous pouvons forcer cette transformation à avoir une signification qui soit pertinente pour la tâche à accomplir. Les données suivantes sont utilisées comme données d'entraînement pour un réseau.
 
 * $\vect{X}$ représente les données d'entrée, une matrice de dimensions $m$ (nombre de points de données d'entraînement) x $n$ (dimensionnalité de chaque point d'entrée). Dans le cas des données indiquées dans les figures **1(a)** et **1(b)**, $n = 2$.
 
 <center>
 <img src="{{site.baseurl}}/images/week02/02-3/training-data.png" width="600px" /><br>
-<b>Fig. 2</b> Données d'entraînement
+<b>Figure 2 : </b> Données d'entraînement
 </center>
 
-* Le vecteur $\vect{c}$ et la matrice $\boldsymbol{Y}$ représentent tous deux des labels de classe pour chacun des points de données $m$. Dans l'exemple ci-dessus, il y a 3$ de classes distinctes.
+* Le vecteur $\vect{c}$ et la matrice $\boldsymbol{Y}$ représentent tous deux des labels de classe pour chacun des points de données $m$. Dans l'exemple ci-dessus, il y a $3$ de classes distinctes.
 
   * $c_i \in \lbrace 1, 2, \cdots, K \rbrace$, et $\vect{c} \in \R^m$. Cependant, nous ne pouvons pas utiliser $\vect{c}$ comme données d'entraînement. Si nous utilisons des labels de classe numériques distinctes $c_i \in \lbrace 1, 2, \cdots, K \rbrace$, le réseau peut déduire un ordre au sein des classes qui n'est pas représentatif de la distribution des données.
-  * Pour contourner ce problème, nous utilisons un **one-hot encoding**. Pour chaque label $c_i$, un vecteur nul de dimension $K$ $\vect{y}^{(i)}$ est créé, dont le $c_i$-ème élément est fixé à $1$ (voir **Fig. 3** ci-dessous).
+  * Pour contourner ce problème, nous utilisons un *one-hot encoding*. Pour chaque label $c_i$, un vecteur nul de dimension $K$ $\vect{y}^{(i)}$ est créé, dont le $c_i$-ème élément est fixé à $1$ (voir **Fig. 3** ci-dessous).
 
 <center>
 <img src="{{site.baseurl}}/images/week02/02-3/one-hot.png" width="250px" /><br>
-<b>Fig. 3</b> Un one-hot encoding
+<b>Figure 3 :</b> Un one-hot encoding
 </center>
 
   * Donc, $\boldsymbol Y \in \R^{m \times K}$. Cette matrice peut également être considérée comme ayant une certaine masse probabiliste, qui est entièrement concentrée sur l'un des points $K$.
@@ -213,10 +214,10 @@ Nous allons maintenant examiner ce qu'est un réseau entièrement connecté (FC)
 
 <center>
 <img src="{{site.baseurl}}/images/week02/02-3/FC-net.png" height="250px" /><br>
-<b>Fig. 4</b> Réseau neuronal entièrement connecté
+<b>Figure 4 :</b> Réseau neuronal entièrement connecté
 </center>
 
-Considérons le réseau présenté ci-dessus à la **Figure 4**. Les données d'entrée, $\boldsymbol x$, sont soumises à une transformation affine définie par $\boldsymbol W_h$, suivie d'une transformation non linéaire. Le résultat de cette transformation non linéaire est désigné par $\boldsymbol h$, représentant une sortie **cachée**, c'est-à-dire qui n'est pas **vu** de l'extérieur du réseau. Cette transformation est suivie d'une autre transformation affine ($\boldsymbol W_y$), suivie d'une autre transformation non linéaire. Cela produit la sortie finale, $\boldsymbol{\hat{y}}$. Ce réseau peut être représenté mathématiquement par les équations de **Eqn. 2** ci-dessous. $f$ et $g$ sont tous deux des non-linéarités.
+Considérons le réseau présenté ci-dessus à la figure 4. Les données d'entrée, $\boldsymbol x$, sont soumises à une transformation affine définie par $\boldsymbol W_h$, suivie d'une transformation non linéaire. Le résultat de cette transformation non linéaire est désigné par $\boldsymbol h$, représentant une sortie **cachée**, c'est-à-dire qui n'est pas **vu** de l'extérieur du réseau. Cette transformation est suivie d'une autre transformation affine ($\boldsymbol W_y$), suivie d'une autre transformation non linéaire. Cela produit la sortie finale, $\boldsymbol{\hat{y}}$. Ce réseau peut être représenté mathématiquement par les équations de **Eqn. 2** ci-dessous. $f$ et $g$ sont tous deux des non-linéarités.
 
 $$
 \begin{aligned}
@@ -224,9 +225,9 @@ $$
 &\boldsymbol{\hat{y}}=g\left(\boldsymbol{W}_{y} \boldsymbol h+ \boldsymbol b_{y}\right)
 \end{aligned}
 $$
-<center><b>Eqn. 2</b> Mathématiques derrière un réseau entièrement connecté </center>
+<center><b>Eqn. 2 :</b> Mathématiques derrière un réseau entièrement connecté </center>
 
-Un réseau neuronal de base tel que celui illustré ci-dessus n'est qu'un ensemble de paires successives, chaque paire étant une transformation affine suivie d'une opération non linéaire (écrasement). Les fonctions non linéaires les plus fréquemment utilisées sont ReLU, sigmoïde, tangente hyperbolique et softmax.
+Un réseau neuronal de base tel que celui illustré ci-dessus n'est qu'un ensemble de paires successives. Chaque paire étant une transformation affine suivie d'une opération non linéaire (écrasement). Les fonctions non linéaires les plus fréquemment utilisées sont *ReLU*, sigmoïde, tangente hyperbolique et softmax.
 
 Le réseau illustré ci-dessus est un réseau à trois couches :
 
@@ -238,11 +239,11 @@ Par conséquent, un réseau neuronal à $3$ couches a des transformations affine
 
 Passons maintenant à un cas plus complexe.
 
-Faisons un cas de 3 couches cachées, entièrement connectées dans chaque couche. Une illustration peut être trouvée dans la **Fig. 5**
+Faisons un cas de 3 couches cachées, entièrement connectées dans chaque couche. Une illustration peut être trouvée dans la figure 5.
 
 <center>
 <img src="{{site.baseurl}}/images/week02/02-3/pre-inference4layers.png" /><br>
-<b>Fig. 5</b> Réseau neuronal avec 3 couches cachées
+<b>Figure 5 :</b> Réseau neuronal avec 3 couches cachées
 </center>
 
 Considérons un neurone $j$ dans la deuxième couche. C'est l'activation :
@@ -253,9 +254,9 @@ $$
 
 où $\vect{w}^{(j)}$ est la $j$-ième ligne de $\vect{W}^{(1)}$.
 
-Remarquez que l'activation de la couche d'entrée dans ce cas n'est que l'identité. Les couches cachées peuvent avoir des activations comme ReLU, tangente hyperbolique, sigmoïde, soft (arg)max, *etc*.
+Remarquez que l'activation de la couche d'entrée dans ce cas n'est que l'identité. Les couches cachées peuvent avoir des activations comme *ReLU*, tangente hyperbolique, sigmoïde, soft (arg)max, *etc*.
 
-L'activation de la dernière couche en général dépend de votre cas d'utilisation, comme expliqué dans [ce post Piazza](https://piazza.com/class/k5spqaanqk51ks?cid=36).
+L'activation de la dernière couche en général dépend de votre cas d'utilisation.
 
 <!--
 ## Neural network (inference)
@@ -284,11 +285,11 @@ What might an example configuration for the case above look like? In this case,
 
 ## Réseau de neurones (inférence)
 
-Pensons encore au réseau neuronal à trois couches (entrée, caché, sortie), comme on le voit sur la **Figure 6**.
+Pensons encore au réseau neuronal à trois couches (entrée, caché, sortie), comme on le voit sur la **figure 6**.
 
 <center>
 <img src="{{site.baseurl}}/images/week02/02-3/2-layer-inference.png" height="250px"/><br>
-<b>Fig. 6</b> Réseau neuronal à trois couches
+<b>Figure 6 :</b> Réseau neuronal à trois couches
 </center>
 
 Quel type de fonctions envisageons-nous ?
@@ -297,13 +298,14 @@ $$
 \boldsymbol {\hat{y}} = \boldsymbol{\hat{y}(x)}, \boldsymbol{\hat{y}}: \mathbb{R}^n \rightarrow \mathbb{R}^K, \boldsymbol{x} \mapsto \boldsymbol{\hat{y}}
 $$
 
-Cependant, il est utile de visualiser le fait qu'il y a une couche cachée, et que la cartographie peut être étendue en conséquence :
+Cependant, il est utile de visualiser le fait qu'il y a une couche cachée, et que l'espace où vivent les entités peut être étendu en conséquence :
 
 $$
 \boldsymbol{\hat{y}}: \mathbb{R}^{n} \rightarrow \mathbb{R}^d \rightarrow \mathbb{R}^K, d \gg n, K
 $$
 
-À quoi pourrait ressembler un exemple de configuration pour le cas ci-dessus ? Dans ce cas, on a une entrée de dimension deux ($n=2$), la couche cachée unique pourrait avoir une dimension de 1000 ($d = 1000$), et nous avons 3 classes ($C=3$). Il y a de bonnes raisons pratiques de ne pas avoir autant de neurones dans une couche cachée, il pourrait donc être logique de diviser cette couche cachée unique en 3 avec 10 neurones chacun ($1000 \rightarrow 10 \times 10 \times 10$).
+À quoi pourrait ressembler un exemple de configuration pour le cas ci-dessus ?  
+Dans ce cas, on a une entrée de dimension deux ($n=2$), la couche cachée unique pourrait avoir une dimension de 1000 ($d = 1000$), et nous avons 3 classes ($C=3$). Il y a de bonnes raisons pratiques de ne pas avoir autant de neurones dans une couche cachée, il pourrait donc être logique de diviser cette couche cachée unique en 3 avec 10 neurones chacun ($1000 \rightarrow 10 \times 10 \times 10$).
 
 <!--
 ## [Neural network (training I)](https://www.youtube.com/watch?v=WAn6lip5oWk&t=822s)
@@ -371,7 +373,7 @@ Note in the above examples, $\sim 0 \rightarrow 0^{+}$ and $\sim 1 \rightarrow 1
 
 À quoi ressemble un entraînement typique ? Il est utile de formuler cela dans la terminologie standard des pertes.
 
-Tout d'abord, réintroduisons le soft(arg)max et précisons explicitement qu'il s'agit d'une fonction d'activation commune pour la dernière couche, lorsque l'on utilise la perte de log-vraisemblance négative, dans les cas de prédiction multi-classes. Comme l'a déclaré Yann lors de la conférence, c'est parce que vous obtenez de plus beaux gradients que si vous utilisiez les sigmoïdes et la perte au carré. En outre, votre dernière couche sera déjà normalisée (la somme de tous les neurones de la dernière couche est égale à 1), ce qui est plus intéressant pour les méthodes de gradient que la normalisation explicite (division par la norme).
+Tout d'abord, réintroduisons le soft(arg)max et précisons explicitement qu'il s'agit d'une fonction d'activation commune pour la dernière couche, lorsque l'on utilise la perte de log-vraisemblance négative, dans les cas de prédiction multi-classes. Comme l'a indiqué Yann lors du cours magistral, c'est parce que vous obtenez de plus beaux gradients que si vous utilisiez les sigmoïdes et la perte quadratique. En outre, votre dernière couche sera déjà normalisée (la somme de tous les neurones de la dernière couche est égale à 1), ce qui est plus intéressant pour les méthodes de gradient que la normalisation explicite (division par la norme).
 
 Le soft (arg)max vous donnera des logits dans la dernière couche qui ressemblent à ceci :
 
@@ -395,7 +397,7 @@ Faisons donc deux exemples, un où un exemple est correctement classé, et un au
 Supposons que
 
 $$
-\boldsymbol{x}, c = 1 \Rightarrow \boldsymbol{y} =
+\boldsymbol{x},  c = 1 \Rightarrow \boldsymbol{y} =
 {\footnotesize\begin{pmatrix}
 1 \\
 0 \\
@@ -403,8 +405,7 @@ $$
 \end{pmatrix}}
 $$
 
-Qu'est-ce que la perte d'instance ?
-
+Qu'est-ce que la perte d'instance ?  
 Dans le cas d'une *prévision presque parfaite* ($\sim$ signifie *circa*) :
 
 $$
@@ -423,9 +424,9 @@ $$ \hat{\boldsymbol{y}}(\boldsymbol{x}) =
 {\footnotesize\begin{pmatrix} \sim 0 \\\ \sim 1 \\\ \sim 0 \end{pmatrix}}
 1\right) \rightarrow +\infty $$
 
-Notez dans les exemples ci-dessus, $\sim 0 \rightarrow 0^{+}$ et $\sim 1 \rightarrow 1^{-}$. Pourquoi en est-il ainsi ? Prenez une minute pour réfléchir.
+Notez dans les exemples ci-dessus, $\sim 0 \rightarrow 0^{+}$ et $\sim 1 \rightarrow 1^{-}$.
 
-**Note** : Il est important de savoir que si vous utilisez "CrossEntropyLoss", vous obtiendrez "LogSoftMax" et "NLLLLoss", alors ne le faites pas deux fois !
+**Note** : il est important de savoir que si vous utilisez la "CrossEntropyLoss" en PyTorch, vous obtiendrez "LogSoftMax" et "NLLLLoss" (voir la semaine 11 pour plus de détails sur ces fonctions), alors ne le faites pas deux fois !
 
 
 <!--
@@ -457,19 +458,19 @@ $$ \frac{\partial \, J(\mathbf{\Theta})}{\partial \, \boldsymbol{W_y}} = \frac{\
 
 ## [Réseau de neurones (entraînement II)](https://www.youtube.com/watch?v=WAn6lip5oWk&t=2188s)
 
-Pour l'entraînement, nous agrégeons tous les paramètres pouvant être entraînés (matrices de poids et biais) dans une collection que nous appelons $\mathbf{\Theta} = \lbrace\boldsymbol{W_h, b_h, W_y, b_y} \\N-rbrace$. Cela nous permet d'écrire la fonction objectif ou la perte comme :
+Pour l'entraînement, nous agrégeons tous les paramètres pouvant être entraînés (matrices de poids et biais) dans une collection que nous appelons $\mathbf{\Theta} = \lbrace\boldsymbol{W_h, b_h, W_y, b_y} \rbrace$. Cela nous permet d'écrire la fonction objectif ou la perte comme :
 
 $$
 J \left( \mathbf{\Theta} \right) = \mathcal{L} \left( \boldsymbol{\hat{Y}}) \left( \mathbf{\Theta} \right), \boldsymbol c \right) \in \mathbb{R}^{+}
 $$
 
-Cela fait dépendre la perte de la sortie du réseau $\boldsymbol {\hat{Y}}}. \left( \mathbf{\Theta} \right)$, donc nous pouvons transformer cela en un problème d'optimisation.
+Cela fait dépendre la perte de la sortie du réseau $\boldsymbol {\hat{Y}} \left( \mathbf{\Theta} \right)$, donc nous pouvons transformer cela en un problème d'optimisation.
 
 Une illustration simple de la façon dont cela fonctionne peut être vue dans **Fig. 7**, où $J(\vartheta)$, la fonction que nous devons minimiser, n'a qu'un paramètre scalaire $\vartheta$.
 
 <center>
 <img src="{{site.baseurl}}/images/week02/02-3/1-GD.png" style="zoom : 60% ; couleur de fond:#DCDCDC ;" /><br>
-<b>Fig. 7</b> Optimisation d'une fonction de perte par descente de gradient.
+<b>Figure 7 :</b> Optimisation d'une fonction de perte par descente de gradient
 </center>
 
 Nous choisissons un point d'initialisation aléatoire $\vartheta_0$  avec une perte associée $J(\vartheta_0)$. Nous pouvons calculer la dérivée évaluée à ce point $J'(\vartheta_0) = \frac{\text{d} J(\vartheta)}{\text{d} \vartheta} (\vartheta_0)$. Dans ce cas, la pente de la dérivée est positive. Nous devons donc faire un pas dans la direction de la descente la plus raide. Dans ce cas, c'est $-\frac{\text{d} J(\vartheta)}{\text{d} \vartheta}(\vartheta_0)$.
@@ -540,38 +541,47 @@ To train any Neural Network using PyTorch, you need 5 fundamental steps in the t
 When training a NN, it is very likely that you need these 5 steps in the order they were presented.
 -->
 ## Notebook Jupyter 
-Le notebook Jupyter se trouve [ici](https://github.com/Atcold/pytorch-Deep-Learning-Minicourse/blob/master/04-spiral_classification.ipynb). Pour le faire fonctionner, assurez-vous que vous avez installé l'environnement "dl-minicourse" comme indiqué dans [README.md](https://github.com/Atcold/pytorch-Deep-Learning-Minicourse/blob/master/README.md).
-Une explication sur l'utilisation de `torch.device()` se trouve dans [les notes de la semaine dernière](https://atcold.github.io/pytorch-Deep-Learning-Minicourse/fr/week01/01-3/).
-Comme auparavant, nous allons travailler avec des points dans $\mathbb{R}^2$ avec trois labels catégoriels différents (en rouge, jaune et bleu ) comme on peut le voir dans **Fig. 8**.
+La version anglaise du *notebook* Jupyter se trouve [ici](https://github.com/Atcold/pytorch-Deep-Learning-Minicourse/blob/master/04-spiral_classification.ipynb). La version française se trouve pour sa part [ici](https://github.com/lbourdois/pytorch-Deep-Learning-Notebooks-in-French/blob/master/04-spiral_classification.ipynb). Pour le faire fonctionner, assurez-vous que vous avez installé l'environnement "dl-minicourse" comme indiqué dans le fichier [README.md](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/docs/fr/README-FR.md).
+Une explication sur l'utilisation de `torch.device()` se trouve dans [les notes de la semaine 1](https://atcold.github.io/pytorch-Deep-Learning/fr/week01/01-3/).
+Comme auparavant, nous allons travailler avec des points dans $\mathbb{R}^2$ avec trois labels catégoriels différents (en rouge, jaune et bleu ) comme on peut le voir dans figure 8.
 <center>
-<img src="{{site.baseurl}}/images/week02/02-3/2-data.png" style="zoom: 50%; background-color:#DCDCDC;" /><br> <b>Fig. 8</b> Données de classification en spirale.
+<img src="{{site.baseurl}}/images/week02/02-3/2-data.png" style="zoom: 50%; background-color:#DCDCDC;" /><br> <b>Figure 8 : </b> Données de classification en spirale
 </center>
-`nn.Sequential()` est un conteneur, qui passe les modules au constructeur dans l'ordre où ils sont ajoutés ; `nn.linear()` est mal nommé car il applique une transformation **affine** aux données entrantes : $\boldsymbol y = \boldsymbol W \boldsymbol x + \boldsymbol b$. Pour plus d'informations, consultez la [documentation PyTorch](https://pytorch.org/docs/stable/nn.html).
-N'oubliez pas qu'une transformation affine est composée de cinq choses : rotation, réflexion, translation, mise à l'échelle et cisaillement.
-Comme on peut le voir sur la **Figure 9**, en essayant de séparer les données en spirale avec des limites de décision linéaires - en utilisant uniquement des modules `nn.linear()`, sans non-linéarité entre eux - le mieux que nous puissions obtenir est une précision de $50\%$.
+
+`nn.Sequential()` est un conteneur, qui passe les modules au constructeur dans l'ordre où ils sont ajoutés.  
+`nn.linear()` est mal nommé car il applique une transformation **affine** aux données entrantes : $\boldsymbol y = \boldsymbol W \boldsymbol x + \boldsymbol b$. Pour plus d'informations, consultez la [documentation PyTorch](https://pytorch.org/docs/stable/nn.html).
+N'oubliez pas qu'une transformation affine est composée de cinq choses : rotation, réflexion, translation, mise à l'échelle (la scalabilité) et le *shearing*.  
+Comme on peut le voir sur la figure 9, en essayant de séparer les données en spirale avec des limites de décision linéaires (en utilisant uniquement des modules `nn.linear()`, sans non-linéarité entre eux) le mieux que nous puissions obtenir est une précision de $50\%$.
+
 <center>
-<img src="{{site.baseurl}}/images/week02/02-3/3-linear.png" style="zoom: 60%; background-color:#DCDCDC;" /><br> <b>Fig. 9</b> Limites de décision linéaires.
+<img src="{{site.baseurl}}/images/week02/02-3/3-linear.png" style="zoom: 60%; background-color:#DCDCDC;" /><br> <b>Figure 9 :</b> Limites de décision linéaires
 </center>
-Lorsque nous passons d'un modèle linéaire à un modèle comportant deux modules `nn.linear()` et un module `nn.ReLU()` entre eux, la précision passe à 95 %. C'est parce que les limites deviennent non linéaires et s'adaptent beaucoup mieux à la forme en spirale des données, comme on peut le voir sur la **Fig. 10**.
+Lorsque nous passons d'un modèle linéaire à un modèle comportant deux modules `nn.linear()` et un module `nn.ReLU()` entre eux, la précision passe à 95 %. C'est parce que les limites deviennent non linéaires et s'adaptent beaucoup mieux à la forme en spirale des données, comme on peut le voir sur la figure 10.
+
 <center>
-<img src="{{site.baseurl}}/images/week02/02-3/4-non-linear.png" style="zoom: 64%; background-color:#DCDCDC;" /><br>    <b>Fig. 10</b> Limites de décision non linéaires.
+<img src="{{site.baseurl}}/images/week02/02-3/4-non-linear.png" style="zoom: 64%; background-color:#DCDCDC;" /><br>    
+<b>Figure 10 :</b> Limites de décision non linéaires
 </center>
 
-Un exemple de problème de régression qui ne peut pas être résolu correctement par une régression linéaire, mais qui est facilement résolu avec la même structure de réseau neuronal peut être vu dans [ce notebook](https://github.com/Atcold/pytorch-Deep-Learning-Minicourse/blob/master/05-regression.ipynb) et dans la **Fig. 11**, qui montre 10 réseaux différents, où 5 ont une fonction de lien `nn.ReLU()` et 5 ont une fonction de lien `nn.Tanh()`. La première est une fonction linéaire par morceaux, tandis que la seconde est une régression continue et régulière.
+Un exemple de problème de régression qui ne peut pas être résolu correctement par une régression linéaire, mais qui est facilement résolu avec la même structure de réseau neuronal peut être vu dans [ce notebook](https://github.com/lbourdois/pytorch-Deep-Learning-Notebooks-in-French/blob/master/05-regression.ipynb) et dans la figure 11 qui montre 10 réseaux différents, où 5 ont une fonction `nn.ReLU()` et 5 ont une fonction `nn.Tanh()`. La première est une fonction linéaire par morceaux, tandis que la seconde est une régression continue et régulière.
+
 <center>
-<img src="{{site.baseurl}}/images/week02/02-3/5-nn-reg.png" style="zoom: 64%; background-color:#DCDCDC;" /><br> <b>Fig. 11</b> : 10 réseaux de neurones, avec leur variance et leur écart-type.<br>
-A gauche : cinq <code>ReLU</code> réseaux.  A droite : Cinq <code>tanh</code> réseaux.
+<img src="{{site.baseurl}}/images/week02/02-3/5-nn-reg.png" style="zoom: 64%; background-color:#DCDCDC;" /><br> <b>Figure 11 :</b> 10 réseaux de neurones, avec leur variance et leur écart-type.<br>
+A gauche : cinq réseaux avec une <code>ReLU</code>.  A droite : Cinq réseaux avec une <code>tanh</code>.
 </center>
-Les lignes jaune et verte indiquent l'écart type et la variance des réseaux. Leur utilisation est utile pour quelque chose de similaire à un "intervalle de confiance", puisque les fonctions donnent une seule prédiction par sortie. L'utilisation de la prédiction de la variance d'ensemble nous permet d'estimer l'incertitude avec laquelle la prédiction est faite. L'importance de cette fonction est illustrée par la **Figure 12**, où nous étendons les fonctions de décision en dehors de l'intervalle d'entraînement et où celles-ci tendent vers $+\infty, -\infty$.
+
+Les lignes jaune et verte indiquent l'écart-type et la variance des réseaux. Leur utilisation est utile pour quelque chose de similaire à un "intervalle de confiance", puisque les fonctions donnent une seule prédiction par sortie. L'utilisation de la prédiction de la variance d'ensemble nous permet d'estimer l'incertitude avec laquelle la prédiction est faite. L'importance de cette fonction est illustrée par la figure 12 où nous étendons les fonctions de décision en dehors de l'intervalle d'entraînement et où celles-ci tendent vers $+\infty, -\infty$.
+
 <center>
-<img src="{{site.baseurl}}/images/week02/02-3/6-nn-confidence.png" style="zoom: 64%; background-color:#DCDCDC;" /><br> <b>Fig. 12</b> Réseaux de neurones, avec moyenne et écart-type, en dehors de l'intervalle d'entraînement.<br>
-A gauche : cinq <code>ReLU</code> réseaux.  A droite : Cinq <code>tanh</code> réseaux.
+<img src="{{site.baseurl}}/images/week02/02-3/6-nn-confidence.png" style="zoom: 64%; background-color:#DCDCDC;" /><br> <b>Figure 12 :</b> Réseaux de neurones, avec moyenne et écart-type, en dehors de l'intervalle d'entraînement.<br>
+A gauche : cinq réseaux avec une <code>ReLU</code>.  A droite : Cinq réseaux avec une <code>tanh</code>.
 </center>
+
 Pour entraîner un réseau de neurones à l'aide de PyTorch, il faut suivre 5 étapes fondamentales dans la boucle d'entraînement :
 1. `output = model(input)` est la passe en avant du modèle, qui prend l'entrée et génère la sortie.
 2. `J = loss(output, target <or> label)` prend la sortie du modèle et calcule la perte d'entraînement par rapport à la véritable cible.
-3. `model.zero_grad()` nettoie les calculs de gradient, afin qu'ils ne soient pas accumulés pour la prochaine passe.
-4. `J.backward()` fait la rétropropagation et l'accumulation : Il calcule $\nabla_\texttt{x} J$ pour chaque variable $\texttt{x}$ pour laquelle nous avons spécifié `requires_grad=True`. Elles sont cumulées dans le gradient de chaque variable : $\texttt{x.grad} \gets \texttt{x.grad} + \nabla_\texttt{x} J$.
+3. `model.zero_grad()` nettoie les calculs du gradient afin qu'ils ne soient pas accumulés pour la prochaine passe.
+4. `J.backward()` fait la rétropropagation et l'accumulation. Il calcule $\nabla_\texttt{x} J$ pour chaque variable $\texttt{x}$ pour laquelle nous avons spécifié `requires_grad=True`. Elles sont cumulées dans le gradient de chaque variable : $\texttt{x.grad} \gets \texttt{x.grad} + \nabla_\texttt{x} J$.
 5. `optimiser.step()` fait un pas dans la descente de la pente : $\vartheta \gets \vartheta - \eta\, \nabla_\vartheta J$.
 
 Lors de l'entraînement d'un réseau, il est très probable que vous ayez besoin de ces 5 étapes dans l'ordre où elles ont été présentées.
diff --git a/docs/fr/week02/02.md b/docs/fr/week02/02.md
index 8b8a4669b..a4e8278fb 100644
--- a/docs/fr/week02/02.md
+++ b/docs/fr/week02/02.md
@@ -13,7 +13,7 @@ We start by understanding what parametrised models are and then discuss what a l
 -->
 
 
-## Conférence partie A
+## Cours magistral partie A
 
 Nous commençons par comprendre ce que sont les modèles paramétrés, puis nous discutons de ce qu'est une fonction de perte. Nous examinons ensuite les méthodes basées sur les gradients et leur utilisation dans l'algorithme de rétropropagation d'un réseau neuronal traditionnel. Nous concluons cette section en apprenant comment mettre en œuvre un réseau de neurones dans PyTorch, puis nous discutons d'une forme plus généralisée de rétropropagation.
 
@@ -23,7 +23,7 @@ Nous commençons par comprendre ce que sont les modèles paramétrés, puis nous
 We begin with a concrete example of backpropagation and discuss the dimensions of Jacobian matrices. We then look at various basic neural net modules and compute their gradients, followed by a brief discussion on softmax and logsoftmax. The other topic of discussion in this part is Practical Tricks for backpropagation.
 -->
 
-## Conférence partie B
+## Cours magistral partie B
 
 Nous commençons par un exemple concret de rétropropagation et discutons des dimensions des matrices jacobiennes. Nous examinons ensuite divers modules de base des réseaux de neurones et calculons leurs gradients, puis nous discutons brièvement de softmax et de logsoftmax. L'autre sujet de discussion dans cette partie est celui des astuces pratiques pour la rétropropagation.
 
@@ -33,7 +33,6 @@ Nous commençons par un exemple concret de rétropropagation et discutons des di
 We give a brief introduction to supervised learning using artificial neural networks. We expound on the problem formulation and conventions of data used to train these networks. We also discuss how to train a neural network for multi class classification, and how to perform inference once the network is trained.
 -->
 
-## Pratique
+## Travaux dirigés
 
 Nous présentons brièvement l'apprentissage supervisé à l'aide de réseaux neuronaux artificiels. Nous exposons la formulation du problème et les conventions des données utilisées pour entraîner ces réseaux. Nous discutons également de la manière d’entraîner un réseau neuronal pour la classification multi-classes, et de la manière d'effectuer l'inférence une fois le réseau entraîné.
-
diff --git a/docs/fr/week03/03-1.md b/docs/fr/week03/03-1.md
index 7aca079a1..0782f6678 100644
--- a/docs/fr/week03/03-1.md
+++ b/docs/fr/week03/03-1.md
@@ -42,26 +42,26 @@ This provides us with some insight into why the 2-neuron hidden layers are harde
 Dans cette section, nous allons visualiser le fonctionnement interne d'un réseau de neurones.
 
 <center><img src="{{site.baseurl}}/images/week03/03-1/Network.png" alt="Network" style="zoom:35% ;" /><br>
-Fig. 1 Structure du réseau</center>
+Figure 1 : Structure du réseau</center>
 
-La figure 1 illustre la structure du réseau de neurones que nous souhaitons visualiser. En général, lorsque nous dessinons la structure d'un réseau de neurones, l'entrée apparaît en bas ou à gauche, et la sortie apparaît en haut ou à droite. Dans la figure 1, les neurones roses représentent les entrées, et les neurones bleus les sorties. Dans ce réseau, nous avons 4 couches cachées (en vert), ce qui signifie que nous avons 6 couches au total (4 couches cachées + 1 couche d'entrée + 1 couche de sortie). Dans ce cas, nous avons 2 neurones par couche cachée, et donc la dimension de la matrice de poids ($W$) pour chaque couche est de 2 par 2. Cela s'explique par le fait que nous voulons transformer notre plan d'entrée en un autre plan que nous pouvons visualiser.
+La figure 1 illustre la structure du réseau de neurones que nous souhaitons visualiser. En général, lorsque nous dessinons la structure d'un réseau de neurones, l'entrée apparaît en bas ou à gauche et la sortie apparaît en haut ou à droite. Dans la figure 1, les neurones roses représentent les entrées et les neurones bleus les sorties. Dans ce réseau, nous avons 4 couches cachées (en vert), ce qui signifie que nous avons 6 couches au total (4 couches cachées + 1 couche d'entrée + 1 couche de sortie). Dans ce cas, nous avons 2 neurones par couche cachée et donc la dimension de la matrice de poids ($W$) pour chaque couche est de 2 par 2. Cela s'explique par le fait que nous voulons transformer notre plan d'entrée en un autre plan que nous pouvons visualiser.
 
 <center><img src="{{site.baseurl}}/images/week03/03-1/Visual1.png" alt="Network" style="zoom:35% ;" /><br>
-Fig. 2 Visualisation de l'espace de pliage</center>
+Figure 2 : Visualisation de l'espace de pliage</center>
 
-La transformation de chaque couche est comme le pliage de notre avion dans certaines régions spécifiques, comme le montre la figure 2. Ce pliage est très abrupt, car toutes les transformations sont effectuées dans la couche 2D. Dans l'expérience, nous constatons que si nous n'avons que 2 neurones dans chaque couche cachée, l'optimisation prendra plus de temps ; l'optimisation est plus facile si nous avons plus de neurones dans les couches cachées. Cela nous laisse avec une question importante à considérer : pourquoi est-il plus difficile d’entraîner le réseau avec moins de neurones dans les couches cachées ? Vous devriez réfléchir vous-même à cette question et nous y reviendrons après la visualisation de la fonction $\texttt{ReLU}$.
+La transformation de chaque couche est comme le pliage de notre paln dans certaines régions spécifiques, comme le montre la figure 2. Ce pliage est très abrupt, car toutes les transformations sont effectuées dans la couche 2D. Dans l'expérience, nous constatons que si nous n'avons que 2 neurones dans chaque couche cachée, l'optimisation prendra plus de temps. L'optimisation est plus facile si nous avons plus de neurones dans les couches cachées. Cela nous laisse avec une question importante à considérer : pourquoi est-il plus difficile d’entraîner le réseau avec moins de neurones dans les couches cachées ?
 
 | <img src="{{site.baseurl}}/images/week03/03-1/Visual2a.png" alt= "Réseau" style= "zoom:45% ;" /> | <img src="{{site.baseurl}}/images/week03/03-1/Visual2b.png" alt= "Réseau" style= "zoom:45% ;" /> |
 |(a)|(b)|
 
-<center>Fig. 3 Visualisation de l'opérateur ReLU</center>
+<center>Figure 3 : Visualisation de l'opérateur ReLU</center>
 
-Lorsque nous parcourons le réseau une couche cachée à la fois, nous constatons qu'avec chaque couche, nous effectuons une certaine transformation affine suivie de l'application de l'opération ReLU non linéaire, qui élimine toute valeur négative. Dans les figures 3(a) et (b), nous pouvons voir la visualisation de l'opérateur ReLU. L'opérateur ReLU nous aide à effectuer des transformations non linéaires. Après avoir effectué plusieurs étapes de transformation affine suivies par l'opérateur ReLU, nous sommes finalement en mesure de séparer les données de manière linéaire, comme le montre la figure 4.
+Lorsque nous parcourons le réseau une couche cachée à la fois, nous constatons qu'avec chaque couche, nous effectuons une certaine transformation affine suivie de l'application de l'opération *ReLU* non linéaire, qui élimine toute valeur négative. Dans les figures 3(a) et (b), nous pouvons voir la visualisation de l'opérateur *ReLU*. L'opérateur *ReLU* nous aide à effectuer des transformations non linéaires. Après avoir effectué plusieurs étapes de transformation affine suivies par l'opérateur *ReLU*, nous sommes finalement en mesure de séparer les données de manière linéaire, comme le montre la figure 4.
 
 <center><img src="{{site.baseurl}}/images/week03/03-1/Visual3.png" alt="Network" style="zoom:30% ;" /><br>
-Fig. 4 Visualisation des résultats</center>
+Figure 4 : Visualisation des résultats</center>
 
-Cela nous permet de comprendre pourquoi les couches cachées des deux neurones sont plus difficiles à entraîner. Notre réseau à 6 couches a un biais dans chaque couche cachée. Par conséquent, si l'un de ces biais déplace des points hors du quadrant supérieur droit, l'application de l'opérateur ReLU éliminera ces points. Ensuite, quelle que soit la façon dont les couches ultérieures transforment les données, les valeurs resteront nulles. Nous pouvons rendre un réseau de neurones plus facile à entraîner en rendant le réseau plus "gros" (c'est-à-dire en ajoutant plus de neurones dans les couches cachées) ou nous pouvons ajouter d'autres couches cachées, ou une combinaison des deux méthodes. Tout au long de ce cours, nous explorerons comment déterminer la meilleure architecture de réseau pour un problème donné, restez à l'écoute.
+Cela nous permet de comprendre pourquoi les couches cachées des deux neurones sont plus difficiles à entraîner. Notre réseau à 6 couches a un biais dans chaque couche cachée. Par conséquent, si l'un de ces biais déplace des points hors du quadrant supérieur droit, l'application de l'opérateur *ReLU* éliminera ces points. Ensuite, quelle que soit la façon dont les couches ultérieures transforment les données, les valeurs resteront nulles. Nous pouvons rendre un réseau de neurones plus facile à entraîner en rendant le réseau plus "gros" (c'est-à-dire en ajoutant plus de neurones dans les couches cachées) ou nous pouvons ajouter d'autres couches cachées, ou une combinaison des deux méthodes.
 
 
 <!--
@@ -95,10 +95,10 @@ $$
 w \leftarrow w - \eta\frac{\partial H}{\partial u}\frac{\partial H}{\partial u}^\top\frac{\partial C}{\partial w}^\top
 $$
 
-Ces formules sont appliquées sous forme de matrice. Notez que les dimensions des termes doivent être cohérentes. Les dimensions de $u$,$w$,$\frac{\partiel H}{\partiel u}^\top$,$\frac{\partiel C}{\partiel w}^\top$ sont respectivement $[N_u \times 1]$,$[N_w \times 1]$,$[N_u \times N_w]$,$[N_w \times 1]$. Par conséquent, la dimension de notre formule de rétropropagation est cohérente.
+Ces formules sont appliquées sous forme de matrice. Notez que les dimensions des termes doivent être cohérentes. Les dimensions de $u$,$w$,$\frac{\partial H}{\partiel u}^\top$,$\frac{\partial C}{\partial w}^\top$ sont respectivement $[N_u \times 1]$,$[N_w \times 1]$,$[N_u \times N_w]$,$[N_w \times 1]$. Par conséquent, la dimension de notre formule de rétropropagation est cohérente.
 
 <center><img src="{{site.baseurl}}/images/week03/03-1/PT.png" alt="Network" style="zoom:35% ;" /><br>
-Fig. 5 Forme générale des transformations de paramètres</center>
+Figure 5 : Forme générale des transformations de paramètres</center>
 
 
 
@@ -137,9 +137,9 @@ Fig. 6 "Hypernetwork"</center>
 
 ### Hyper-réseau
 
-Un hyper-réseau est un réseau où les poids d'un réseau sont la sortie d'un autre réseau. La figure 6 montre le graphique de calcul d'un "hyper-réseau". Ici, la fonction $H$ est un réseau avec le vecteur paramètre $u$ et l'entrée $x$. En conséquence, les poids de $G(x,w)$ sont configurés dynamiquement par le réseau $H(x,u)$. Bien que cette idée soit ancienne, elle reste très puissante.
+Un hyper-réseau est un réseau où les poids d'un réseau sont la sortie d'un autre réseau. La figure 6 montre le graphique de calcul d'un hyper-réseau. Ici, la fonction $H$ est un réseau avec le vecteur paramètre $u$ et l'entrée $x$. En conséquence, les poids de $G(x,w)$ sont configurés dynamiquement par le réseau $H(x,u)$. Bien que cette idée soit ancienne, elle reste très puissante.
 <center><img src="{{site.baseurl}}/images/week03/03-1/HyperNetwork.png" alt="Network" style="zoom:35% ;" /><br>
-Fig. 6 "Hyper-réseau"</center>
+Figure 6 : Hyper-réseau</center>
 
 
 <!--
@@ -154,12 +154,12 @@ In this example we have 5 of those functions. As a result of this solution, we s
 -->
 ### Détection de motifs dans les données séquentielles
 
-La transformation de partage de poids peut être appliquée à la détection de motifs. La détection de motifs consiste à trouver certains motifs dans des données séquentielles comme des mots-clés dans la parole ou le texte. Une façon d'y parvenir, comme le montre la figure 7, consiste à utiliser une fenêtre coulissante sur les données, qui déplace la fonction de partage de poids pour détecter un motif particulier (c'est-à-dire un son particulier dans le signal vocal), et les sorties (c'est-à-dire une partition) passent dans une fonction maximale.
+La transformation de partage de poids peut être appliquée à la détection de motifs. La détection de motifs consiste à trouver certains motifs dans des données séquentielles comme des mots-clés dans la parole ou le texte. Une façon d'y parvenir, comme le montre la figure 7, consiste à utiliser une fenêtre coulissante sur les données, qui déplace la fonction de partage de poids pour détecter un motif particulier (c'est-à-dire un son particulier dans le signal vocal) et les sorties (c'est-à-dire une partition) passent dans une fonction maximale.
 
 <center><img src="{{site.baseurl}}/images/week03/03-1/Motif.png" alt="Network" style="zoom:30% ;" /><br>
-Fig. 7 Détection des motifs pour les données séquentielles</center>
+Figure 7 : Détection des motifs pour les données séquentielles</center>
 
-Dans cet exemple, nous avons 5 de ces fonctions. Cette solution nous permet d'additionner cinq gradients et de rétropropager l'erreur pour mettre à jour le paramètre $w$. En implémentant cela dans PyTorch, nous voulons empêcher l'accumulation implicite de ces gradients, donc nous devons utiliser `zero_grad()` pour initialiser le gradient.
+Dans cet exemple, nous avons cinq de ces fonctions. Cette solution nous permet d'additionner cinq gradients et de rétropropager l'erreur pour mettre à jour le paramètre $w$. En implémentant cela dans PyTorch, nous voulons empêcher l'accumulation implicite de ces gradients, donc nous devons utiliser `zero_grad()` pour initialiser le gradient.
 
 <!--
 ### Motif detection in images
@@ -179,17 +179,18 @@ This hand-crafted method of using local detectors and summation to for digit-rec
 
 ### Détection de motifs dans les images
 
-L'autre application utile est la détection de motifs dans les images. Nous faisons généralement glisser nos "modèles" sur les images pour détecter les formes indépendamment de leur position et de leur distorsion. Un exemple simple consiste à distinguer entre "C" et "D", comme le montre la figure 8. La différence entre "C" et "D" est que "C" a deux extrémités et "D" a deux coins. Nous pouvons donc concevoir des "modèles d'extrémité" et des "modèles d'angle". Si la forme est similaire aux "gabarits", les sorties seront limitées. Nous pouvons alors distinguer les lettres de ces sorties en les additionnant. Dans la figure 8, le réseau détecte deux points d'extrémité et zéro coin, donc il active "C".
+L'autre application utile est la détection de motifs dans les images. Nous faisons généralement glisser nos patrons (au sens pochoirs) sur les images pour détecter les formes indépendamment de leur position et de leur distorsion. Un exemple simple consiste à distinguer entre « C » et « D », comme le montre la figure 8. La différence entre « C » et « D » est que « C » a deux extrémités et « D » a deux coins. Nous pouvons donc concevoir des prochoirs d'extrémité et des pochoirs d'angle. Si la forme est similaire aux pochoirs, les sorties seront limitées. Nous pouvons alors distinguer les lettres de ces sorties en les additionnant. Dans la figure 8, le réseau détecte deux points d'extrémité et zéro coin, donc il active « C ».
 
 <center><img src="{{site.baseurl}}/images/week03/03-1/MotifImage.png" alt="Network" style="zoom:35% ;" /><br>
-Fig. 8 Détection de motifs pour les images</center>
+Figure 8 : Détection de motifs pour les images</center>
 
-Il est également important que notre "concordance de modèle" soit invariable par décalage - lorsque nous décalons l'entrée, la sortie (c'est-à-dire la lettre détectée) ne doit pas changer. Ce problème peut être résolu par une transformation en partage de poids. Comme le montre la figure 9, lorsque nous changeons l'emplacement de "D", nous pouvons toujours détecter les motifs de coin même s'ils sont décalés. Lorsque nous additionnons les motifs, cela active la détection de "D".
+Il est également important que notre appariement de pochoirs (*template matching* en anglais) soit invariable par décalage : lorsque nous décalons l'entrée, la sortie (c'est-à-dire la lettre détectée) ne doit pas changer. Ce problème peut être résolu par une transformation en partage de poids. Comme le montre la figure 9, lorsque nous changeons l'emplacement de « D », nous pouvons toujours détecter les motifs de coin même s'ils sont décalés. Lorsque nous additionnons les motifs, cela active la détection de « D ».
 
 <center><img src="{{site.baseurl}}/images/week03/03-1/ShiftInvariance.png" alt="Network" style="zoom:35% ;" /><br>
-Fig. 9 Invariance des décalages</center>
+Figure 9 : Invariance aux décalages</center>
 
-Cette méthode artisanale d'utilisation de détecteurs locaux et de sommation pour la reconnaissance des chiffres a été utilisée pendant de nombreuses années. Mais elle nous pose le problème suivant : comment pouvons-nous concevoir ces "modèles" automatiquement ? Pouvons-nous utiliser des réseaux de neurones pour apprendre ces "modèles" ? Ensuite, nous introduirons le concept de **convolutions**, c'est-à-dire l'opération que nous utilisons pour faire correspondre les images avec les "modèles".
+Cette méthode artisanale d'utilisation de détecteurs locaux et de sommation pour la reconnaissance des chiffres a été utilisée pendant de nombreuses années. Mais elle nous pose le problème suivant : comment pouvons-nous concevoir ces pochoirs automatiquement ?  
+Pouvons-nous utiliser des réseaux de neurones pour apprendre ces pochoirs ? Pour cela nous allons introduire le concept de **convolutions**, c'est-à-dire l'opération que nous utilisons pour faire correspondre les images avec les pochoirs.
 
 <!--
 ## Discrete convolution
@@ -213,7 +214,7 @@ La définition mathématique précise d'une convolution dans le cas unidimension
 
 $$y_i = \sum_j w_j x_{i-j}$$
 
-En d'autres termes, la $i$-ème sortie est calculée comme le produit du point entre les $w$ **inversés** et une fenêtre de même taille en $x$. Pour calculer la sortie complète, commencez la fenêtre au début, décalez cette fenêtre d'une entrée à chaque fois et répétez jusqu'à ce que $x$ soit épuisé.
+En d'autres termes, la $i$-ème sortie est calculée comme le produit scalaire entre les $w$ **inversés** et une fenêtre de même taille en $x$. Pour calculer la sortie complète, commencez la fenêtre au début, décalez cette fenêtre d'une entrée à chaque fois et répétez jusqu'à ce que $x$ soit épuisé.
 
 
 
@@ -232,7 +233,7 @@ Being aware of this difference is important, for example, when one want to make
 
 ### Corrélation croisée
 
-En pratique, la convention adoptée dans les frameworks d'apprentissage approfondi comme PyTorch est légèrement différente. La convolution dans PyTorch est mise en œuvre lorsque $w$ est **non inversé** :
+En pratique, la convention adoptée dans les frameworks d'apprentissage profond comme PyTorch est légèrement différente. La convolution dans PyTorch est mise en œuvre lorsque $w$ est **non inversé** :
 
 $$y_i = \sum_j w_j x_{i+j}$$
 
@@ -257,7 +258,7 @@ Pour les entrées bidimensionnelles telles que les images, nous utilisons la ver
 
 $$y_{ij} = \sum_{kl} w_{kl} x_{i+k, j+l}$$
 
-Cette définition peut facilement être étendue au-delà de deux dimensions à trois ou quatre dimensions. Ici, $w$ est appelé le *noyau de convolution*.
+Cette définition peut facilement être étendue au-delà de deux dimensions à trois ou quatre dimensions. Ici, $w$ est appelé le **noyau de convolution**.
 
 <!--
 ### Regular twists that can be made with the convolutional operator in DCNNs
@@ -273,10 +274,10 @@ Example: Suppose the input $x$ is one dimensional and has size of 100 and $w$ ha
 2. **Padding**: Very often in designing Deep Neural Networks architectures, we want the output of convolution to be of the same size as the input. This can be achieved by padding the input ends with a number of (typically) zero entries, usually on both sides. Padding is done mostly for convenience. It can sometimes impact performance and result in strange border effects, that said, when using a ReLU non-linearity, zero padding is not unreasonable.
 -->
 
-### Les torsions régulières qui peuvent être faites avec l'opérateur convolutif dans les ConvNets profonds
+### Les torsions de base qui peuvent être réalisées avec l'opérateur convolutif dans les ConvNets profonds
 
-1. **Décalage** (Striding) : au lieu de décaler la fenêtre en $x$ une entrée à la fois, on peut le faire avec un pas plus grand (par exemple deux ou trois entrées à la fois).
-Exemple : Supposons que l'entrée $x$ soit unidimensionnelle et ait une taille de 100 et que $w$ ait une taille de 5. La taille de la sortie avec un pas de 1 ou 2 est indiquée dans le tableau ci-dessous :
+- **Décalage** (*striding*) : au lieu de décaler la fenêtre en $x$ une entrée à la fois, on peut le faire avec un pas plus grand (par exemple deux ou trois entrées à la fois).
+Exemple : supposons que l'entrée $x$ soit unidimensionnelle et ait une taille de 100 et que $w$ ait une taille de 5. La taille de la sortie avec un pas de 1 ou 2 est indiquée dans le tableau ci-dessous :
 
 | Pas          | 1                          | 2                          |
 | ------------ | -------------------------- | -------------------------- |
@@ -284,7 +285,7 @@ Exemple : Supposons que l'entrée $x$ soit unidimensionnelle et ait une taille d
 
 
 
-2. **Remplissage** (Padding) : Très souvent, dans la conception des architectures de réseaux neuronaux profonds, nous voulons que la sortie de la convolution soit de la même taille que l'entrée. Cela peut être réalisé en ajoutant aux extrémités de l'entrée un certain nombre d'entrées (généralement) nulles, généralement des deux côtés. Le remplissage se fait surtout par commodité. Il peut parfois avoir un impact sur les performances et entraîner d'étranges effets de bord, cela dit, lorsqu'on utilise une non-linéarité ReLU, le remplissage avec des zéros n'est pas déraisonnable.
+- **Remplissage** (*padding*) : très souvent, dans la conception des architectures de réseaux neuronaux profonds, nous voulons que la sortie de la convolution soit de la même taille que l'entrée. Cela peut être réalisé en ajoutant aux extrémités de l'entrée un certain nombre d'entrées (généralement) nulles, généralement des deux côtés. Le remplissage se fait surtout par commodité. Il peut parfois avoir un impact sur les performances et entraîner d'étranges effets de bord, cela dit, lorsqu'on utilise une non-linéarité *ReLU*, le remplissage avec des zéros n'est pas déraisonnable.
 
 <!--
 ## Deep Convolution Neural Networks (DCNNs)
@@ -320,18 +321,14 @@ La raison de l'empilement de plusieurs couches de ce type est que nous voulons c
 Pourquoi voudrions-nous saisir la représentation hiérarchique du monde ? Parce que le monde dans lequel nous vivons est compositionnel. Ce point est évoqué dans les sections précédentes. Cette nature hiérarchique peut être observée à partir du fait que les pixels locaux s'assemblent pour former des motifs simples tels que des bords orientés. Ces bords sont à leur tour assemblés pour former des caractéristiques locales telles que des coins, des jonctions en T, etc. Ces bords sont assemblés pour former des motifs encore plus abstraits. Ces bords sont assemblés pour former des motifs encore plus abstraits. Nous pouvons continuer à nous appuyer sur ces représentations hiérarchiques pour finalement former les objets que nous observons dans le monde réel.
 
 <center><img src="{{site.baseurl}}/images/week03/03-1/cnn_features.png" alt="CNN Features" style="zoom:35% ;" /><br>
-Figure 10. Visualisation des caractéristiques d'un réseau convolutif entraîné sur ImageNet à partir de [Zeiler & Fergus 2013]</center>
+Figure 10 : Visualisation des caractéristiques d'un réseau convolutif entraîné sur ImageNet d'après Zeiler & Fergus (2013)</center>
 
 
-Cette nature compositionnelle et hiérarchique que nous observons dans le monde naturel n'est donc pas seulement le résultat de notre perception visuelle, mais aussi vraie au niveau physique. Au niveau le plus bas de la description, nous avons des particules élémentaires, qui s'assemblent pour former des atomes, les atomes forment ensemble des molécules, nous continuons à nous appuyer sur ce processus pour former des matériaux, des parties d'objets et finalement des objets complets dans le monde physique.
+Cette nature compositionnelle et hiérarchique que nous observons dans le monde naturel n'est donc pas seulement le résultat de notre perception visuelle, mais est aussi vraie au niveau physique. Au niveau le plus bas de la description, nous avons des particules élémentaires, qui s'assemblent pour former des atomes, les atomes forment ensemble des molécules, nous continuons à nous appuyer sur ce processus pour former des matériaux, des parties d'objets et finalement des objets complets dans le monde physique.
 
-La nature compositionnelle du monde pourrait être la réponse à la question rhétorique d'Einstein sur la façon dont les humains comprennent le monde dans lequel ils vivent :
+La nature compositionnelle du monde pourrait être la réponse à la question rhétorique d'Einstein sur la façon dont les humains comprennent le monde dans lequel ils vivent : ***« La chose la plus incompréhensible à propos de l'univers est qu'il est compréhensible »***.
 
-> La chose la plus incompréhensible à propos de l'univers est qu'il est compréhensible.
-
-Le fait que les humains comprennent le monde grâce à cette nature compositionnelle semble encore être une conspiration pour Yann. Il est cependant avancé que sans cette composition, il faudra encore plus de magie pour que les humains comprennent le monde dans lequel ils vivent. Citant le grand mathématicien Stuart Geman :
-
-> Le monde est composé ou Dieu existe.
+Le fait que les humains comprennent le monde grâce à cette nature compositionnelle semble être une conspiration pour Yann. Il avance que sans cette compositiononalité, il faudrait encore plus de magie pour que les humains comprennent le monde dans lequel ils vivent. Il cite le mathématicien Stuart Geman : ***« Le monde est composé ou Dieu existe »***.
 
 
 <!--
@@ -360,26 +357,26 @@ The right side shows the ventral pathway, which tells you what you're looking at
 
 ## [Inspirations de la biologie](https://www.youtube.com/watch?v=FW5gFiJb-ig&t=2254s)
 
-Alors pourquoi l'apprentissage approfondi devrait-il être ancré dans l'idée que notre monde est compréhensible et a une nature compositionnelle ? Les recherches menées par Simon Thorpe ont contribué à motiver davantage cette idée. Il a montré que la façon dont nous reconnaissons les objets quotidiens est extrêmement rapide. Ses expériences ont consisté à faire clignoter un ensemble d'images toutes les 100 ms, puis à demander aux utilisateurs d'identifier ces images, ce qu'ils ont réussi à faire. Cela a montré qu'il faut environ 100 ms aux humains pour détecter des objets. En outre, le diagramme ci-dessous illustre des parties du cerveau annotées du temps que mettent les neurones à se propager d'une zone à l'autre :
+Alors pourquoi l'apprentissage profond devrait-il être ancré dans l'idée que notre monde est compréhensible et a une nature compositionnelle ? Les recherches menées par Simon Thorpe ont contribué à motiver davantage cette idée. Il a montré que la façon dont nous reconnaissons les objets quotidiens est extrêmement rapide. Ses expériences ont consisté à faire clignoter un ensemble d'images toutes les 100 ms, puis à demander aux utilisateurs d'identifier ces images, ce qu'ils ont réussi à faire. Cela a montré qu'il faut environ 100 ms aux humains pour détecter des objets. En outre, le diagramme ci-dessous illustre des parties du cerveau annotées du temps que mettent les neurones à se propager d'une zone à l'autre :
 
 <center><img src="{{site.baseurl}}/images/week03/03-1/Simon_Thorpe.png" alt="Simon_Thorpe" style="zoom:55%;" /></center>
 
-<div align="center">Figure 11. Modèle du flux d'informations visuelles dans le cerveau de Simon Thorpe </div>
+<div align="center">Figure 11 : Modèle du flux d'informations visuelles dans le cerveau de Simon Thorpe </div>
   
 
-Les signaux passent de la rétine au LGN (aide à l'amélioration du contraste, au contrôle des portes, etc.), puis au cortex visuel primaire V1, V2, V4, puis au cortex inferotemporel (PIT), qui est la partie du cerveau où les catégories sont définies. Les observations de la chirurgie à cerveau ouvert ont montré que si vous montrez un film à un humain, les neurones du PIT ne se déclenchent que lorsqu'ils détectent certaines images (comme Jennifer Aniston ou la grand-mère d'une personne) et rien d'autre. La mise à feu des neurones est invariable en fonction de la position, de la taille, de l'éclairage, de l'orientation de votre grand-mère, de ce qu'elle porte, etc.
+Les signaux passent de la rétine au LGN (aide à l'amélioration du contraste, au contrôle des portes, etc.), puis au cortex visuel primaire V1, V2, V4, puis au cortex inferotemporel (PIT), qui est la partie du cerveau où les catégories sont définies. Les observations en chirurgie à cerveau ouvert ont montré que si vous montrez un film à un humain, les neurones du PIT ne se déclenchent que lorsqu'ils détectent certaines images (comme Jennifer Aniston ou la grand-mère d'une personne) et rien d'autre. Les déclenchements neuronaux sont invariables en fonction de la position, de la taille, de l'éclairage, de l'orientation de votre grand-mère, de ce qu'elle porte, etc.
 
-De plus, le temps de réaction rapide avec lequel les humains ont pu classer ces éléments (à peine assez de temps pour que quelques pics passent) démontre qu'il est possible de le faire sans passer de temps supplémentaire sur des calculs complexes et récurrents. Il s'agit plutôt d'un processus d'anticipation unique.
+De plus, le temps de réaction rapide avec lequel les humains ont pu classer ces éléments (à peine assez de temps pour que quelques décharges passent) démontre qu'il est possible de le faire sans passer de temps supplémentaire sur des calculs complexes et récurrents. Il s'agit plutôt d'un processus *feed-forward* unique.
 
-Ces idées ont suggéré que nous pourrions développer une architecture de réseau neuronal qui soit complètement à contre-courant, tout en étant capable de résoudre le problème de la reconnaissance, d'une manière qui soit invariante aux transformations non pertinentes de l'entrée.
+Ces idées ont suggéré que nous pourrions développer une architecture de réseau neuronal qui soit complètement *feed-forward*, tout en étant capable de résoudre le problème de la reconnaissance, d'une manière qui soit invariante aux transformations non pertinentes de l'entrée.
 
-Gallant & Van Essen, dont le modèle du cerveau humain illustre deux voies distinctes, nous donne un autre aperçu du cerveau humain :
+Gallant & Van Essen, dont le modèle du cerveau humain illustre deux voies distinctes, nous donnent un autre aperçu de ce dernier :
 
 <center><img src="{{site.baseurl}}/images/week03/03-1/Gallant_and_Van_Essen.png" alt="Gallant_and_Van_Essen" style="zoom:55% ;" /></center>
 
-<div align="center">Figure 12. Modèle de Gallen & Van Essen des voies dorsales et ventrales dans le cerveau </div>
+<div align="center">Figure 12 : Modèle de Gallen & Van Essen des voies dorsales et ventrales dans le cerveau </div>
 
-Le côté droit montre la voie ventrale, qui vous indique ce que vous regardez, tandis que le côté gauche montre la voie dorsale, qui identifie les emplacements, la géométrie et le mouvement. Ils semblent assez séparés dans le cortex visuel de l'homme (et du primate) (avec quelques interactions entre eux bien sûr).
+Le côté droit montre la voie ventrale, qui vous indique ce que vous regardez, tandis que le côté gauche montre la voie dorsale, qui identifie les emplacements, la géométrie et le mouvement. Ils semblent assez séparés dans le cortex visuel de l'homme et des primates (avec quelques interactions entre eux bien sûr).
 
 
 <!--
@@ -400,13 +397,13 @@ Another type of neuron, which they named "complex cells", aggregate the output o
 
 <center><img src="{{site.baseurl}}/images/week03/03-1/Hubel_and_Weisel.png" alt="Hubel_and_Weisel" style="zoom:55% ;" /></center>
 
-<div align="center">Figure 13. Expériences de Hubel & Weisel sur les stimuli visuels dans le cerveau des chats </div>
+<div align="center">Figure 13 : Expériences de Hubel & Weisel sur les stimuli visuels dans le cerveau des chats </div>
 
-Les expériences de Hubel et Weisel ont utilisé des électrodes pour mesurer les tirs neuronaux dans le cerveau des chats en réponse à des stimuli visuels. Ils ont découvert que les neurones de la région V1 ne sont sensibles qu'à certaines zones d'un champ visuel (appelées "champs réceptifs"), et détectent des bords orientés dans cette zone. Par exemple, ils ont démontré que si vous montrez au chat une barre verticale et que vous commencez à la faire tourner, le neurone se déclenchera à un angle particulier. De même, à mesure que la barre s'éloigne de cet angle, l'activation du neurone diminue. Ces neurones à activation sélective, Hubel & Weisel, ont été nommés "cellules simples", pour leur capacité à détecter des caractéristiques locales.
+Les expériences de Hubel et Weisel ont utilisé des électrodes pour mesurer les tirs neuronaux dans le cerveau des chats en réponse à des stimuli visuels. Ils ont découvert que les excitations neuronales de la région V1 ne sont sensibles qu'à certaines zones d'un champ visuel (appelées *champs réceptifs*), et détectent des bords orientés dans cette zone. Par exemple, ils ont démontré que si vous montrez au chat une barre verticale et que vous commencez à la faire tourner, le neurone se déclenchera à un angle particulier. De même, à mesure que la barre s'éloigne de cet angle, l'activation du neurone diminue. Ces neurones à activation sélective, Hubel & Weisel les ont nommés « cellules simples » pour leur capacité à détecter des caractéristiques locales.
 
-Ils ont également découvert que si vous déplacez la barre hors du champ de réception, ce neurone particulier ne s'active plus, mais un autre neurone le fera. Il existe des détecteurs de caractéristiques locales correspondant à toutes les zones du champ visuel, d'où l'idée que le cerveau humain traite les informations visuelles comme un ensemble de "convolutions".
+Ils ont également découvert que si vous déplacez la barre hors du champ de réception, ce neurone particulier ne s'active plus, mais un autre neurone le fera. Il existe des détecteurs de caractéristiques locales correspondant à toutes les zones du champ visuel, d'où l'idée que le cerveau humain traite les informations visuelles comme un ensemble de convolutions.
 
-Un autre type de neurone, qu'ils ont appelé "cellules complexes", regroupe la sortie de plusieurs cellules simples dans une certaine zone. On peut considérer qu'elles calculent un agrégat des activations en utilisant une fonction telle que maximum, somme, somme des carrés, ou toute autre fonction ne dépendant pas de l'ordre. Ces cellules complexes détectent les bords et les orientations dans une région, indépendamment de l'endroit où ces stimuli se trouvent spécifiquement dans la région. En d'autres termes, elles sont invariantes par rapport aux petites variations de positions de l'entrée.
+Un autre type de neurone, qu'ils ont appelé « cellules complexes », regroupe la sortie de plusieurs cellules simples dans une certaine zone. On peut considérer qu'elles calculent un agrégat des activations en utilisant une fonction telle que maximum, somme, somme des carrés, ou toute autre fonction ne dépendant pas de l'ordre. Ces cellules complexes détectent les bords et les orientations dans une région, indépendamment de l'endroit où ces stimuli se trouvent spécifiquement dans la région. En d'autres termes, elles sont invariantes par rapport aux petites variations de positions de l'entrée.
 
 <!--
 ### Fukushima's contributions (1982)
@@ -422,7 +419,7 @@ Yann Le Cun came in a few years later (1989, 1998) and implemented the same arch
 
 ### Les contributions de Fukushima (1982)
 <center><img src="{{site.baseurl}}/images/week03/03-1/Fukushima.png" alt="Fukushima" style="zoom:55% ;" /></center>
-<div align="center">Figure 14. Le modèle de Fukushima </div>
+<div align="center">Figure 14 : Le modèle de Fukushima </div>
 
 Fukushima a été le premier à mettre en œuvre l'idée de couches multiples de cellules simples et de cellules complexes avec des modèles informatiques, en utilisant un ensemble de données de chiffres manuscrits. Certains de ces détecteurs de caractéristiques ont été fabriqués à la main ou appris, bien que l'apprentissage ait utilisé des algorithmes de clustering non supervisés, entraînés séparément pour chaque couche, car la rétropropagation n'était pas encore utilisée.
-Yann Le Cun est arrivé quelques années plus tard (1989, 1998) et a mis en place la même architecture, mais cette fois-ci, avec un entraînement supervisé utilisant la rétropropagation. Cette méthode est largement considérée comme la genèse des réseaux neuronaux convolutifs modernes. (Note : Riesenhuber au MIT en 1999 a également redécouvert cette architecture, bien qu'il n'ait pas utilisé la rétropropagation).
+Yann Le Cun est arrivé quelques années plus tard (1989 et 1998) et a mis en place la même architecture, mais cette fois-ci, avec un entraînement supervisé utilisant la rétropropagation. Cette méthode est largement considérée comme la genèse des réseaux neuronaux convolutifs modernes. A noter que Riesenhuber du MIT a également redécouvert cette architecture en 1999, bien qu'il n'ait pas utilisé la rétropropagation.
diff --git a/docs/fr/week03/03-2.md b/docs/fr/week03/03-2.md
index 69ee1564f..cf425e4c9 100644
--- a/docs/fr/week03/03-2.md
+++ b/docs/fr/week03/03-2.md
@@ -13,7 +13,7 @@ translator: Loïck Bourdois
 <!--
 ## [Proto-CNNs and evolution to modern CNNs](https://www.youtube.com/watch?v=FW5gFiJb-ig&t=2949s)
 -->
-## [Proto- ConvNets et evolution vers les ConvNets modernes](https://www.youtube.com/watch?v=FW5gFiJb-ig&t=2949s)
+## [Proto-ConvNets et evolution vers les ConvNets modernes](https://www.youtube.com/watch?v=FW5gFiJb-ig&t=2949s)
 
 
 <!--
@@ -32,15 +32,15 @@ The most successful networks (constrained network with shared weights) had the s
 
 ### Proto-ConvNets sur de petits jeux de données
 
-Inspiré par les travaux de Fukushima sur la modélisation du cortex visuel, l'utilisation de la hiérarchie cellulaire simple/complexe combinée à l’entraînement supervisé et à la rétropropagation a conduit à la création du premier ConvNet à l'université de Toronto en 1988-89 par Yann. Les expériences reposaient sur un petit jeux de données de 320 chiffres "écrits à la souris". Les performances des architectures suivantes ont été comparées :
+Inspiré par les travaux de Fukushima sur la modélisation du cortex visuel, l'utilisation de la hiérarchie cellulaire simple/complexe combinée à l’entraînement supervisé et à la rétropropagation a conduit à la création du premier ConvNet à l'université de Toronto en 1988-89 par Yann. Les expériences reposaient sur un petit jeux de données de 320 chiffres écrits à la souris d'ordinateur. Les performances des architectures suivantes ont été comparées :
 
-1. Une seule couche entièrement connectée (FC pour Fully connected en anglais)
+1. Une seule couche entièrement connectée (FC pour *Fully connected* en anglais)
 2. Deux couches FC
 3. Couches connectées localement sans partage de poids
 4. Réseau contraint avec poids partagés et connexions locales
-5. Réseau contraint avec poids partagés et connexions locales 2 (plus de feature maps)
+5. Réseau contraint avec poids partagés et connexions locales 2  : c'est-à-dire davantage de cartes de caractéristiques (*feature maps* en anglais)
 
-Les réseaux les plus performants (réseau contraint avec poids partagés) ont la plus forte généralisabilité et constituent la base des ConvNets modernes. La couche FC unique a quant à elle tendance à faire du surentraînement (overfitting).
+Les réseaux les plus performants (réseau contraint avec poids partagés) ont la plus forte généralisabilité et constituent la base des ConvNets modernes. La couche FC unique a quant à elle tendance à faire du surentraînement (*overfitting*).
 
 
 <!--
@@ -59,7 +59,7 @@ Après avoir déménagé au Bell Labs, les recherches de Yann se sont orientées
 
 * 256 (16$\times$16) couche d'entrée
 * 12 5$\times$5 noyaux avec un pas de 2 (pas de 2 pixels) : la couche suivante a une résolution plus faible
-* **PAS** de pooling séparé
+* **PAS** de *pooling* séparé
 
 
 <!--
@@ -97,38 +97,38 @@ See [this animation](http://cs231n.github.io/convolutional-networks/) on Andrej
 -->
 
 
-### ConvNets avec pooling
+### ConvNets avec *pooling*
 
-L'année suivante, certains changements ont été apportés : un pooling séparé a été introduit. Le pooling séparé est réalisé en faisant la moyenne des valeurs en entrée, en ajoutant un biais et en passant à une fonction non linéaire (fonction tangente hyperbolique). Le pooling de taille 2$\times$2 a été effectuée avec un pas de 2, réduisant ainsi les résolutions de moitié.
+L'année suivante, certains changements ont été apportés : un *pooling* séparé a été introduit. Le *pooling* séparé est réalisé en faisant la moyenne des valeurs en entrée, en ajoutant un biais et en passant à une fonction non linéaire (fonction tangente hyperbolique). Le *pooling* de taille 2$\times$2 a été effectuée avec un pas de 2, réduisant ainsi les résolutions de moitié.
 
 <center>
     <img src="{{site.baseurl}}/images/week03/03-2/detailed_convNet.png" width="600px" /><br>
-    <b>Fig. 1</b> Architecture ConvNet
+    <b>Figure 1 :</b> Architecture ConvNet
 </center>
 
 Voici un exemple de couche convolutionnelle unique :
 1. On prend une entrée de taille *32$\times$32*
 2. La couche de convolution passe un noyau de taille 5$\times$5 avec un pas de 1 sur l'image, ce qui donne une feature map de taille *28$\times$28*.
 3. On passe la feature map à travers une fonction non linéaire : taille *28$\times$28*
-4. On passe à la couche de pooling qui fait une moyenne sur une fenêtre de 2$\times$2 avec un pas de 2 : taille *14$\times$14*
+4. On passe à la couche de *pooling* qui fait une moyenne sur une fenêtre de 2$\times$2 avec un pas de 2 : taille *14$\times$14*
 5. On répéte des étapes 1 à 4 pour 4 noyaux
 
-Les combinaisons simples convolution/pooling de la première couche détectent généralement des caractéristiques simples, telles que des bords orientés. Après la première couche de convolution/pooling, l'objectif est de détecter des combinaisons d'éléments des couches précédentes. Pour ce faire, les étapes 2 à 4 sont répétées avec plusieurs noyaux sur les cartes de caractéristiques des couches précédentes, et sont additionnées dans une nouvelle carte de caractéristiques (feature map en anglais) :
+Les combinaisons simples convolution/*pooling* de la première couche détectent généralement des caractéristiques simples, telles que des bords orientés. Après la première couche de convolution/*pooling*, l'objectif est de détecter des combinaisons d'éléments des couches précédentes. Pour ce faire, les étapes 2 à 4 sont répétées avec plusieurs noyaux sur les cartes de caractéristiques des couches précédentes, et sont additionnées dans une nouvelle carte de caractéristiques :
 
 
-1. Un nouveau noyau de 5$\times$5 est glissé sur toutes les feature map des couches précédentes, et les résultats sont additionnés. (Note : dans l'expérience de Yann en 1989, la connexion n'est pas complète pour les calculs. Les paramètres modernes imposent généralement des connexions complètes) : taille *10$\times$10*
+1. Un nouveau noyau de 5$\times$5 est glissé sur toutes les cartes de caractéristiques des couches précédentes, et les résultats sont additionnés. Note : dans l'expérience de Yann en 1989, la connexion n'est pas complète pour les calculs. Les paramètres modernes imposent généralement des connexions complètes : taille *10$\times$10*
 2. On passe la sortie de la convolution à une fonction non linéaire : taille *10$\times$10*
 3. On répète les étapes 1 et 2 pour 16 noyaux.
-4. On passe le résultat à la couche de pooling qui moyenne sur une fenêtre de taille 2$\times$2 avec un pas de 2 : taille *5$\times$5* de chaque feature map
+4. On passe le résultat à la couche de *pooling* qui moyenne sur une fenêtre de taille 2$\times$2 avec un pas de 2 : taille *5$\times$5* de chaque cartes de caractéristiques
 
 Pour générer une sortie, on effectue la dernière couche de convolution, qui semble être une connexion complète mais qui est en fait convolutive.
 
-1. La dernière couche de convolution fait glisser un noyau de 5$\times$5 sur toutes les feature map, avec des résultats résumés : taille *1$\times$1*
+1. La dernière couche de convolution fait glisser un noyau de 5$\times$5 sur toutes les cartes de caractéristiques, avec des résultats résumés : taille *1$\times$1*
 2. Passage par une fonction non linéaire : taille *1$\times$1*
 3. Générer la sortie unique pour une catégorie.
 4. Répétez toutes les étapes précédentes pour chacune des 10 catégories (en parallèle)
 
-Voir [cette animation](http://cs231n.github.io/convolutional-networks/) sur le site d'Andrej Karpathy sur la façon dont les convolutions modifient la forme des feature map de la couche suivante. L'article complet est disponible [ici](https://papers.nips.cc/paper/293-handwritten-digit-recognition-with-a-back-propagation-network.pdf).
+Voir [cette animation](http://cs231n.github.io/convolutional-networks/) sur le site d'Andrej Karpathy sur la façon dont les convolutions modifient la forme des cartes de caractéristiques de la couche suivante. L'article complet est disponible [ici](https://papers.nips.cc/paper/293-handwritten-digit-recognition-with-a-back-propagation-network.pdf).
 
 
 
@@ -147,10 +147,10 @@ As demonstrated by the animation on the slides(here's another example), translat
 
 <center>
     <img src="{{site.baseurl}}/images/week03/03-2/shift_invariance.gif" width="600px" /><br>
-    <b>Fig. 2</b> Équivariance des changements
+    <b>Figure 2 :</b> Équivariance des changements
 </center>
 
-Comme le montre l'animation sur les diapositives (voici un autre exemple), la translation de l'image d'entrée entraîne la même translation des feature map. Cependant, les changements dans les feature maps sont mis à l'échelle par des opérations de convolution/pooling. Par exemple, le pooling 2$\times$2 de pas 2 réduira le décalage de 1 pixel de la couche d'entrée à 0,5 pixel dans les feature map suivantes. La résolution spatiale est alors échangée contre un plus grand nombre de types d'éléments, ce qui rend la représentation plus abstraite et moins sensible aux décalages et aux distorsions.
+Comme le montre l'animation sur les diapositives (voici un autre exemple), la translation de l'image d'entrée entraîne la même translation des cartes de caractéristiques. Cependant, les changements dans les cartes de caractéristiques sont mis à l'échelle par des opérations de convolution/*pooling*. Par exemple, le *pooling* 2$\times$2 de pas 2 réduira le décalage de 1 pixel de la couche d'entrée à 0,5 pixel dans les cartes de caractéristiques suivantes. La résolution spatiale est alors échangée contre un plus grand nombre de types d'éléments, ce qui rend la représentation plus abstraite et moins sensible aux décalages et aux distorsions.
 
 <!--
 ### Overall architecture breakdown
@@ -186,25 +186,25 @@ L'architecture générique des ConvNets peut être décomposée en plusieurs arc
 
 * **Normalisation**
   * Ajustement du blanchiment (facultatif)
-  * Méthodes soustractives, par exemple, average removal, high pass filtering
+  * Méthodes soustractives, par exemple : suppression moyenne, filtre passe-haut
   * Divise : normalisation des contrastes locaux, normalisation de la variance
 
-* **Filter Banks**
+* **Banques de filtres**
   * Augmenter la dimensionnalité
   * Projection sur une base surcomplète
-  * Détections de pointe
+  * Détections d'arêtes
 
 * **Non-linéarités**
-  * Sparsification
-  * Rectified Linear Unit (ReLU) : $\text{ReLU}(x) = \max(x, 0)$.
+  * éparsification
+  * *Rectified Linear Unit* (ReLU) : $\text{ReLU}(x) = \max(x, 0)$.
 
-* **Pooling**
-  * Agrégation sur une feature map
-  * Max Pooling : $\text{MAX}= \text{Max}_i(X_i)$
+* ***Pooling***
+  * Agrégation sur une carte de caractéristique
+  * Max-*pooling* : $\text{MAX}= \text{Max}_i(X_i)$
 
-  * LP-Norm Pooling:  $$\text{L}p= \left(\sum_{i=1}^n \|X_i\|^p \right)^{\frac{1}{p}}$$
+  * Lp-Norm-*pooling*:  $$\text{L}p= \left(\sum_{i=1}^n \|X_i\|^p \right)^{\frac{1}{p}}$$
 
-  * Log-Prob Pooling:  $\text{Prob}= \frac{1}{b} \left(\sum_{i=1}^n e^{b X_i} \right)$
+  * Log-Prob-*pooling*:  $\text{Prob}= \frac{1}{b} \left(\sum_{i=1}^n e^{b X_i} \right)$
 
 
 <!--
@@ -266,10 +266,10 @@ LeNet5 se compose des couches suivantes (1 étant la couche la plus élevée) :
 2. Couche entièrement connectée de dimensions 500$\times$10
 3. ReLu
 4. Couche entièrement connectée de dimensions ($4$\times$4$\times $50)$\times$500$
-5. Max Pooling de dimensions 2$\times$2, pas de 2.
+5. Max-*pooling* de dimensions 2$\times$2, pas de 2.
 6. ReLu
 7. Convolution avec 20 canaux de sortie, noyau 5$\times$5, pas de 1.
-8. Max Pooling de dimensions 2$\times$2, pas de 2.
+8. Max-*pooling* de dimensions 2$\times$2, pas de 2.
 9. ReLu
 10. Convolution avec 20 canaux de sortie, noyau 5$\times$5, pas de 1.
 
@@ -336,11 +336,11 @@ LeNet5 est entraîné sur les images MNIST de taille 32$\times$32 pour classer l
 
 <center>
     <img src="{{site.baseurl}}/images/week03/03-2/various_input.gif" width="600px" /><br>
-    <b>Fig. 3</b> ConvNet à fenêtre coulissante
+    <b>Figure 3 :</b> ConvNet à fenêtre coulissante
 </center>
 
 
-L'image ci-dessus montre qu'un réseau LeNet5 entraîné sur 32$\times32$ peut être appliqué sur une image d'entrée 32$\times64$ pour reconnaître le chiffre à plusieurs endroits.
+L'image ci-dessus montre qu'un réseau LeNet5 entraîné sur $32\times32$ peut être appliqué sur une image d'entrée $32\times64$ pour reconnaître le chiffre à plusieurs endroits.
 
 
 <!--
@@ -375,11 +375,11 @@ The above animation showcases the ability of CNN to recognize different digits b
 
 ### Comment le résoudre ?
 
-Nous pouvons résoudre ce problème de liaison de caractéristiques en utilisant un ConvNet très simple : seulement deux couches de convolutions avec des poolings plus deux autres couches entièrement connectées sans mécanisme spécifique pour cela, étant donné que nous avons suffisamment de non-linéarités et de données pour entraîner notre ConvNet.
+Nous pouvons résoudre ce problème de liaison de caractéristiques en utilisant un ConvNet très simple : seulement deux couches de convolutions avec des *poolings* plus deux autres couches entièrement connectées sans mécanisme spécifique pour cela, étant donné que nous avons suffisamment de non-linéarités et de données pour entraîner notre ConvNet.
 
 <center>
     <img src="{{site.baseurl}}/images/week03/03-2/feature_binding.gif" width="600px" /><br>
-    <b>Fig. 4</b> Liaison des caractéristiques
+    <b>Figure 4 :</b> Liaison des caractéristiques
 </center>
 
 L'animation ci-dessus montre la capacité du ConvNet à reconnaître différents chiffres en déplaçant un seul trait, ce qui démontre sa capacité à résoudre les problèmes de liaison des caractéristiques, c'est-à-dire à reconnaître les caractéristiques de manière hiérarchique et compositionnelle.
@@ -394,19 +394,19 @@ We can build a CNN with 2 convolution layers with stride 1 and 2 pooling layers
     <b>Fig. 5</b> ConvNet Architecture On Variant Input Size Binding
 </center>
 
-Let’s assume we add 4 units at the input layer (pink units above), so that we can get 4 more units after the first convolution layer, 2 more units after the first pooling layer, 2 more units after the second convolution layer, and 1 more output. Therefore, window size to generate a new output is 4 (2 stride $\times$2) <!--the overall subsampling we have shown from input to output is 4 (2x2) -->. Moreover, this is a demonstration of the fact that if we increase the size of the input, we will increase the size of every layer, proving CNNs' capability in handling dynamic length inputs.
+Let’s assume we add 4 units at the input layer (pink units above), so that we can get 4 more units after the first convolution layer, 2 more units after the first pooling layer, 2 more units after the second convolution layer, and 1 more output. Therefore, window size to generate a new output is 4 (2 stride $\times$2) <!--the overall subsampling we have shown from input to output is 4 (2x2). Moreover, this is a demonstration of the fact that if we increase the size of the input, we will increase the size of every layer, proving CNNs' capability in handling dynamic length inputs.
 -->
 
 ### Exemple : longueur d'entrée dynamique
 
-Nous pouvons construire un ConvNet avec 2 couches de convolution avec un pas de 1 et deux couches de pooling avec un pas de 2 de telle sorte que le pas global soit de 4. Ainsi, si nous voulons obtenir une nouvelle sortie, nous devons décaler notre fenêtre d'entrée de 4. Pour être plus explicite, nous pouvons voir la figure ci-dessous (unités vertes). Tout d'abord, nous avons une entrée de taille 10, et nous effectuons une convolution de taille 3 pour obtenir 8 unités. Ensuite, nous effectuons un pooling de taille 2 pour obtenir 4 unités. De même, nous répétons la convolution et le pooling et nous obtenons finalement une sortie de taille 1.
+Nous pouvons construire un ConvNet avec 2 couches de convolution avec un pas de 1 et deux couches de *pooling* avec un pas de 2 de telle sorte que le pas global soit de 4. Ainsi, si nous voulons obtenir une nouvelle sortie, nous devons décaler notre fenêtre d'entrée de 4. Pour être plus explicite, nous pouvons voir la figure ci-dessous (unités vertes). Tout d'abord, nous avons une entrée de taille 10, et nous effectuons une convolution de taille 3 pour obtenir 8 unités. Ensuite, nous effectuons un *pooling* de taille 2 pour obtenir 4 unités. De même, nous répétons la convolution et le *pooling* et nous obtenons finalement une sortie de taille 1.
 
 <center>
     <img src="{{site.baseurl}}/images/week03/03-2/example.jpg" width="600px" /><br>
-    <b>Fig. 5</b> Architecture ConvNet sur la liaison de la taille d'entrée des variantes
+    <b>Figure 5 :</b> Architecture ConvNet sur la liaison de la taille d'entrée des variantes
 </center>
 
-Supposons que nous ajoutions 4 unités à la couche d'entrée (unités roses au-dessus), de sorte que nous puissions obtenir 4 unités supplémentaires après la première couche de convolution, 2 unités supplémentaires après la première couche de pooling, 2 unités supplémentaires après la deuxième couche de convolution et 1 unité supplémentaire en sortie. Par conséquent, la taille de la fenêtre pour générer une nouvelle sortie est de 4 (2 pas $\times$2) <!-- le sous-échantillonnage global que nous avons montré de l'entrée à la sortie est de 4 (2x2)-->. De plus, cela démontre que si nous augmentons la taille de l'entrée, nous augmenterons la taille de chaque couche, ce qui prouve la capacité des ConvNets à gérer les entrées de longueur dynamique.
+Supposons que nous ajoutions 4 unités à la couche d'entrée (unités roses au-dessus), de sorte que nous puissions obtenir 4 unités supplémentaires après la première couche de convolution, 2 unités supplémentaires après la première couche de *pooling*, 2 unités supplémentaires après la deuxième couche de convolution et 1 unité supplémentaire en sortie. Par conséquent, la taille de la fenêtre pour générer une nouvelle sortie est de 4 (deux fois 2 pas) <!-- le sous-échantillonnage global que nous avons montré de l'entrée à la sortie est de 4 (2x2)-->. De plus, cela démontre que si nous augmentons la taille de l'entrée, nous augmenterons la taille de chaque couche, ce qui prouve la capacité des ConvNets à gérer les entrées de longueur dynamique.
 
 
 <!--
@@ -421,10 +421,10 @@ Furthermore, people make good use of CNNs on videos, images, texts, and speech r
 -->
 
 
-## Pour quoi les ConvNets sont performants ?
-Les ConvNets sont performants  pour les signaux naturels qui se présentent sous la forme de réseaux multidimensionnels et ont trois propriétés principales :
-1. **1. La localisation** : La première est qu'il existe une forte corrélation locale entre les valeurs. Si nous prenons deux pixels proches d'une image naturelle, il est très probable que ces pixels aient la même couleur. Plus deux pixels sont éloignés l'un de l'autre, plus la similitude entre eux diminue. Les corrélations locales peuvent nous aider à détecter des caractéristiques locales, ce que font les ConvNets. Si nous alimentons le ConvNet avec des pixels permutés, il ne sera pas performant dans la reconnaissance des images d'entrée, tandis que le FC ne sera pas affecté. La corrélation locale justifie les connexions locales.
-2. **Stationnarité** : Le deuxième caractère est que les caractéristiques sont essentielles et peuvent apparaître n'importe où sur l'image, justifiant les poids partagés et le pooling. De plus, les signaux statistiques sont uniformément distribués, ce qui signifie que nous devons répéter la détection des caractéristiques pour chaque emplacement sur l'image d'entrée.
-3. **Compostionalité** : Le troisième caractère est que les images naturelles sont compositionnelles, ce qui signifie que les caractéristiques composent une image de manière hiératique. Cela justifie l'utilisation de plusieurs couches de neurones, ce qui correspond aussi étroitement aux recherches de Hubel et Weisel sur les cellules simples et complexes.
+## Pour quelles taches les ConvNets sont performants ?
+Les ConvNets sont performants pour les signaux naturels qui se présentent sous la forme de réseaux multidimensionnels et ont trois propriétés principales :
+1. **La localisation** : la première est qu'il existe une forte corrélation locale entre les valeurs. Si nous prenons deux pixels proches d'une image naturelle, il est très probable que ces pixels aient la même couleur. Plus deux pixels sont éloignés l'un de l'autre, plus la similitude entre eux diminue. Les corrélations locales peuvent nous aider à détecter des caractéristiques locales, ce que font les ConvNets. Si nous alimentons le ConvNet avec des pixels permutés, il ne sera pas performant dans la reconnaissance des images d'entrée, tandis que le FC ne sera pas affecté. La corrélation locale justifie les connexions locales.
+2. **La stationnarité** : le deuxième caractère est que les caractéristiques sont essentielles et peuvent apparaître n'importe où sur l'image, justifiant les poids partagés et le *pooling*. De plus, les signaux statistiques sont uniformément distribués, ce qui signifie que nous devons répéter la détection des caractéristiques pour chaque emplacement sur l'image d'entrée.
+3. **La compostionalité** : le troisième caractère est que les images naturelles sont compositionnelles, ce qui signifie que les caractéristiques composent une image de manière hiératique. Cela justifie l'utilisation de plusieurs couches de neurones, ce qui correspond aussi étroitement aux recherches de Hubel et Weisel sur les cellules simples et complexes.
 
 En outre, les ConvNets sont utilisés sur les vidéos, les images, les textes et la reconnaissance vocale.
diff --git a/docs/fr/week03/03-3.md b/docs/fr/week03/03-3.md
index 9e2f721dc..6ef1e5bd7 100644
--- a/docs/fr/week03/03-3.md
+++ b/docs/fr/week03/03-3.md
@@ -36,9 +36,9 @@ Une image est un signal 2D parce que l'information est représentée dans l'espa
 Nous pouvons même représenter le langage avec la logique ci-dessus. Chaque mot correspond à un vecteur one-hot avec un à la position où il se trouve dans notre vocabulaire et des zéros partout ailleurs. Cela signifie que chaque mot est un vecteur de la taille du vocabulaire.
 
 Les signaux de données naturels suivent ces propriétés :
-1. Stationnarité : Certains motifs se répètent tout au long d'un signal. Dans les signaux audio, nous observons le même type de motifs encore et encore dans le domaine temporel. Dans les images, cela signifie que nous pouvons nous attendre à ce que des motifs visuels similaires se répètent dans toute la dimensionnalité.
-2. Localité : Les points proches sont plus corrélés que les points éloignés. Pour un signal 1D, cela signifie que si nous observons un pic à un certain point $t_i$, nous nous attendons à ce que les points dans une petite fenêtre autour de $t_i$ aient des valeurs similaires à $t_i$ mais pour un point $t_j$ éloigné de $t_i$, $x_{t_i}$ a très peu d'influence sur $x_{t_j}$. Plus formellement, la convolution entre un signal et son homologue inversé a un pic lorsque le signal chevauche parfaitement sa version inversée. Une convolution entre deux signaux 1D (corrélation croisée) n'est rien d'autre que le produit de leur point, qui est une mesure de la similarité ou de la proximité des deux vecteurs. Ainsi, l'information est contenue dans des portions et des parties spécifiques du signal. Pour les images, cela signifie que la corrélation entre deux points dans une image diminue à mesure que l'on s'éloigne des points. Si le pixel $x_{0,0}$ est bleu, la probabilité que le pixel suivant ($x_{1,0},x_{0,1}$) soit également bleu est assez élevée, mais lorsque l'on se déplace vers l'extrémité opposée de l'image ($x_{-1,-1}$), la valeur de ce pixel est indépendante de la valeur du pixel à $x_{0,0}$.
-3. Composition : Tout dans la nature est composé de parties qui sont composées de sous-parties et ainsi de suite. Par exemple, les caractères forment des chaînes de caractères qui forment des mots, qui forment ensuite des phrases. Les phrases peuvent être combinées pour former des documents. La composition permet d'expliquer le monde.
+1. Stationnarité : certains motifs se répètent tout au long d'un signal. Dans les signaux audio, nous observons le même type de motifs encore et encore dans le domaine temporel. Dans les images, cela signifie que nous pouvons nous attendre à ce que des motifs visuels similaires se répètent dans toute la dimensionnalité.
+2. Localité : les points proches sont plus corrélés que les points éloignés. Pour un signal 1D, cela signifie que si nous observons un pic à un certain point $t_i$, nous nous attendons à ce que les points dans une petite fenêtre autour de $t_i$ aient des valeurs similaires à $t_i$ mais pour un point $t_j$ éloigné de $t_i$, $x_{t_i}$ a très peu d'influence sur $x_{t_j}$. Plus formellement, la convolution entre un signal et son homologue inversé a un pic lorsque le signal chevauche parfaitement sa version inversée. Une convolution entre deux signaux 1D (corrélation croisée) n'est rien d'autre que le produit de leur point, qui est une mesure de la similarité ou de la proximité des deux vecteurs. Ainsi, l'information est contenue dans des portions et des parties spécifiques du signal. Pour les images, cela signifie que la corrélation entre deux points dans une image diminue à mesure que l'on s'éloigne des points. Si le pixel $x_{0,0}$ est bleu, la probabilité que le pixel suivant ($x_{1,0},x_{0,1}$) soit également bleu est assez élevée, mais lorsque l'on se déplace vers l'extrémité opposée de l'image ($x_{-1,-1}$), la valeur de ce pixel est indépendante de la valeur du pixel à $x_{0,0}$.
+3. Composition : tout dans la nature est composé de parties qui sont composées de sous-parties et ainsi de suite. Par exemple, les caractères forment des chaînes de caractères qui forment des mots, qui forment ensuite des phrases. Les phrases peuvent être combinées pour former des documents. La composition permet d'expliquer le monde.
 
 Si nos données sont stationnaires, locales et composées, nous pouvons les exploiter grâce à des réseaux qui utilisent l’ éparsité, le partage du poids et l'empilement des couches.
 
@@ -69,12 +69,12 @@ If our data exhibits locality, each neuron needs to be connected to only a few l
 La figure 1 montre un réseau à 5 couches entièrement connecté. Chaque flèche représente un poids à multiplier par les entrées. Comme on peut le voir, ce réseau est très coûteux en termes de calcul.
 
 <center><img src="{{site.baseurl}}/images/week02/02-3/pre-inference4layers.png" width="400px" /><br>
-<b>Figure 1:</b> Réseau entièrement connecté</center>
+<b>Figure 1 :</b> Réseau entièrement connecté</center>
 
-Si nos données montrent une localité, chaque neurone doit être connecté à seulement quelques neurones locaux de la couche précédente. Ainsi, certaines connexions peuvent être supprimées comme le montre la figure 2. La Fig.2(a) représente un réseau FC. En profitant de la propriété de localisation de nos données, nous supprimons les connexions entre les neurones éloignés dans la Fig.2(b). Bien que les neurones de la couche cachée (vert) de la figure 2(b) ne couvrent pas la totalité de l'entrée, l'architecture globale pourra prendre en compte tous les neurones d'entrée. Le champ réceptif (abrégé RF en anglais pour receptive field) est le nombre de neurones des couches précédentes, que chaque neurone d'une couche particulière peut voir ou a pris en compte. Par conséquent, le RF de la couche de sortie est de 3 pour la couche cachée, le RF de la couche cachée est de 3 pour la couche d'entrée, mais le RF de la couche de sortie est de 5 pour la couche d'entrée.
+Si nos données montrent une localité, chaque neurone doit être connecté à seulement quelques neurones locaux de la couche précédente. Ainsi, certaines connexions peuvent être supprimées comme le montre la figure 2. La figure 2(a) représente un réseau FC. En profitant de la propriété de localisation de nos données, nous supprimons les connexions entre les neurones éloignés dans la figure 2(b). Bien que les neurones de la couche cachée (vert) de la figure 2(b) ne couvrent pas la totalité de l'entrée, l'architecture globale pourra prendre en compte tous les neurones d'entrée. Le champ réceptif (abrégé RF pour *receptive field* en anglais) est le nombre de neurones des couches précédentes, que chaque neurone d'une couche particulière peut voir ou a pris en compte. Par conséquent, le RF de la couche de sortie est de 3 pour la couche cachée, le RF de la couche cachée est de 3 pour la couche d'entrée, mais le RF de la couche de sortie est de 5 pour la couche d'entrée.
 
 |<img src="{{site.baseurl}}/images/week03/03-3/Figure 2(a) Before Applying Sparsity.png" width="300"/> | <img src="{{site.baseurl}}/images/week03/03-3/Figure 2(b) After Applying Sparsity.png" width="300"/>|
-|<b>Figure 2(a):</b> Avant l'application de la méthode de réduction de la pauvreté | <b>Figure 2(b):</b> Après l'application de la méthode de réduction de la pauvreté
+|<b>Figure 2(a) :</b> Avant l'application de la méthode de réduction de la pauvreté | <b>Figure 2(b) :</b> Après l'application de la méthode de réduction de la pauvreté
 
 
 <!--
@@ -106,11 +106,11 @@ The choice of kernel size is empirical. 3 * 3 convolution seems to be the minima
 
 ### Stationnarité $\Rightarrow$ partage des paramètres
 
-Si nos données sont stationnaires, nous pourrions utiliser un petit ensemble de paramètres plusieurs fois dans l'architecture du réseau. Par exemple, dans notre réseau épars, Fig.3(a), nous pouvons utiliser un ensemble de 3 paramètres partagés (jaune, orange et rouge). Le nombre de paramètres passera alors de 9 à 3 ! La nouvelle architecture pourrait même fonctionner mieux car nous disposons de plus de données pour l'entraînement de ces poids spécifiques.
+Si nos données sont stationnaires, nous pourrions utiliser un petit ensemble de paramètres plusieurs fois dans l'architecture du réseau. Par exemple, dans notre réseau épars, figure 3(a), nous pouvons utiliser un ensemble de 3 paramètres partagés (jaune, orange et rouge). Le nombre de paramètres passera alors de 9 à 3 ! La nouvelle architecture pourrait même fonctionner mieux car nous disposons de plus de données pour l'entraînement de ces poids spécifiques.
 Les poids après avoir appliqué l’éparsité et le partage des paramètres sont appelés noyau de convolution.
 
 |<img src="{{site.baseurl}}/images/week03/03-3/Figure 3(a) Before Applying Parameter Sharing.png" width="300"/> | <img src="{{site.baseurl}}/images/week03/03-3/Figure 3(b) After Applying Parameter Sharing.png" width="300"/>|
-|<b>Figure 3(a):</b> Avant l'application du partage des paramètres | <b>Figure 3(b):</b> Après l'application du partage des paramètres
+|<b>Figure 3(a ):</b> Avant l'application du partage des paramètres | <b>Figure 3(b) :</b> Après l'application du partage des paramètres
 
 Voici quelques avantages de l'utilisation du partage des paramètres et de l’éparsité
 
@@ -122,9 +122,9 @@ Voici quelques avantages de l'utilisation du partage des paramètres et de l’
 * Manque de connexion
   * montant de calcul réduit
 
-La figure 4 montre un exemple de noyaux sur des données 1D, où la taille du noyau est : 2(nombre de noyaux) * 7(épaisseur de la couche précédente) * 3(nombre de connexions/poids uniques).
+La figure 4 montre un exemple de noyaux sur des données 1D, où la taille du noyau est : 2 (nombre de noyaux) $\times$ 7 (épaisseur de la couche précédente) $\times$ 3 (nombre de connexions/poids uniques).
 
-Le choix de la taille du noyau est empirique. 3 * 3 convolution semble être la taille minimale pour les données spatiales. La convolution de taille 1 peut être utilisée pour obtenir une couche finale qui peut être appliquée à une image d'entrée plus grande. Une taille de noyau de nombre pair peut réduire la qualité des données, c'est pourquoi nous avons toujours une taille de noyau de nombre impair, généralement 3 ou 5.
+Le choix de la taille du noyau est empirique. 3 $\times$ 3 convolution semble être la taille minimale pour les données spatiales. La convolution de taille 1 peut être utilisée pour obtenir une couche finale qui peut être appliquée à une image d'entrée plus grande. Une taille de noyau de nombre pair peut réduire la qualité des données, c'est pourquoi nous avons toujours une taille de noyau de nombre impair, généralement 3 ou 5.
 
 |<img src="{{site.baseurl}}/images/week03/03-3/Figure_4a_kernels_ on_1D_data.png" width="300"/> | <img src="{{site.baseurl}}/images/week03/03-3/Figure_4b_zero_padding.png" width="350"/>|
 |<b>Figure 4(a):</b> Noyaux sur données 1D | <b>Figure 4(b):</b> Données avec zéro remplissage
@@ -137,7 +137,7 @@ Le choix de la taille du noyau est empirique. 3 * 3 convolution semble être la
 Padding generally hurts the final results, but it is convenient programmatically. We usually use zero-padding: `size =  (kernel size - 1)/2`.
 -->
 
-### Padding (Rembourrage)
+### Rembourrage (*padding*)
 
 Le rembourrage nuit généralement aux résultats finaux, mais il est pratique du point de vue programmatique. Nous utilisons généralement le zero-padding: `size = (taille du noyau - 1)/2`.
 
@@ -169,12 +169,12 @@ Un ConvNet spatial standard a les propriétés suivantes :
 
 * Couches multiples
   * Convolution
-  * Non-linéarité (ReLU et Leaky)
-  * Pooling
-  * Batch normalisation
-* Residual bypass connection
+  * Non-linéarité (*ReLU* et *Leaky*)
+  * *Pooling*
+  * Normalisation par batch
+* Connexion résiduelle
 
-La Batch normalisation et les Residual bypass connection sont très utiles pour que le réseau s'entraîne bien.
+La normalisation par batch et les connexions résiduelles sont très utiles pour que le réseau s'entraîne bien.
 Des parties d'un signal peuvent être perdues si trop de couches ont été empilées, de sorte que des connexions via residual bypass garantissent un chemin de bas en haut et aussi un chemin pour les gradients venant de haut en bas.
 
 Dans la figure 5, alors que l'image d'entrée contient principalement des informations spatiales en deux dimensions (à part les informations caractéristiques, qui sont la couleur de chaque pixel), la couche de sortie est épaisse. À mi-chemin, il y a un compromis entre les informations spatiales et les informations caractéristiques et la représentation devient plus dense. Par conséquent, à mesure que nous montons dans la hiérarchie, nous obtenons une représentation plus dense car nous perdons les informations spatiales.
@@ -201,7 +201,7 @@ Pooling is not parametrized; nevertheless, we can choose different polling types
 <center><img src="{{site.baseurl}}/images/week03/03-3/Figure 6 Illustration of Pooling.png" width="350px" /><br>
 <b>Figure 6:</b> Illustration du Pooling</center>
 
-Un opérateur spécifique, $L_p$-norm, est appliqué aux différentes régions (voir fig.6). Un tel opérateur ne donne qu'une seule valeur par région (1 valeur pour 4 pixels dans notre exemple). Nous itérons ensuite sur l'ensemble des données région par région, en prenant des mesures basées sur le pas. Si nous commençons avec $m * n$ données avec $c$ canaux, nous finirons avec $\frac{m}{2} * \frac{n}{2}$ données toujours avec des canaux $c$ (voir Fig.7).
+Un opérateur spécifique, $L_p$-norm, est appliqué aux différentes régions (voir figure 6). Un tel opérateur ne donne qu'une seule valeur par région (1 valeur pour 4 pixels dans notre exemple). Nous itérons ensuite sur l'ensemble des données région par région, en prenant des mesures basées sur le pas. Si nous commençons avec $m \times n$ données avec $c$ canaux, nous finirons avec $\frac{m}{2} \times \frac{n}{2}$ données toujours avec des canaux $c$ (voir figure 7).
 Le pooling n'est pas paramétré ; néanmoins, nous pouvons choisir différents types comme le max-pooling maximum, le average-pooling, etc. Le but principal du pooling est de réduire la quantité de données afin que nous puissions faire les calculs dans un délai raisonnable.
 
 <center><img src="{{site.baseurl}}/images/week03/03-3/Figure 7 Pooling results.png" width="350px" /><br>
@@ -239,9 +239,9 @@ The performance of the FC network almost stayed unchanged ($85\%$), but the accu
 -->
 
 ## ConvNet - Notebook Jupyter
-Le notebook Jupyter se trouve [ici](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/06-convnet.ipynb). Pour faire fonctionner le notebook, assurez-vous d'avoir installé l'environnement `pDL` comme indiqué dans [`README.md`](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/README.md).
+La version anglaise du *notebook* Jupyter se trouve [ici](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/06-convnet.ipynb). La version en français est disponible [ici](https://github.com/lbourdois/pytorch-Deep-Learning-Notebooks-in-French/blob/master/06-convnet.ipynb). Pour faire fonctionner le *notebook*, assurez-vous d'avoir installé l'environnement `pDL` comme indiqué dans le fichier [`README.md`](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/docs/fr/README-FR.md).
 
-Dans ce notebook Jupyter, nous entraînons un perceptron multicouche (réseau FC) et un ConvNet pour la tâche de classification sur le jeu de données MNIST. Notez que les deux réseaux ont un nombre égal de paramètres. (Fig.8)
+Dans ce *notebook* Jupyter, nous entraînons un perceptron multicouche (réseau FC) et un ConvNet pour la tâche de classification sur le jeu de données MNIST. Notez que les deux réseaux ont un nombre égal de paramètres (figure 8).
 <center> <img src="{{site.baseurl}}/images/week03/03-3/Figure 8 Instances from the Original MNIST Dataset.png" width="350px" /><br>
 <b>Figure 8:</b> Instances provenant du jeu de données MNIST</center>
 
@@ -254,7 +254,7 @@ Avant l’entraînement, nous normalisons nos données afin que l'initialisation
 
 Tout d'abord, nous entraînons les deux réseaux aux données normalisées du MNIST. La précision du réseau FC s'est avérée être de 87 %, tandis que celle du réseau ConvNet s'est révélée être de 95 %. Avec le même nombre de paramètres, le ConvNet a réussi à entraîner beaucoup plus de filtres. Dans le réseau FC, les filtres qui essaient d'obtenir des dépendances entre des choses qui sont plus éloignées et des choses qui sont proches, sont entraînés. Ils sont complètement gaspillés. Au lieu de cela, dans le réseau convolutionnel, tous ces paramètres se concentrent sur la relation entre les pixels voisins.
 
-Ensuite, nous effectuons une permutation aléatoire de tous les pixels dans toutes les images de notre ensemble de données MNIST. Cela transforme notre Fig.8 en Fig.9. Nous entraînons ensuite les deux réseaux sur cet ensemble de données modifié.
+Ensuite, nous effectuons une permutation aléatoire de tous les pixels dans toutes les images de notre ensemble de données MNIST. Cela transforme notre figure 8 en figure 9. Nous entraînons ensuite les deux réseaux sur cet ensemble de données modifié.
 <center><img src="{{site.baseurl}}/images/week03/03-3/Figure 9 Instances from Permuted MNIST Dataset.png" width="350px" /><br>
 <b>Figure 9:</b> Instances provenant du jeu de données MNIST permuté</center>
 
diff --git a/docs/fr/week03/03.md b/docs/fr/week03/03.md
index f472bd313..34eed753d 100644
--- a/docs/fr/week03/03.md
+++ b/docs/fr/week03/03.md
@@ -13,7 +13,7 @@ We first see a visualization of a 6-layer neural network. Next we begin with the
 -->
 
 
-## Conférence partie A
+## Cours magistral partie A
 
 Nous voyons d'abord une visualisation d'un réseau de neurones à 6 couches. Ensuite, nous commençons par le sujet des convolutions et des réseaux neuronaux à convolution (ConvNets). Nous passons en revue plusieurs types de transformations de paramètres dans le contexte des ConvNets et introduisons l'idée d'un noyau, qui est utilisé pour apprendre des caractéristiques de manière hiérarchique. Cela nous permet de classer nos données d'entrée, ce qui est l'idée de base motivant l'utilisation des ConvNets.
 
@@ -23,7 +23,7 @@ Nous voyons d'abord une visualisation d'un réseau de neurones à 6 couches. Ens
 We give an introduction on how CNNs have evolved over time. We discuss in detail different CNN architectures, including a modern implementation of LeNet5 to exemplify the task of digit recognition on the MNIST dataset. Based on its design principles, we expand on the advantages of CNNs which allows us to exploit the compositionality, stationarity, and locality features of natural images.
 -->
 
-## Conférence partie B
+## Cours magistral partie B
 
 Nous présentons une introduction sur l'évolution des ConvNets au fil du temps. Nous discutons en détail des différentes architectures de ConvNets, y compris une mise en œuvre moderne de LeNet5 pour illustrer la tâche de reconnaissance numérique sur le jeu de données du MNIST. Sur la base de ses principes de conception, nous développons les avantages des ConvNets qui nous permettent d'exploiter les caractéristiques de composition, de stationnarité et de localisation des images naturelles.
 
@@ -33,6 +33,6 @@ Nous présentons une introduction sur l'évolution des ConvNets au fil du temps.
 Properties of natural signals that are most relevant to CNNs are discussed in more detail, namely: Locality, Stationarity, and Compositionality. We explore precisely how a kernel exploits these features through sparsity, weight sharing and the stacking of layers, as well as motivate the concepts of padding and pooling. Finally, a performance comparison between FCN and CNN was done for different data modalities.
 -->
 
-## Pratique
-Les propriétés des signaux naturels qui sont les plus pertinentes pour les ConvNets sont discutées plus en détail, à savoir : localité, stationnarité et compositionnalité. Nous explorons précisément comment un noyau exploite ces caractéristiques par l'éparsité (sparsity), le partage des poids (weight sharing) et l'empilement des couches (the stacking of layers) et abordons les concepts de rembourrage (padding) et de pooling. Enfin, une comparaison des performances entre FCN (fully connected network) et ConvNets est effectuée pour différents types de données.
+## Travaux dirigés
+Les propriétés des signaux naturels qui sont les plus pertinentes pour les ConvNets sont discutées plus en détail, à savoir : localité, stationnarité et compositionnalité. Nous explorons précisément comment un noyau exploite ces caractéristiques par l'éparsité, le partage des poids et l'empilement des couches  et abordons les concepts de rembourrage et de pooling. Enfin, une comparaison des performances entre les réseaux entièrement conenctés (FCN pour *fully connected network*) et les ConvNets est effectuée pour différents types de données.
 
diff --git a/docs/fr/week04/04-1.md b/docs/fr/week04/04-1.md
index acaf2e734..f105adc6e 100644
--- a/docs/fr/week04/04-1.md
+++ b/docs/fr/week04/04-1.md
@@ -251,7 +251,7 @@ $$
 
 Dans cet exemple, la matrice de poids a une taille de $4 \times 3$, le vecteur d'entrée a une taille de $3 \times 1$ et le vecteur de sortie a une taille de $4 \times 1$.
 
-Cependant, pour les données audio, les données sont beaucoup plus longues (pas de 3 échantillons). Le nombre d'échantillons dans les données audio est égal à la durée de l'audio (par exemple 3 secondes) multipliée par le taux d'échantillonnage (par exemple 22,05 kHz). Comme indiqué ci-dessous, le vecteur d'entrée $\boldsymbol{x}$ sera assez long. En conséquence, la matrice de poids deviendra "grosse".
+Cependant, pour les données audio, les données sont beaucoup plus longues (pas de 3 échantillons). Le nombre d'échantillons dans les données audio est égal à la durée de l'audio (par exemple 3 secondes) multipliée par le taux d'échantillonnage (par exemple 22,05 kHz). Comme indiqué ci-dessous, le vecteur d'entrée $\boldsymbol{x}$ sera assez long. En conséquence, la matrice de poids deviendra « grosse ».
 
 
 $$
@@ -490,11 +490,11 @@ Convolution of the input signal with all the pitches (all the keys of the piano
 </center>
 -->
 
-## [Écouter les convolutions - Jupyter Notebook](https://www.youtube.com/watch?v=OrBEon3VlQg&t=1709s)
+## [Écouter les convolutions - Notebook Jupyter](https://www.youtube.com/watch?v=OrBEon3VlQg&t=1709s)
 
-Le notebook Jupyter se trouve [ici](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/07-listening_to_kernels.ipynb).
+La version anglaise du *notebook* Jupyter se trouve [ici](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/07-listening_to_kernels.ipynb), la version française est disponible [là](https://github.com/lbourdois/pytorch-Deep-Learning-Notebooks-in-French/blob/master/07-listening_to_kernels.ipynb).
 
-Dans ce notebook, nous allons explorer la convolution en tant que "produit scalaire courant".
+Dans ce *notebook*, nous allons explorer la convolution en tant que "produit scalaire courant".
 
 La bibliothèque `librosa` nous permet de charger le clip audio $\boldsymbol{x}$ et son taux d'échantillonnage. Dans ce cas, il y a 70641 échantillons, le taux d'échantillonnage est de 22.05kHz et la durée totale du clip est de 3.2s. Le signal audio importé est ondulé (voir la figure 1) et nous pouvons deviner à quoi il ressemble d'après l'amplitude de l'axe $y$. Le signal audio $x(t)$ est en fait le son joué lorsque le système Windows est éteint (voir la figure 2).
 
@@ -505,7 +505,7 @@ La bibliothèque `librosa` nous permet de charger le clip audio $\boldsymbol{x}$
 
 <center>
 <img src="{{site.baseurl}}/images/week04/04-1/notes.png" width="500px" /><br>
-<b>Fig. 2</b> : Notes pour le signal audio ci-dessus.<br>
+<b>Figure 2</b> : Notes pour le signal audio ci-dessus<br>
 </center>
 
 
@@ -513,7 +513,7 @@ Nous devons séparer les notes de la forme de l'onde. Pour y parvenir, si nous u
 
 <center>
 <img src="{{site.baseurl}}/images/week04/04-1/spectrogram.png" width="500px" /><br>
-<b>Figure 3</b> : Signal audio et son spectrogramme.<br>
+<b>Figure 3</b> : Signal audio et son spectrogramme<br>
 </center>
 
 La convolution du signal d'entrée avec toutes les hauteurs (toutes les touches du piano par exemple) peut aider à extraire toutes les notes du morceau d'entrée (c'est-à-dire les coups lorsque l'audio correspond aux noyaux spécifiques). Les spectrogrammes du signal original et du signal des hauteurs concaténées sont illustrés à la figure 4, tandis que les fréquences du signal original et des quatre hauteurs sont illustrées à la figure 5. Le tracé des convolutions des quatre noyaux avec le signal d'entrée (signal original) est illustré à la figure 6. La figure 6 ainsi que les clips audio des convolutions prouvent l'efficacité des convolutions dans l'extraction des notes.
@@ -521,17 +521,17 @@ La convolution du signal d'entrée avec toutes les hauteurs (toutes les touches
 
 <center>
 <img src="{{site.baseurl}}/images/week04/04-1/fig4.png" width="500px" /><br>
-<b>Fig. 4</b> : Spectrogramme du signal original (à gauche) et Sepctrogramme de la concaténation des hauteurs (à droite).<br>
+<b>Figure 4</b> : Spectrogramme du signal original (à gauche) et Sepctrogramme de la concaténation des hauteurs (à droite)<br>
 </center>
 
 <center>
 <img src="{{site.baseurl}}/images/week04/04-1/fig5.png" width="500px" /><br>
-<b>Fig. 5</b> : Première note de la mélodie.<br>
+<b>Figure 5</b> : Première note de la mélodie<br>
 </center>
 
 <center>
 <img src="{{site.baseurl}}/images/week04/04-1/fig6.png" width="500px" /><br>
-<b>Fig. 6</b> : Convolution de quatre noyaux.<br>
+<b>Figure 6</b> : Convolution de quatre noyaux<br>
 </center>
 
 <!--
@@ -558,11 +558,11 @@ La dernière partie est une courte digression sur les différentes représentati
 -->
 
 ### Exemples
-* Données audio : le domaine est 1-D, signal discret indexé par le temps ; le nombre de canaux $c$ peut varier entre 1 (mono), 2 (stéréo), 5+1 (Dolby 5.1), *etc.*
-* Données d'image : le domaine est 2-D (pixels) ; $c$ peut varier entre 1(niveaux de gris), 3(couleur), 20(hyperspectral), *etc.*
-* Relativité spéciale : le domaine est $\mathbb{R^4} \times \mathbb{R^4}$ (espace-temps $\times$ quatre-momentum) ; quand $c = 1$ on dit Hamiltonien.
+* Données audio : le domaine est 1D, signal discret indexé par le temps. Le nombre de canaux $c$ peut varier entre 1 (mono), 2 (stéréo), 5+1 (Dolby 5.1), *etc.*
+* Données d'image : le domaine est 2D (pixels) et le $c$ peut varier entre 1(niveaux de gris), 3(couleur), 20(hyperspectral), *etc.*
+* Relativité spéciale : le domaine est $\mathbb{R^4} \times \mathbb{R^4}$ (espace-temps $\times$ quatre-momentum). Quand $c = 1$ on dit Hamiltonien.
 
 <center>
 <img src="{{site.baseurl}}/images/week04/04-1/fig7.png" width="600px" /><br>
-<b>Fig. 7</b> : Différentes dimensions de différents types de signaux.<br>
+<b>Figure 7 :</b> Différentes dimensions de différents types de signaux<br>
 </center>
diff --git a/docs/fr/week04/04.md b/docs/fr/week04/04.md
index 0dc7d2e48..16d3ad3e8 100644
--- a/docs/fr/week04/04.md
+++ b/docs/fr/week04/04.md
@@ -12,7 +12,7 @@ translator: Loïck Bourdois
 We start with a brief review of linear algebra and then extend the topic to convolutions using audio data as an example. Key concepts like locality, stationarity and Toeplitz matrix are reiterated. Then we give a live demo of convolution performance in pitch analysis. Finally, there is a short digression about the dimensionality of different data.
 -->
 
-Pratique
+## Travaux dirigés
 
 Nous commençons par un bref examen de l'algèbre linéaire, puis nous étendons le sujet aux convolutions en utilisant des données audio comme exemple. Des concepts clés comme la localité, la stationnarité et la matrice de Toeplitz sont rappelés. Ensuite, nous donnons une démonstration en direct des performances des convolutions dans l'analyse de la hauteur de son. Enfin, une courte digression sur la dimensionnalité des différentes données.
 
diff --git a/docs/fr/week05/05-1.md b/docs/fr/week05/05-1.md
index dbb98b621..f03c47c57 100644
--- a/docs/fr/week05/05-1.md
+++ b/docs/fr/week05/05-1.md
@@ -48,13 +48,13 @@ The $\gamma$ parameter in the iterative update equation is called the **step siz
 
 Nous commençons notre étude des méthodes d'optimisation par la méthode la plus élémentaire et la pire (raisonnement à suivre) du lot :  la méthode de la descente de gradient.
 
-**Problème:**
+**Problème :**
 
 $$
 \min_w f(w)
 $$
 
-**Solution itérative:**
+**Solution itérative :**
 
 $$
 w_{k+1} = w_k - \gamma_k \nabla f(w_k)
@@ -67,14 +67,14 @@ où,
  - $\nabla f(w_k)$ est le gradient de $f$.
 
 
-On suppose ici que la fonction $f$ est continue et différenciable. Notre objectif est de trouver le point le plus bas (vallée) de la fonction d'optimisation. Cependant, la direction réelle de cette vallée n'est pas connue. Nous ne pouvons regarder que localement, et donc la direction du gradient négatif est la meilleure information dont nous disposons. Faire un petit pas dans cette direction ne peut que nous rapprocher du minimum. Une fois que nous avons fait ce petit pas, nous calculons à nouveau le nouveau gradient et nous nous déplaçons à nouveau un peu dans cette direction, jusqu'à ce que nous atteignions la vallée. Par conséquent, la descente de de gradient ne fait essentiellement que suivre la direction de la descente la plus raide (pente négative).
+On suppose ici que la fonction $f$ est continue et différenciable. Notre objectif est de trouver le point le plus bas (vallée) de la fonction d'optimisation. Cependant, la direction réelle de cette vallée n'est pas connue. Nous ne pouvons regarder que localement et de ce fait la direction du gradient négatif est la meilleure information dont nous disposons. Faire un petit pas dans cette direction ne peut que nous rapprocher du minimum. Une fois que nous avons fait ce petit pas, nous calculons à nouveau le nouveau gradient et nous nous déplaçons à nouveau un peu dans cette direction, jusqu'à ce que nous atteignions la vallée. Par conséquent, la descente de de gradient ne fait essentiellement que suivre la direction de la descente la plus raide (pente négative).
 
-Le paramètre $\gamma$ dans l'équation de mise à jour itérative est appelé la **taille du pas**. En général, nous ne connaissons pas la valeur de la taille de pas optimale ; nous devons donc essayer différentes valeurs. La pratique courante consiste à essayer un ensemble de valeurs sur une échelle logarithmique et à utiliser ensuite la meilleure. Quelques scénarios différents peuvent se produire. L'image ci-dessus représente ces scénarios pour une fonction quadratique 1D. Si le taux d'apprentissage est trop faible, alors nous progresserons régulièrement vers le minimum. Cependant, cela pourrait prendre plus de temps que ce qui est idéal. Il est généralement très difficile (ou impossible) d'obtenir une échelle qui nous mènerait directement au minimum. L'idéal serait d'avoir une taille de pas un peu plus grande que l'optimale. En pratique, cela permet d'obtenir la convergence la plus rapide. Cependant, si nous utilisons un taux d'apprentissage trop élevé, les itérations s'éloignent de plus en plus des minima et nous obtenons une divergence. Dans la pratique, nous voudrions utiliser un taux d'apprentissage qui est juste un peu moins que divergent.
+Le paramètre $\gamma$ dans l'équation de mise à jour itérative est appelé la **taille du pas**. En général, nous ne connaissons pas la valeur de la taille de pas optimale. Nous devons donc essayer différentes valeurs. La pratique courante consiste à essayer un ensemble de valeurs sur une échelle logarithmique et à utiliser ensuite la meilleure. Quelques scénarios différents peuvent se produire. L'image ci-dessus représente ces scénarios pour une fonction quadratique 1D. Si le taux d'apprentissage est trop faible, alors nous progresserons régulièrement vers le minimum. Cependant, cela pourrait prendre plus de temps que ce qui est idéal. Il est généralement très difficile (ou impossible) d'obtenir une échelle qui nous mènerait directement au minimum. L'idéal serait d'avoir une taille de pas un peu plus grande que l'optimale. En pratique, cela permet d'obtenir la convergence la plus rapide. Cependant, si nous utilisons un taux d'apprentissage trop élevé, les itérations s'éloignent de plus en plus des minima et nous obtenons une divergence. Dans la pratique, nous voudrions utiliser un taux d'apprentissage qui est juste un peu moins que divergent.
 
 
 <center>
 <img src="{{site.baseurl}}/images/week05/05-1/step-size.png" style="zoom: 70%; background-color:#DCDCDC;" /><br>
-<b>Figure 1:</b> Différentes valeurs du pas appliquer à une fonction quadratique 1D
+<b>Figure 1 :</b> Différentes valeurs du pas appliquer à une fonction quadratique 1D
 </center>
 
 
@@ -167,11 +167,11 @@ $$
 \mathbb{E}[w_{k+1}] = w_k - \gamma_k \mathbb{E}[\nabla f_i(w_k)] = w_k - \gamma_k \nabla f(w_k)
 $$
 
-Ainsi, toute mise à jour de la SGD est la même que la mise à jour complète attendue. Cependant, la SGD n'est pas seulement une descente plus rapide avec du bruit. En plus d'être plus rapide, la SGD peut également nous donner de meilleurs résultats que la descente de gradient en batch complet. Le bruit dans la SGD peut nous aider à éviter les minima locaux peu profonds et à trouver de meilleurs minima (plus profonds). Ce phénomène est appelé **annealing**.
+Ainsi, toute mise à jour de la SGD est la même que la mise à jour complète attendue. Cependant, la SGD n'est pas seulement une descente plus rapide avec du bruit. En plus d'être plus rapide, la SGD peut également nous donner de meilleurs résultats que la descente de gradient en batch complet. Le bruit dans la SGD peut nous aider à éviter les minima locaux peu profonds et à trouver de meilleurs minima (plus profonds). Ce phénomène est appelé ***annealing***.
 
 <center>
 <img src="{{site.baseurl}}/images/week05/05-1/annealing.png"/><br>
-<b>Figure 2:</b> Annealing avec SGD
+<b>Figure 2 :</b> Annealing avec SGD
 </center>
 
 En résumé, les avantages de la descente de gradient stochastique sont les suivants :
@@ -204,8 +204,7 @@ $$
 w_{k+1} = w_k - \gamma_k \frac{1}{|B_i|} \sum_{j \in B_i}\nabla f_j(w_k)
 $$
 
-Souvent, nous pouvons faire un meilleur usage de nos capacités de calcul en utilisant des mini batch au lieu d'une seule instance. Par exemple, les GPU sont mal utilisés lorsque nous effectuons un entraînement avec une seule instance. Les techniques d’entraînement en réseau distribué répartissent les  mini batchs entre les différentes machines et agrègent ensuite les gradients résultants. Facebook a récemment entraîné un réseau sur les données d'ImageNet en moins d'une heure, en utilisant une telle distribution.
-
+Souvent, nous pouvons faire un meilleur usage de nos capacités de calcul en utilisant des mini batch au lieu d'une seule instance. Par exemple, les GPU sont mal utilisés lorsque nous effectuons un entraînement avec une seule instance. Les techniques d’entraînement en réseau distribué répartissent les  mini batchs entre les différentes machines et agrègent ensuite les gradients résultants. En utilisant une telle distribution, Facebook a récemment entraîné un réseau sur les données d'ImageNet en moins d'une heure ([Goyal et al. (2018)](https://arxiv.org/abs/1706.02677v2)).
 Il est important de noter que la descente de gradient ne doit jamais être utilisée avec des batchs entier (taille entière). Si vous souhaitez faire cela utilisez plutôt une technique d'optimisation appelée LBFGS. PyTorch et SciPy fournissent tous deux des implémentations de cette technique.
 
 
@@ -236,7 +235,7 @@ This form is mathematically equivalent to the previous form. Here, the next step
 
 ## [Momentum](https://www.youtube.com/watch?v=--NZb480zlg&t=1672s)
 
-Avec Momentum, nous avons deux itérations ($p$ et $w$) au lieu d'une seule. Les mises à jour sont les suivantes :
+Avec *momentum*, nous avons deux itérations ($p$ et $w$) au lieu d'une seule. Les mises à jour sont les suivantes :
 
 $$
 \begin{aligned}
@@ -245,9 +244,9 @@ w_{k+1} &=  w_k - \gamma_kp_{k+1} \\
 \end{aligned}
 $$
 
-$p$ est appelé le momentum du SGD. À chaque étape de la mise à jour, nous ajoutons le gradient stochastique à l'ancienne valeur du momentum, après l'avoir amorti d'un facteur $\beta$ (valeur comprise entre 0 et 1). On peut considérer $p$ comme une moyenne mobile des gradients. Enfin, nous déplaçons $w$ dans la direction du nouvel élan $p$.
+$p$ est appelé le *momentum* da la SGD. À chaque étape de la mise à jour, nous ajoutons le gradient stochastique à l'ancienne valeur du *momentum*, après l'avoir amorti d'un facteur $\beta$ (valeur comprise entre 0 et 1). On peut considérer $p$ comme une moyenne mobile des gradients. Enfin, nous déplaçons $w$ dans la direction du nouvel élan $p$.
 
-Forme alternative : Méthode stochastique de la boule lourde
+Forme alternative : « méthode stochastique de la boule lourde »
 
 $$
 \begin{aligned}
@@ -281,21 +280,21 @@ The $\beta$ parameter is called the Dampening Factor. $\beta$ has to be greater
 
 ### Intuition
 
-Le SGD Momentum est similaire au concept d'élan en physique. Le processus d'optimisation ressemble à une lourde balle qui dévale la colline. Momentum maintient la balle dans la même direction que celle dans laquelle elle se déplace déjà. Le gradient peut être considéré comme une force poussant la balle dans une autre direction.
+La SGD *momentum* est similaire au concept d'élan en physique. Le processus d'optimisation ressemble à une lourde balle qui dévale la colline. *Momentum* maintient la balle dans la même direction que celle dans laquelle elle se déplace déjà. Le gradient peut être considéré comme une force poussant la balle dans une autre direction.
 
 <center>
 <img src="{{site.baseurl}}/images/week05/05-1/momentum.png"/><br>
-<b>Figure 3:</b> Effet du Momentum<br>
-<b>Source:</b><a href="https://distill.pub/2017/momentum/" target="_blank"> distill.pub </a><br>
+<b>Figure 3 :</b> Effet du momentum -
+<b>Source :</b><a href="https://distill.pub/2017/momentum/" target="_blank"> distill.pub </a><br>
 </center>
 
-Plutôt que de changer radicalement la direction du voyage (comme dans la figure de gauche), le momentum apporte des changements modestes. Il amortit les oscillations qui sont courantes lorsque nous n'utilisons que la SGD.
+Plutôt que de changer radicalement la direction du voyage (comme dans la figure de gauche), le *momentum* apporte des changements modestes. Il amortit les oscillations qui sont courantes lorsque nous n'utilisons que la SGD.
 
 Le paramètre $\beta$ est appelé le facteur d'amortissement. $\beta$ doit être supérieur à zéro, car s'il est égal à zéro, vous ne faites que descendre une pente. Il doit également être inférieur à 1, sinon tout explosera. Des valeurs plus petites de $\beta$ entraînent un changement de direction plus rapide. Pour des valeurs plus élevées, il faut plus de temps pour faire des virages.
 
 <center>
 <img src="{{site.baseurl}}/images/week05/05-1/momentum-beta.png" style="zoom : 40% ; couleur de fond:#DCDCDC;"/><br>
-<b>Figure 4:</b> Effet du bêta sur la convergence
+<b>Figure 4 :</b> Effet du bêta sur la convergence
 </center>
 
 
@@ -310,17 +309,17 @@ The step size parameter usually needs to be decreased when the momentum paramete
 
 ### Informations pratiques
 
-Le momentum doit presque toujours être utilisé avec une descente de gradient stochastique.
+Le *momentum* doit presque toujours être utilisé avec une descente de gradient stochastique.
 $\beta$ = 0,9 ou 0,99 fonctionne presque toujours bien.
 
-La valeur du pas doit généralement être diminuée lorsque le paramètre de momentum est augmenté pour maintenir la convergence. Si $\beta$ passe de 0,9 à 0,99, le taux d'apprentissage doit être diminué d'un facteur 10.
+La valeur du pas doit généralement être diminuée lorsque le paramètre de *momentum* est augmenté pour maintenir la convergence. Si $\beta$ passe de 0,9 à 0,99, le taux d'apprentissage doit être diminué d'un facteur 10.
 
 
 <!--
 ### Why does momentum works?
 -->
 
-### Comment fonctionne le momentum ?
+### Comment fonctionne le *momentum* ?
 <!--
 #### Acceleration
 
@@ -338,16 +337,16 @@ Many people say that normal momentum is also an accelerated method. But in reali
 
 #### Accélération
 
-Voici les règles de mise à jour pour le momentum de Nesterov.
+Voici les règles de mise à jour pour le *momentum* de Nesterov.
 
 $$
 p_{k+1} = \hat{\beta_k}p_k + \nabla f_i(w_k) \\
 w_{k+1} =  w_k - \gamma_k(\nabla f_i(w_k) +\hat{\beta_k}p_{k+1})
 $$
 
-Avec le momentum de Nesterov, vous pouvez obtenir une convergence accélérée si vous choisissez les constantes très soigneusement. Mais cela ne s'applique qu'aux problèmes convexes et non aux réseaux de neurones.
+Avec le *momentum* de Nesterov, vous pouvez obtenir une convergence accélérée si vous choisissez les constantes très soigneusement. Mais cela ne s'applique qu'aux problèmes convexes et non aux réseaux de neurones.
 
-Beaucoup de gens disent que le momentum normal est aussi une méthode accélérée. Mais en réalité, elle n'est accélérée que pour les fonctions quadratiques. De plus, l'accélération ne fonctionne pas bien avec la SGD, car la SGD a du bruit et l'accélération ne fonctionne pas bien avec le bruit. Par conséquent, bien qu'une certaine accélération soit présente avec la SGD Momentum, elle ne suffit pas à expliquer les performances élevées de la technique.
+Beaucoup de gens disent que le *momentum* normal est aussi une méthode accélérée. Mais en réalité, elle n'est accélérée que pour les fonctions quadratiques. De plus, l'accélération ne fonctionne pas bien avec la SGD, car la SGD a du bruit et l'accélération ne fonctionne pas bien avec le bruit. Par conséquent, bien qu'une certaine accélération soit présente avec la SGD *momentum*, elle ne suffit pas à expliquer les performances élevées de la technique.
 
 
 
@@ -377,17 +376,17 @@ With SGD, we make good progress towards solution initially but when we reach bow
 -->
 
 #### Lissage du bruit
-Une raison plus pratique et plus probable pour laquelle le momentum fonctionne est probablement le lissage du bruit.
-Le momentum est une moyenne mobile des gradients que nous utilisons pour chaque étape de mise à jour.
+Une raison plus pratique et plus probable pour laquelle le *momentum* fonctionne est probablement le lissage du bruit.
+Le *momentum* est une moyenne mobile des gradients que nous utilisons pour chaque étape de mise à jour.
 Théoriquement, pour que la SGD fonctionne, nous devrions prendre la moyenne de toutes les mises à jour par étapes.
 $$
 \bar w_k = \frac{1}{K} \sum_{k=1}^K w_k
 $$
-L'avantage avec la SGD avec momentum est que cette moyenne n'est plus nécessaire. Le momentum ajoute un lissage au processus d'optimisation, ce qui fait de chaque mise à jour une bonne approximation de la solution. Avec SGD, vous voudriez faire la moyenne de tout un tas de mises à jour et ensuite faire un pas dans cette direction.
-L'accélération et le lissage du bruit contribuent tous deux à la performance élevée du momentum.
+L'avantage avec la SGD avec *momentum* est que cette moyenne n'est plus nécessaire. Le *momentum* ajoute un lissage au processus d'optimisation, ce qui fait de chaque mise à jour une bonne approximation de la solution. Avec la SGD, vous voudriez faire la moyenne de tout un tas de mises à jour et ensuite faire un pas dans cette direction.
+L'accélération et le lissage du bruit contribuent tous deux à la performance élevée du *momentum*.
 <center>
 <img src="{{site.baseurl}}/images/week05/05-1/sgd-vs-momentum.png" style="zoom : 35% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 5:</b> SGD <i>vs.</i> Momentum
+<b>Figure 5 :</b> SGD <i>vs.</i> Momentum
 </center>
 
 Avec la SGD, nous progressons bien vers une solution au départ, mais lorsque nous atteignons le fond de la vallée, nous rebondissons dans ce sol. Si nous ajustons le taux d'apprentissage, nous rebondirons plus lentement. Avec l'élan, nous lissons les étapes, de sorte qu'il n'y a pas de rebondissement.
diff --git a/docs/fr/week05/05-2.md b/docs/fr/week05/05-2.md
index d47f9ae3b..2fb11795b 100644
--- a/docs/fr/week05/05-2.md
+++ b/docs/fr/week05/05-2.md
@@ -28,7 +28,7 @@ Weights in the latter part of the network (4096 in figure 1 below) directly dict
 
 ## [Méthodes adaptatives](https://www.youtube.com/watch?v=--NZb480zlg&t=2675s)
 
-SGD avec momentum est actuellement la méthode d'optimisation de pointe pour de nombreux problèmes de ML. Mais il existe d'autres méthodes, généralement appelées méthodes adaptatives qui sont particulièrement utiles pour les problèmes mal conditionnés (si la SGD ne fonctionne pas).
+La SGD avec *momentum* est actuellement la méthode d'optimisation de pointe pour de nombreux problèmes de ML. Mais il existe d'autres méthodes, généralement appelées méthodes adaptatives qui sont particulièrement utiles pour les problèmes mal conditionnés (si la SGD ne fonctionne pas).
 
 Dans la formule de la SGD, chaque poids dans le réseau est mis à jour en utilisant une équation avec le même taux d'apprentissage (global $\gamma$). Ici, pour les méthodes adaptatives, nous *adaptons un taux d'apprentissage pour chaque poids individuellement*. À cette fin, nous utilisons les informations que nous obtenons des gradients pour chaque poids.
 
@@ -38,7 +38,7 @@ Les poids dans la dernière partie du réseau (4096 dans la figure 1 ci-dessous)
 
 <center>
 <img src="{{site.baseurl}}/images/week05/05-2/5_2_vgg.png" style="zoom:40%"><br>
-<b>Figure 1: </b>VGG16
+<b>Figure 1 : </b>VGG16
 </center>
 
 
@@ -85,7 +85,7 @@ Nous mettons à jour $v$ pour estimer cette quantité bruyante via une *moyenne
 
 La méthode originale conserve une moyenne mobile exponentielle d'un second moment non central, donc nous ne soustrayons pas la moyenne ici. Le *deuxième moment* est utilisé pour normaliser par élément le gradient, ce qui signifie que chaque élément du gradient est divisé par la racine carrée de l'estimation du deuxième moment. Si la valeur attendue du gradient est faible, ce processus est similaire à la division du gradient par l'écart-type.
 
-L'utilisation d'un petit $\epsilon$ au dénominateur ne diverge pas car lorsque $v$ est très petit, le momentum est également très petit.
+L'utilisation d'un petit $\epsilon$ au dénominateur ne diverge pas car lorsque $v$ est très petit, le *momentum* est également très petit.
 
 
 <!--
@@ -108,7 +108,7 @@ Bias correction that is used to keep the moving average unbiased during early it
 
 ### ADAM
 
-ADAM, ou *Adaptive Moment Estimation*, qui est un RMSprop plus momentum, est une méthode plus couramment utilisée. La mise à jour du momentum est convertie en une moyenne mobile exponentielle et nous n'avons pas besoin de changer le taux d'apprentissage lorsque nous traitons avec $\beta$. Tout comme pour RMSprop, nous prenons ici une moyenne mobile exponentielle du gradient au carré.
+ADAM, ou *Adaptive Moment Estimation*, qui est un RMSprop plus *momentum*, est une méthode plus couramment utilisée. La mise à jour du *momentum* est convertie en une moyenne mobile exponentielle et nous n'avons pas besoin de changer le taux d'apprentissage lorsque nous traitons avec $\beta$. Tout comme pour RMSprop, nous prenons ici une moyenne mobile exponentielle du gradient au carré.
 
 $$
 \begin{aligned}
@@ -118,7 +118,7 @@ w_{t+1} &= w_t - \gamma \frac {m_{t}}{ \sqrt{v_{t+1}} + \epsilon}
 \end{aligned}
 $$
 
-où $m_{t+1}$ est la moyenne mobile exponentielle du momentum.
+où $m_{t+1}$ est la moyenne mobile exponentielle du *momentum*.
 
 La correction de biais qui est utilisée pour maintenir la moyenne mobile non biaisée pendant les premières itérations n'est pas présentée ici.
 
@@ -143,19 +143,19 @@ ADAM is necessary for training some of the networks for using language models. F
 
 ### Côté pratique
 
-Lors de l’entraînement des réseaux neuronaux, SGD va souvent dans la mauvaise direction au début du processus, alors que RMSprop va dans la bonne direction. Cependant, RMSprop souffre du même bruit que le SGD normal, donc il rebondit autour de l'optimum de manière significative une fois qu'il est proche d'un minimiseur local. Tout comme lorsque nous ajoutons un momentum au SGD, nous obtenons le même type d'amélioration avec ADAM. C'est une bonne estimation, non bruyante, de la solution, donc **ADAM est généralement recommandé par rapport à RMSprop**.
+Lors de l’entraînement des réseaux neuronaux, la SGD va souvent dans la mauvaise direction au début du processus, alors que RMSprop va dans la bonne direction. Cependant, RMSprop souffre du même bruit que la SGD normale, donc il rebondit autour de l'optimum de manière significative une fois qu'il est proche d'un minimiseur local. Tout comme lorsque nous ajoutons un *momentum* à la SGD, nous obtenons le même type d'amélioration avec ADAM. C'est une bonne estimation, non bruyante, de la solution, donc **ADAM est généralement recommandé par rapport à RMSprop**.
 
 <center>
 <img src="{{site.baseurl}}/images/week05/05-2/5_2_comparison.png" style="zoom:45%"><br>
 <b>Figure 2 : </b> SGD vs RMSprop vs ADAM
 </center><br>
 
-ADAM est nécessaire pour entraîner certains des réseaux à l'utilisation des modèles linguistiques. Pour optimiser les réseaux neuronaux, il est généralement préférable d'utiliser le SGD avec momentum ou ADAM. Cependant, la théorie d'ADAM est mal comprise et elle présente également plusieurs inconvénients :
+ADAM est nécessaire pour entraîner certains des réseaux à l'utilisation des modèles linguistiques. Pour optimiser les réseaux neuronaux, il est généralement préférable d'utiliser la SGD avec *momentum* ou ADAM. Cependant, la théorie d'ADAM est mal comprise et elle présente également plusieurs inconvénients :
 
 * On peut montrer sur des problèmes de test très simples que la méthode ne converge pas.
 * Elle est connue pour donner des erreurs de généralisation. Si le réseau est entraîné à donner une perte nulle sur les données sur lesquelles vous l'avez entraîné, il ne donnera pas une perte nulle sur d'autres données qu'il n'a jamais vus auparavant. Il est assez courant, en particulier pour les problèmes d'image, que nous obtenions des erreurs de généralisation pires que lorsque la SGD est utilisé. Les facteurs peuvent par exemple inclure le fait qu'il trouve le minimum local le plus proche, le fait qu’il y ait moins de bruit dans ADAM, ou encore sa structure.
-* Avec ADAM, nous devons garder en mémoire 3 paramètres, alors que SGD en a besoin de 2. Cela n'a pas vraiment d'importance, à moins que nous n’entrainions un modèle de l'ordre de plusieurs gigaoctets, auquel cas il pourrait ne pas tenir en mémoire.
-* 2 paramètres de momentum doivent être réglés au lieu d'un seul.
+* Avec ADAM, nous devons garder en mémoire 3 paramètres, alors que la SGD en a besoin de 2. Cela n'a pas vraiment d'importance, à moins que nous n’entrainions un modèle de l'ordre de plusieurs gigaoctets, auquel cas il pourrait ne pas tenir en mémoire.
+* 2 paramètres de *momentum* doivent être réglés au lieu d'un seul.
 
 
 <!--
@@ -179,14 +179,14 @@ Note that the normalization layers affect the data that flows through, but they
 
 Plutôt que d'améliorer les algorithmes d'optimisation, les *couches de normalisation* améliorent la structure même du réseau. Il s'agit de couches supplémentaires entre les couches existantes. L'objectif est d'améliorer les performances d'optimisation et de généralisation.
 
-Dans les réseaux de neurones, nous alternons généralement des opérations linéaires et des opérations non linéaires. Les opérations non linéaires sont également connues sous le nom de fonctions d'activation, telles que ReLU. Nous pouvons placer des couches de normalisation avant les couches linéaires, ou après les fonctions d'activation. La pratique la plus courante consiste à les placer entre les couches linéaires et les fonctions d'activation, comme dans la figure ci-dessous.
+Dans les réseaux de neurones, nous alternons généralement des opérations linéaires et des opérations non linéaires. Les opérations non linéaires sont également connues sous le nom de fonctions d'activation, telles que la *ReLU*. Nous pouvons placer des couches de normalisation avant les couches linéaires, ou après les fonctions d'activation. La pratique la plus courante consiste à les placer entre les couches linéaires et les fonctions d'activation, comme dans la figure ci-dessous.
 
 | <center><img src="{{site.baseurl}}/images/week05/05-2/5_2_norm_layer_a.png" width="200px"/></center> | <center><img src="{{site.baseurl}}/images/week05/05-2/5_2_norm_layer_b.png" width="200px"/></center> | <center><img src="{{site.baseurl}}/images/week05/05-2/5_2_norm_layer_c.png" width="225px"/></center> |
 | (a) Avant d'ajouter la normalisation | (b) Après avoir ajouté la normalisation | (c) Un exemple dans les ConvNets |
 
-<center><b>Figure 3:</b> Positions typiques des couches de normalisation.</center>
+<center><b>Figure 3 :</b> Positions typiques des couches de normalisation</center>
 
-Dans la figure 3(c), la convolution est la couche linéaire, suivie de la normalisation par batchs, puis de ReLU.
+Dans la figure 3(c), la convolution est la couche linéaire, suivie de la normalisation par batchs, puis de *ReLU*.
 
 Notez que les couches de normalisation affectent les données qui passent, mais elles ne modifient pas la puissance du réseau dans le sens où, avec une configuration appropriée des poids, le réseau non normalisé peut toujours donner le même résultat qu'un réseau normalisé.
 
@@ -226,13 +226,13 @@ $$
 y = \frac{a}{\sigma}(x - \mu) + b
 $$
 
-où $x$ est le vecteur d'entrée, $y$ est le vecteur de sortie, $\mu$ est l'estimation de la moyenne de $x$, $\sigma$ est l'estimation de l'écart type (std) de $x$, $a$ est le facteur d'échelle apprenant et $b$ est le terme de biais apprenant.
+où $x$ est le vecteur d'entrée, $y$ est le vecteur de sortie, $\mu$ est l'estimation de la moyenne de $x$, $\sigma$ est l'estimation de l'écart-type de $x$, $a$ est le facteur d'échelle apprenant et $b$ est le terme de biais apprenant.
 
 Sans les paramètres d'apprentissage $a$ et $b$, la distribution du vecteur de sortie $y$ aura une moyenne fixe de 0 et un écart-type de 1. Le facteur d'échelle $a$ et le terme de biais $b$ maintiennent le pouvoir de représentation du réseau, c'est-à-dire que les valeurs de sortie peuvent toujours être sur une plage particulière. Notez que $a$ et $b$ n'inversent pas la normalisation, car ce sont des paramètres qui peuvent être appris et qui sont beaucoup plus stables que $\mu$ et $\sigma$.
 
 <center>
 <img src="{{site.baseurl}}/images/week05/05-2/5_2_norm_operations.png"/><br>
-<b>Figure 4:</b> Opérations de normalisation.
+<b>Figure 4 :</b> Opérations de normalisation
 </center>
 
 Il existe plusieurs façons de normaliser le vecteur d'entrée, en fonction de la façon de sélectionner les échantillons à normaliser. La figure 4 énumère 4 approches de normalisation différentes, pour un mini batch d'images $N$ de hauteur $H$ et de largeur $W$, avec des canaux $C$ :
@@ -259,13 +259,13 @@ As a result, normalization lets you be more "careless" -- you can combine almost
 
 ### Pourquoi la normalisation est-elle utile ?
 
-Bien que la normalisation fonctionne bien dans la pratique, les raisons de son efficacité sont encore contestées. À l'origine, la normalisation est proposée pour réduire le "déplacement interne des covariables", mais certains chercheurs ont prouvé qu'elle était erronée lors d'expériences. Néanmoins, la normalisation présente clairement une combinaison des facteurs suivants :
+Bien que la normalisation fonctionne bien dans la pratique, les raisons de son efficacité sont encore contestées. À l'origine, la normalisation est proposée pour réduire le déplacement interne des covariables, mais certains chercheurs ont prouvé qu'elle était erronée lors d'expériences. Néanmoins, la normalisation présente clairement une combinaison des facteurs suivants :
 
 - Les réseaux comportant des couches de normalisation sont plus faciles à optimiser, ce qui permet d'utiliser des taux d'apprentissage plus importants. La normalisation a un effet d'optimisation qui accélère l’entraînement des réseaux neuronaux.
-- Les estimations de la moyenne/écart-type sont bruyantes en raison du caractère aléatoire des échantillons en batch. Ce "bruit" supplémentaire entraîne une meilleure généralisation dans certains cas. La normalisation a un effet de régularisation.
+- Les estimations de la moyenne/écart-type sont bruyantes en raison du caractère aléatoire des échantillons en batch. Ce « bruit » supplémentaire entraîne une meilleure généralisation dans certains cas. La normalisation a un effet de régularisation.
 - La normalisation réduit la sensibilité à l'initialisation du poids.
 
-Par conséquent, la normalisation vous permet d'être plus "négligent" : vous pouvez combiner presque tous les éléments constitutifs d'un réseau neuronal et avoir de bonnes chances de le former sans avoir à considérer son mauvais conditionnement.
+Par conséquent, la normalisation vous permet d'être plus négligent : vous pouvez combiner presque tous les éléments constitutifs d'un réseau neuronal et avoir de bonnes chances de l'entrâiner sans avoir à considérer son mauvais conditionnement.
 
 
 <!--
@@ -295,9 +295,9 @@ torch.nn.BatchNorm2d(num_features, ...)
 torch.nn.GroupNorm(num_groups, num_channels, ...)
 ```
 
-La batch norm a été la première méthode développée et est la plus connue. Cependant, **Aaron Defazio recommande d'utiliser plutôt la group norm**. Elle est plus stable, théoriquement plus simple, et fonctionne généralement mieux. La taille de groupe 32 est une bonne valeur par défaut.
+La normalisation par batchs a été la première méthode développée et est la plus connue. Cependant, **Aaron Defazio recommande d'utiliser plutôt la normalisation par groupes**. Elle est plus stable, théoriquement plus simple, et fonctionne généralement mieux. La taille de groupe 32 est une bonne valeur par défaut.
 
-Notez que pour la batch norm et l’instance norm, la moyenne/écart-type utilisée est fixée après l’entraînement plutôt que d'être recalculée à chaque fois que le réseau est évalué. En effet de multiples échantillons d’entraînement sont nécessaires pour effectuer la normalisation. Cela n'est pas nécessaire pour la group norm et la layer norm, puisque leur normalisation ne porte que sur un seul échantillon d'entraînement.
+Notez que pour la normalisation par batchs et la normalisation par instances, la moyenne/écart-type utilisée est fixée après l’entraînement plutôt que d'être recalculée à chaque fois que le réseau est évalué. En effet de multiples échantillons d’entraînement sont nécessaires pour effectuer la normalisation. Cela n'est pas nécessaire pour la normalisation par groupes et la normalisation par couches, puisque leur normalisation ne porte que sur un seul échantillon d'entraînement.
 
 
 <!--
@@ -317,7 +317,7 @@ Parfois, nous pouvons faire irruption dans un domaine que nous ne connaissons pa
 
 <center>
 <img src="{{site.baseurl}}/images/week05/05-2/5_2_conv_xkcd.png" style="zoom:60%"><br>
-<b>Figure 5:</b> Parfois, ça marche vraiment !
+<b>Figure 5 :</b> Parfois, ça marche vraiment !
 </center>
 
 
@@ -342,7 +342,7 @@ Dans le problème traditionnel de la reconstruction d’une IRM, les données br
 
 <center>
 <img src="{{site.baseurl}}/images/week05/05-2/5_2_mri.png" style="zoom:60%"/><br>
-<b>Fig. 6:</b> Reconstruction d’une IRM
+<b>Figure 6:</b> Reconstruction d’une IRM
 </center><br>
 
 Une cartographie linéaire existe actuellement pour passer du domaine de Fourier au domaine de l'image et elle est très efficace, prenant littéralement des millisecondes, quelle que soit la taille de l'image. Mais la question est de savoir si nous pouvons le faire encore plus rapidement.
@@ -366,7 +366,7 @@ Le nouveau problème qui doit être résolu est l’accélération de l'IRM, où
 
 <center>
 <img src="{{site.baseurl}}/images/week05/05-2/5_2_acc_mri.png" style="zoom:45%"><br>
-<b>Fig.:</b> Cartographie linéaire sur un espace de Fourier sous-échantillonné
+<b>Figure 7 :</b> Cartographie linéaire sur un espace de Fourier sous-échantillonné
 </center><br>
 
 
@@ -447,6 +447,6 @@ où $B$ est notre modèle d'apprentissage profond et $y$ est la donnée observé
 Il y a 15 ans, cette approche était difficile - mais aujourd'hui, elle est beaucoup plus facile à mettre en œuvre. La figure 9 montre le résultat d'une approche d'apprentissage profond de ce problème et nous pouvons voir qu’il est bien meilleur que l'approche de détection comprimée et ressemble beaucoup à l'analyse réelle.
 <center>
 <img src="{{site.baseurl}}/images/week05/05-2/5_2_dl_approach.png" style="zoom:60%"><br>
-<b>Figure 9 : </b>Apprentissage approfondi
+<b>Figure 9 : </b>Apprentissage profond
 </center><br>
-Le modèle utilisé pour générer cette reconstruction fait appel à un optimiseur ADAM, à des couches de normalisation group norm et à un réseau neuronal convolutif basé sur U-Net. Une telle approche est très proche des applications pratiques et nous espérons voir ces examens IRM accélérés se produire dans la pratique clinique dans quelques années.
+Le modèle utilisé pour générer cette reconstruction fait appel à un optimiseur ADAM, à des couches de normalisation par groupes et à un réseau neuronal convolutif basé sur U-Net. Une telle approche est très proche des applications pratiques et nous espérons voir ces examens IRM accélérés se produire dans la pratique clinique dans quelques années.
diff --git a/docs/fr/week05/05-3.md b/docs/fr/week05/05-3.md
index 7e7617498..68ef17f81 100644
--- a/docs/fr/week05/05-3.md
+++ b/docs/fr/week05/05-3.md
@@ -56,7 +56,7 @@ For the 1D convolution, we can just compute the scalar product, kernel by kernel
 
 Dans cette partie, nous parlerons de la convolution, puisque nous souhaitons explorer l’ éparsité, la stationnarité, la composition des données.
 
-Au lieu d'utiliser la matrice $A$ de la [semaine précédente]({{site.baseurl}}/fr/week04/04-1)), nous allons changer la largeur de la matrice pour la taille du noyau $k$. Par conséquent, chaque ligne de la matrice est un noyau. Nous pouvons utiliser les noyaux en les empilant et en les déplaçant (voir la figure 1). Nous pouvons alors avoir des couches de hauteur $m$ $n-k+1$.
+Au lieu d'utiliser la matrice $A$ de la [semaine précédente]({{site.baseurl}}/fr/week04/04-1), nous allons changer la largeur de la matrice pour la taille du noyau $k$. Par conséquent, chaque ligne de la matrice est un noyau. Nous pouvons utiliser les noyaux en les empilant et en les déplaçant (voir la figure 1). Nous pouvons alors avoir des couches de hauteur $m$ $n-k+1$.
 
 <center>
 <img src="{{site.baseurl}}/images/week05/05-3/Illustration_1D_Conv.png" alt="1" style="zoom:40% ;" /><br>
@@ -124,8 +124,8 @@ nn.Conv1d(
 	in_channels, # nombre de canaux dans l'image d'entrée
 	out_channels, # nombre de canaux produits par la convolution
 	kernel_size, # taille du noyau en convolution
-	stride=1, # stride de la convolution
-	padding=0, # zéro padding ajouté aux deux côtés de l'entrée
+	stride=1, # pas de la convolution
+	padding=0, # rembourage de 0 ajouté aux deux côtés de l'entrée
 	dilatation=1, # espacement entre les éléments du noyau
 	groups=1, # nb de connexions bloquées de l'entrée à la sortie
 	bias=True, # si ` True `, ajoute un biais appris à la sortie
@@ -193,19 +193,19 @@ conv(x).size()  # output: torch.Size([1, 16, 64, 128])
 
 ### Convolution 2D
 
-Nous définissons d'abord les données d'entrée comme un $1$ échantillon, $20$ canaux (disons que nous utilisons une image hyperspectrale) avec une hauteur de $64$ et une largeur de $128$. La convolution 2D a $20$ canaux en entrée et $16$ noyaux de taille de $3$\times$5$. Après la convolution, la donnée en sortie a un $1$ échantillon, $16$ canaux avec une hauteur de $62$ ($=64-3+1$) et une largeur de $124$ ($=128-5+1$).
+Nous définissons d'abord les données d'entrée comme un $1$ échantillon, $20$ canaux (disons que nous utilisons une image hyperspectrale) avec une hauteur de $64$ et une largeur de $128$. La convolution 2D a $20$ canaux en entrée et $16$ noyaux de taille de $3\times5$. Après la convolution, la donnée en sortie a un $1$ échantillon, $16$ canaux avec une hauteur de $62$ ($=64-3+1$) et une largeur de $124$ ($=128-5+1$).
 
 ```python
 x = torch.rand(1, 20, 64, 128) # 1 échantillon, 20 canaux, hauteur 64, et largeur 128
 conv = nn.Conv2d(20, 16, (3, 5))  # 20 canaux, 16 noyaux, la taille des noyaux est de 3 x 5
-conv.weight.size() # output : torch.Size([16, 20, 3, 5])
+conv.weight.size() # sortie : torch.Size([16, 20, 3, 5])
 conv(x).size() # sortie : torch.Size([1, 16, 62, 124])
 ```
 
 Si nous voulons atteindre la même dimensionnalité, nous pouvons avoir des paddings. En continuant le code ci-dessus, nous pouvons ajouter de nouveaux paramètres à la fonction de convolution : `stride=1` et `padding=(1, 2)`, ce qui signifie $1$ dans la direction $y$ ($1$ en haut et $1$ en bas) et $2$ dans la direction $x$. Le signal de sortie est alors de la même taille que le signal d'entrée. Le nombre de dimensions nécessaires pour stocker la collection de noyaux lorsque vous effectuez une convolution 2D est de $4$.
 
 ```python
-# 20 canaux, 16 grains de taille 3 x 5, pas de 1, padding 1 et 2
+# 20 canaux, 16 noyaux de taille 3 x 5, pas de 1, rembourrage 1 et 2
 conv = nn.Conv2d(20, 16, (3, 5), 1, (1, 2))
 conv(x).size() # sortie : torch.Size([1, 16, 64, 128])
 ```
@@ -374,7 +374,7 @@ Et, nous pouvons avoir `with torch.no_grad()` pour omettre l'accumulation de gra
 x = torch.arange(1., n + 1)
 w = torch.ones(n, requires_grad=True)
 
-# Tous les tenseur n'auront pas l'accumulation de gradient
+# Tous les tenseurs n'auront pas l'accumulation de gradient
 with torch.no_grad():
     z = w @ x
 
@@ -395,13 +395,12 @@ To do so, we need to inherit `torch.autograd.Function` and override `forward()`
 In this case, there are three examples of ***custom modules*** in the *notebook*, the `add`, `split`, and `max` modules. For example, the custom addition module:
 
 ```python
-# Custom addition module
+# Module personnalisé supplémentaire
 class MyAdd(torch.autograd.Function):
 
     @staticmethod
     def forward(ctx, x1, x2):
-        # ctx is a context where we can save
-        # computations for backward.
+        # ctx est un contexte où nous pouvons sauvegarder les calculs pour la rétropropagation
         ctx.save_for_backward(x1, x2)
         return x1 + x2
 
@@ -410,8 +409,7 @@ class MyAdd(torch.autograd.Function):
         x1, x2 = ctx.saved_tensors
         grad_x1 = grad_output * torch.ones_like(x1)
         grad_x2 = grad_output * torch.ones_like(x2)
-        # need to return grads in order
-        # of inputs to forward (excluding ctx)
+        # on a besoin de retourner les gradients pour la phase avant
         return grad_x1, grad_x2
 ```
 
@@ -421,18 +419,17 @@ For `split` and `max`, see the code of how we overwrite forward and backward fun
 -->
 
 ## Plus de choses : des gradients personnalisés
-Au lieu d'opérations numériques de base, nous pouvons générer nos propres modules / fonctions auto-définis, qui peuvent être branchés sur le graphe neural. Le notebook Jupyter se trouve [ici](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/extra/b-custom_grads.ipynb).
+Au lieu d'opérations numériques de base, nous pouvons générer nos propres modules / fonctions auto-définis, qui peuvent être branchés sur le graphe neural. Le *notebook* Jupyter se trouve [ici](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/extra/b-custom_grads.ipynb).
 Pour ce faire, nous devons partir de la fonction `torch.autograd.Function` et remplacer les fonctions `forward()` et `backward()`. Par exemple, si nous voulons entraîner des réseaux, nous devons obtenir la propagation en avant dans le réseau (forward) et connaître les dérivées partielles de l'entrée par rapport à la sortie, de sorte que nous puissions utiliser ce module en tout point du code. Ensuite, en utilisant la rétropropagation (règle de la chaîne), nous pouvons insérer la chose n'importe où dans la chaîne d'opérations, à condition de connaître les dérivées partielles de l'entrée par rapport à la sortie.
 
 Dans ce cas, il y a trois exemples de ***modules personnalisés*** dans le *notebook*, les modules `add`, `split`, et `max`. Par exemple, le module d'ajout personnalisé :
 ```python
-# Custom addition module
+# Module personnalisé supplémentaire
 class MyAdd(torch.autograd.Function):
 
     @staticmethod
     def forward(ctx, x1, x2):
-        # ctx is a context where we can save
-        # computations for backward.
+        # ctx est un contexte où nous pouvons sauvegarder les calculs pour la rétropropagation
         ctx.save_for_backward(x1, x2)
         return x1 + x2
 
@@ -441,11 +438,9 @@ class MyAdd(torch.autograd.Function):
         x1, x2 = ctx.saved_tensors
         grad_x1 = grad_output * torch.ones_like(x1)
         grad_x2 = grad_output * torch.ones_like(x2)
-        # need to return grads in order
-        # of inputs to forward (excluding ctx)
+        # on a besoin de retourner les gradients pour la phase avant
         return grad_x1, grad_x2
 ```
 Si nous avons l'addition de deux choses et que nous obtenons un résultat, nous devons écraser la fonction forward comme ceci. Et lorsque nous descendons pour faire la propagation arrière, les gradients sont copiés sur les deux côtés. Nous écrasons donc la fonction arrière en copiant.
 
 Pour les fonctions `split` et `max`, consultez le code pour la façon dont nous écrasons les fonctions forward et backward dans le *notebook*. Pour `argmax`, cela sélectionne l'indice de la chose la plus élevée. Ainsi l'indice de la plus élevée devrait être de $1$ et $0$ pour les autres.
-
diff --git a/docs/fr/week05/05.md b/docs/fr/week05/05.md
index 98bc1b1d6..b0a180a9d 100644
--- a/docs/fr/week05/05.md
+++ b/docs/fr/week05/05.md
@@ -13,9 +13,9 @@ We begin by introducing Gradient Descent. We discuss the intuition and also talk
 -->
 
 
-## Conférence partie A
+## Cours magistral partie A
 
-Nous commençons par introduire la méthode de descente de gradient (GD). Nous discutons de l'intuition et nous expliquons également comment la taille des pas joue un rôle important dans l'obtention de la solution. Nous passons ensuite à la SGD (GD stochastique) et à ses performances par rapport à la GD « Full Batch ». Enfin, nous parlons des mises à jour Momentum, en particulier des deux règles de mise à jour, de l'intuition derrière le momentum et de son effet sur la convergence.
+Nous commençons par introduire la méthode de descente de gradient (GD). Nous discutons de l'intuition et nous expliquons également comment la taille des pas joue un rôle important dans l'obtention de la solution. Nous passons ensuite à la SGD (GD stochastique) et à ses performances par rapport à la GD « *Full Batch* ». Enfin, nous parlons des mises à jour *momentum*, en particulier des deux règles de mise à jour, de l'intuition derrière le momentum et de son effet sur la convergence.
 
 <!--
 ## Lecture part B
@@ -23,7 +23,7 @@ Nous commençons par introduire la méthode de descente de gradient (GD). Nous d
 We discuss adaptive methods for SGD such as RMSprop and ADAM. We also talk about normalization layers and their effects on the neural network training process. Finally, we discuss a real-world example of neural nets being used in industry to make MRI scans faster and more efficient.
 -->
 
-## Conférence partie B
+## Cours magistral partie B
 
 Nous discutons des méthodes adaptatives pour la SGD telles que RMSprop et ADAM. Nous parlons également des couches de normalisation et de leurs effets sur le processus d'entraînement des réseaux neuronaux. Enfin, nous discutons d'un exemple concret de réseaux de neurones utilisés dans l'industrie pour rendre les scanners IRM plus rapides et plus efficaces.
 
@@ -34,6 +34,6 @@ Nous discutons des méthodes adaptatives pour la SGD telles que RMSprop et ADAM.
 We briefly review the matrix-multiplications and then discuss the convolutions. Key point is we use kernels by stacking and shifting. We first understand the 1D convolution by hand, and then use PyTorch to learn the dimension of kernels and output width in 1D and 2D convolutions examples. Furthermore, we use PyTorch to learn about how automatic gradient works and custom-grads.
 -->
 
-## Pratique
+## Travaux dirigés
 Nous passons brièvement en revue les multiplications matricielles et discutons ensuite des convolutions. Le point essentiel est que nous utilisons les noyaux en les empilant et en les déplaçant. Nous commençons par comprendre la convolution 1D à la main, puis nous utilisons PyTorch pour apprendre la dimension des noyaux et la largeur de sortie dans des exemples de convolutions 1D et 2D. De plus, nous utilisons PyTorch pour apprendre comment fonctionne le gradient automatique et les gradations personnalisées.
 
diff --git a/docs/fr/week06/06-1.md b/docs/fr/week06/06-1.md
index e0979856c..b7bc19e53 100644
--- a/docs/fr/week06/06-1.md
+++ b/docs/fr/week06/06-1.md
@@ -17,7 +17,7 @@ In the previous lecture, we demonstrated that a convolutional network can recogn
 
 ## [Reconnaissance des codes postaux](https://www.youtube.com/watch?v=ycbMGyCPzvE&t=43s)
 
-Dans la conférence précédente, nous avons démontré qu'un réseau convolutif peut reconnaître des chiffres. Cependant, la question demeure de savoir comment le modèle choisit chaque chiffre et évite les perturbations sur les chiffres voisins. L'étape suivante consiste à détecter les objets qui ne se chevauchent pas et à utiliser l'approche générale de la suppression non maximale (NMS en anglais pour Non-Maximum Suppression). Etant donné l'hypothèse que l'entrée est une série de chiffres non chevauchants, la stratégie consiste à entraîner plusieurs réseaux convolutifs et à utiliser soit le vote majoritaire, soit à choisir les chiffres correspondant au score le plus élevé généré par le réseau convolutif.
+Dans la conférence précédente, nous avons démontré qu'un réseau convolutif peut reconnaître des chiffres. Cependant, la question demeure de savoir comment le modèle choisit chaque chiffre et évite les perturbations sur les chiffres voisins. L'étape suivante consiste à détecter les objets qui ne se chevauchent pas et à utiliser l'approche générale de la suppression non maximale (NMS en anglais pour *Non-Maximum Suppression*). Etant donné l'hypothèse que l'entrée est une série de chiffres non chevauchants, la stratégie consiste à entraîner plusieurs réseaux convolutifs et à utiliser soit le vote majoritaire, soit à choisir les chiffres correspondant au score le plus élevé généré par le réseau convolutif.
 
 
 <!--
@@ -39,7 +39,7 @@ Nous présentons ici la tâche consistant à reconnaître 5 codes postaux qui ne
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-1/O1IN3JD.png" style="zoom : 40% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 1:</b> Multiples classifieurs sur la reconnaissance des codes postaux
+<b>Figure 1 :</b> Multiples classifieurs sur la reconnaissance des codes postaux
 </center>
 
 Maintenant, il faut imposer l'ordre des caractères. L'astuce consiste à utiliser un algorithme de chemin le plus court. Comme on nous donne des plages de caractères possibles et le nombre total de chiffres à prévoir, nous pouvons aborder ce problème en calculant le coût minimum de production des chiffres et des transitions entre les chiffres. Le chemin doit être continu de la cellule inférieure gauche à la cellule supérieure droite du graphique. Il doit aussi contenir que des mouvements de gauche à droite et de bas en haut. Notez que si le même nombre est répété l'un à côté de l'autre, l'algorithme doit être capable de distinguer les nombres répétés au lieu de prédire un seul chiffre.
@@ -58,12 +58,12 @@ Convolutional neural networks perform well on detection tasks and face detection
 
 ## [Détection des visages](https://www.youtube.com/watch?v=ycbMGyCPzvE&t=1241s)
 
-Les réseaux neuronaux convolutionnels sont très performants dans les tâches de détection, et la détection des visages ne fait pas exception. Pour effectuer la détection des visages, nous collectons un ensemble de données d'images avec et sans visages, sur lesquelles nous entraînons un réseau convolutionnel avec une taille de fenêtre de 30 $\times$ 30 pixels et demandons au réseau de dire s'il y a un visage ou non. Une fois entraîné, nous appliquons le modèle à une nouvelle image et s'il y a des visages à peu près dans une fenêtre de 30 $\times$ 30 pixels, le réseau convolutionnel éclairera la sortie aux endroits correspondants. Cependant, deux problèmes se posent.
+Les réseaux neuronaux convolutionnels sont très performants dans les tâches de détection, et la détection des visages ne fait pas exception. Pour effectuer la détection des visages, nous collectons un ensemble de données d'images avec et sans visages, sur lesquelles nous entraînons un réseau convolutionnel avec une taille de fenêtre de 30 $\times$ 30 pixels et demandons au réseau de dire s'il y a un visage ou non. Une fois entraîné, nous appliquons le modèle à une nouvelle image et s'il y a des visages à peu près dans une fenêtre de 30 $\times$ 30 pixels, le ConvNet éclairera la sortie aux endroits correspondants. Cependant, deux problèmes se posent.
 
 
-- **Faux positifs** : Il y a de nombreuses façons pour qu'un morceau d'image ne soit pas un visage. Pendant la phase d’entraînement, le modèle peut ne pas les voir toutes (c'est-à-dire un ensemble pleinement représentatif.) Par conséquent, le modèle peut souffrir d'un grand nombre de faux positifs au moment du test.
+- **Faux positifs** : il y a de nombreuses façons pour qu'un morceau d'image ne soit pas un visage. Pendant la phase d’entraînement, le modèle peut ne pas les voir toutes (c'est-à-dire un ensemble pleinement représentatif). Par conséquent, le modèle peut souffrir d'un grand nombre de faux positifs au moment du test.
 
-- **Taille de visage différente**: Tous les visages ne sont pas de 30 $\times$ 30 pixels, donc les visages de tailles différentes peuvent ne pas être détectés. Une façon de traiter ce problème est de générer des versions multi-échelles de la même image. Le détecteur original détectera des visages d'environ 30 $\times$ 30 pixels. En appliquant une échelle sur l'image de facteur $\sqrt 2$, le modèle détectera les visages qui étaient plus petits dans l'image originale puisque ce qui était de taille 30 $\times$ 30 est maintenant d’environ 20 $\times$ 20 pixels. Pour détecter des visages plus grands, nous pouvons réduire la taille de l'image. Ce procédé est peu coûteux car la moitié des dépenses provient du traitement de l'image originale non réduite. La somme des dépenses de tous les autres réseaux combinés est à peu près la même que le traitement de l'image originale non mise à l'échelle. La taille du réseau est le carré de la taille de l'image d'un côté, donc si vous réduisez l'image par $2$, le réseau que vous devez faire fonctionner est plus petit d'un facteur $2$. Le coût global est donc de $1+1/2+1/4+1/8+1/16...$, ce qui donne 2. La réalisation d'un modèle multi-échelle ne fait que doubler le coût de calcul.
+- **Taille de visage différente**: tous les visages ne sont pas de 30 $\times$ 30 pixels, donc les visages de tailles différentes peuvent ne pas être détectés. Une façon de traiter ce problème est de générer des versions multi-échelles de la même image. Le détecteur original détectera des visages d'environ 30 $\times$ 30 pixels. En appliquant une échelle sur l'image de facteur $\sqrt 2$, le modèle détectera les visages qui étaient plus petits dans l'image originale puisque ce qui était de taille 30 $\times$ 30 est maintenant d’environ 20 $\times$ 20 pixels. Pour détecter des visages plus grands, nous pouvons réduire la taille de l'image. Ce procédé est peu coûteux car la moitié des dépenses provient du traitement de l'image originale non réduite. La somme des dépenses de tous les autres réseaux combinés est à peu près la même que le traitement de l'image originale non mise à l'échelle. La taille du réseau est le carré de la taille de l'image d'un côté, donc si vous réduisez l'image par $2$, le réseau que vous devez faire fonctionner est plus petit d'un facteur $2$. Le coût global est donc de $1+1/2+1/4+1/8+1/16...$, ce qui donne 2. La réalisation d'un modèle multi-échelle ne fait que doubler le coût de calcul.
 
 <!--
 ### A multi-scale face detection system
@@ -85,14 +85,14 @@ The maps shown in (Figure 3) indicate the scores of face detectors. This face de
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-1/8R3v0Dj.png" style="zoom : 30% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 2:</b> Système de détection des visages
+<b>Figure 2 :</b> Système de détection des visages
 </center>
 
 Les cartes présentées (figure 3) indiquent les scores des détecteurs de visages. Ce détecteur de visage reconnaît les visages qui ont une taille de 20 $\times$ 20 pixels. En échelle fine (échelle 3), il y a beaucoup de scores élevés mais pas très définitifs. Lorsque le facteur d'échelle augmente (échelle 6), nous voyons davantage de régions blanches groupées. Ces régions blanches représentent les visages détectés. Nous appliquons alors une suppression non maximale pour obtenir l'emplacement final du visage.
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-1/CQ8T00O.png" style="zoom : 40% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 3:</b> Scores du détecteur de visage pour différents facteurs d'échelle
+<b>Figure 3 :</b> Scores du détecteur de visage pour différents facteurs d'échelle
 </center>
 
 
@@ -113,7 +113,7 @@ Pour chaque région ayant un score élevé, il y a probablement un visage en des
 In the last section, we discussed how the model will run into a large number of false positives at test time as there are many ways for objects to appear similar to a face. No training set will include all the non-face objects that look like faces. We can mitigate this problem through negative mining. In negative mining, we create a negative dataset of non-face patches that the model detects as faces. The data is collected by running the model on inputs that are known to contain no faces. Then we retrain the detector using the negative dataset. We can repeat this process to increase the robustness of our model against false positives.
 -->
 
-### Negative mining
+### *Negative mining*
 
 Dans la dernière section, nous avons vu comment le modèle se heurtera à un grand nombre de faux positifs au moment du test, car les objets peuvent ressembler à un visage de nombreuses façons. Aucun ensemble d’entraînement ne comprendra tous les objets qui ne sont pas des visages et qui ressemblent à des visages. Nous pouvons atténuer ce problème grâce au negative mining. Nous créons un ensemble de données négatives de taches non faciales que le modèle détecte comme des visages. Les données sont collectées en exécutant le modèle sur des entrées dont on sait qu'elles ne contiennent pas de visages. Ensuite, nous recyclons le détecteur en utilisant l'ensemble de données négatives. Nous pouvons répéter ce processus pour augmenter la robustesse de notre modèle contre les faux positifs.
 
@@ -169,43 +169,43 @@ When trying to get to a GPS coordinate on the other side of a barrier, the robot
 Back in the 2000s, computation resources were restricted. The robot was able to process around 1 frame per second, which means it would not be able to detect a person that walks in its way for a whole second before being able to react. The solution for this limitation is a **Low-Cost Visual Odometry** model. It is not based on neural networks, has a vision of ~2.5m but reacts quickly.
 -->
 
-### [ConvNets pour la vision robotique adaptative à longue portée](https://www.youtube.com/watch?v=ycbMGyCPzvE&t=1669s)
+### [ConvNets pour la vision adaptative à longue portée de robots](https://www.youtube.com/watch?v=ycbMGyCPzvE&t=1669s)
 
 Dans ce projet, l'objectif était d'étiqueter des régions à partir d'images d'entrée afin qu'un robot puisse distinguer les routes des obstacles. Dans la figure, les régions vertes sont les zones sur lesquelles le robot peut rouler et les régions rouges sont les obstacles comme les herbes hautes. Pour entraîner le réseau à cette tâche, nous avons pris un patch de l'image et l'avons étiqueté manuellement comme étant traversable ou non (vert ou rouge). Nous entraînons ensuite le réseau convolutif sur les patchs en lui demandant de prédire la couleur du patch. Une fois que le système est suffisamment entraîné, il est appliqué à l'ensemble de l'image, en étiquetant toutes les régions de l'image en vert ou en rouge.
 
 <center>
-<img src="{{site.baseurl}}/images/week06/06-1/5mM7dTT.png" style="zoom : 40% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 4:</b> CNN pour la vision robotique adaptative à longue portée (programme LAGR de la DARPA 2005-2008)
+<img src="{{site.baseurl}}/images/week06/06-1/5mM7dTT.png" style="zoom: 40%; background-color:#DCDCDC;"/><br>
+<b>Figure 4 :</b> ConvNets pour la vision adaptative à longue portée de robots (programme LAGR de la DARPA 2005-2008)
 </center>
 
 Il y avait cinq catégories pour les prévisions : 1) super vert, 2) vert, 3) violet, 4) obstacle rouge, 5) super rouge : un obstacle certain.
 
 
-* **Étiquettes stéréo** (Figure 4, colonne 2)
- Les images sont captées par les 4 caméras du robot, qui sont regroupées en 2 paires de vision stéréo. En utilisant les distances connues entre les caméras des paires stéréoscopiques, les positions de chaque pixel dans l'espace 3D sont ensuite estimées en mesurant les distances relatives entre les pixels qui apparaissent dans les deux caméras d'une paire stéréoscopique. C'est le même processus que notre cerveau utilise pour estimer la distance des objets que nous voyons. En utilisant les informations de position estimées, un plan est ajusté au sol, et les pixels sont alors étiquetés en vert s'ils sont proches du sol et en rouge s'ils sont au-dessus.
+* **Étiquettes stéréo** (Figure 4, colonne 2) :  
+Les images sont captées par les 4 caméras du robot, qui sont regroupées en 2 paires de vision stéréo. En utilisant les distances connues entre les caméras des paires stéréoscopiques, les positions de chaque pixel dans l'espace 3D sont ensuite estimées en mesurant les distances relatives entre les pixels qui apparaissent dans les deux caméras d'une paire stéréoscopique. C'est le même processus que notre cerveau utilise pour estimer la distance des objets que nous voyons. En utilisant les informations de position estimées, un plan est ajusté au sol, et les pixels sont alors étiquetés en vert s'ils sont proches du sol et en rouge s'ils sont au-dessus.
 
-* **Limitations & Motivation pour les ConvNets** : La vision stéréo ne fonctionne que jusqu'à 10 mètres et la conduite d'un robot nécessite une vision à longue distance. Un ConvNet est cependant capable de détecter des objets à des distances beaucoup plus grandes, s'il est correctement entraîné.
+* **Limitations & Motivation pour les ConvNets** :  
+La vision stéréo ne fonctionne que jusqu'à 10 mètres et la conduite d'un robot nécessite une vision à longue distance. Un ConvNet est cependant capable de détecter des objets à des distances beaucoup plus grandes, s'il est correctement entraîné.
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-1/rcxY4Lb.png" style="zoom : 100% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 5:</b> Pyramide des images normalisées à distance, sans échelle
+<b>Figure 5 :</b> Pyramide des images normalisées à distance, sans échelle
 </center>
 
-* **Servie comme entrée modèle** : Un prétraitement important comprend la construction d'une pyramide d'images à distance normalisée et à échelle variable (figure 5). Elle est similaire à ce que nous avons fait plus tôt dans cette conférence lorsque nous avons essayé de détecter des visages à plusieurs échelles.
-
-* **Sorties du modèle** (Figure 4, colonne 3)
-
-Le modèle produit une étiquette pour chaque pixel de l'image **jusqu'à l'horizon**. Ce sont les sorties de classificateur d'un réseau convolutionnel multi-échelle.
+* **Servie comme entrée modèle** :  
+Un prétraitement important comprend la construction d'une pyramide d'images à distance normalisée et à échelle variable (figure 5). Elle est similaire à ce que nous avons fait plus tôt dans cette conférence lorsque nous avons essayé de détecter des visages à plusieurs échelles.
 
-* **Comment le modèle devient adaptatif** : Les robots ont un accès continu aux étiquettes stéréo, ce qui permet au réseau de se réentraîner et de s'adapter au nouvel environnement dans lequel il se trouve. Veuillez noter que seule la dernière couche du réseau sera entraînée à nouveau. Les couches précédentes sont formées entraînée en laboratoire et fixées.
+* **Sorties du modèle** (Figure 4, colonne 3) :  
+Le modèle produit une étiquette pour chaque pixel de l'image **jusqu'à l'horizon**. Ce sont les sorties de classifieur d'un réseau convolutionnel multi-échelle.
 
-* **Performances du système**
+* **Comment le modèle devient adaptatif** :  
+Les robots ont un accès continu aux étiquettes stéréo, ce qui permet au réseau de se réentraîner et de s'adapter au nouvel environnement dans lequel il se trouve. Veuillez noter que seule la dernière couche du réseau sera entraînée à nouveau. Les couches précédentes sont formées entraînée en laboratoire et fixées.
 
-En essayant d'obtenir une coordonnée GPS de l'autre côté d'une barrière, le robot a "vu" la barrière de loin et a planifié un itinéraire qui l'a évitée. Ceci grâce à la détection d'objets situés à une distance de 50 à 100 m.
+* **Performances du système** :
+En essayant d'obtenir une coordonnée GPS de l'autre côté d'une barrière, le robot a perçu la barrière de loin et a planifié un itinéraire qui l'a évitée. Ceci grâce à la détection d'objets situés à une distance de 50 à 100 m.
 
-* **Limitation**
-
-Dans les années 2000, les ressources de calcul étaient limitées. Le robot était capable de traiter environ une image par seconde, ce qui signifie qu'il ne pouvait pas détecter une personne qui se trouvait sur son chemin pendant une seconde entière avant de pouvoir réagir. La solution à cette limitation est un modèle d'"odométrie visuelle à faible coût". Il n'est pas basé sur les réseaux de neurones, a une vision de ~2,5m mais réagit rapidement.
+* **Limitation** :
+Dans les années 2000, les ressources de calcul étaient limitées. Le robot était capable de traiter environ une image par seconde, ce qui signifie qu'il ne pouvait pas détecter une personne qui se trouvait sur son chemin pendant une seconde entière avant de pouvoir réagir. La solution à cette limitation est un modèle d'odométrie visuelle à faible coût. Il n'est pas basé sur les réseaux de neurones, a une vision de ~2,5m mais réagit rapidement.
 
 
 
@@ -238,16 +238,19 @@ Now the largest effective size of content, which is from the 1/4 resized image,
 
 ### Analyse et étiquetage des scènes
 Dans cette tâche, le modèle produit une catégorie d'objets (bâtiments, voitures, ciel, etc.) pour chaque pixel. L'architecture est également multi-échelle (figure 6).
+
 <center>
 <img src="{{site.baseurl}}/images/week06/06-1/VpVbkl5.jpg" style="zoom : 30% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 6:</b> ConvNet multi-échelle pour l'analyse des scènes
+<b>Figure 6 :</b> ConvNet multi-échelle pour l'analyse des scènes
 </center>
+
 Remarquez que si nous projetons en arrière une sortie du ConvNet sur l'entrée, cela correspond à une fenêtre d'entrée de taille $46 \times 46$ sur l'image originale au bas de la pyramide de Laplace. Cela signifie que nous **utilisons le contexte des pixels $46 \times 46$ pour décider de la catégorie du pixel central**.
 Cependant, parfois, la taille de ce contexte n'est pas suffisante pour déterminer la catégorie des objets plus grands.
 **L'approche multi-échelle permet une vision plus large en fournissant des images supplémentaires redimensionnées comme entrées** :
 1. Prendre la même image, la réduire d'un facteur 2 et d'un facteur 4, séparément.
 2. Ces deux images redimensionnées supplémentaires sont envoyées au **même ConvNet** (mêmes poids, mêmes noyaux) et nous obtenons deux autres ensembles de caractéristiques de niveau 2.
 3. **Échantillonnez** ces caractéristiques de façon à ce qu'elles aient la même taille que les caractéristiques de niveau 2 de l'image originale.
-4. **Empilez** les trois ensembles de caractéristiques (suréchantillonnées) et envoyez-les à un classificateur.
+4. **Empilez** les trois ensembles de caractéristiques (suréchantillonnées) et envoyez-les à un classifieur.
+5. 
 Maintenant, la plus grande taille effective du contenu, qui provient de l'image redimensionnée à 1/4, est de $184\times 184 \(46\times 4=184)$.
-**Performance** : Sans post-traitement et en fonctionnant image par image, le modèle fonctionne très rapidement, même sur du matériel standard. Il a une taille assez réduite de données d'entraînement (2k~3k), mais les résultats sont toujours très performants.
+**Performance** : sans post-traitement et en fonctionnant image par image, le modèle fonctionne très rapidement, même sur du matériel standard. Il a une taille assez réduite de données d'entraînement (2k~3k), mais les résultats sont toujours très performants.
diff --git a/docs/fr/week06/06-2.md b/docs/fr/week06/06-2.md
index 957e59149..d0629e6da 100644
--- a/docs/fr/week06/06-2.md
+++ b/docs/fr/week06/06-2.md
@@ -46,7 +46,7 @@ Figure 1. Recurrent Neural Network with roll
  - $\text{Dec}(z(t))$: decoder that generates an output
 -->
 
-## Réseaux récurrents (RNN)
+## Réseaux récurrents (RNNs)
 
 Dans un réseau neuronal convolutif, le graphe ou les interconnexions entre les modules ne peuvent pas avoir de boucles. Il existe au moins un ordre partiel entre les modules, de sorte que les entrées sont disponibles lorsque nous calculons les sorties.
 
@@ -54,7 +54,7 @@ Comme le montre la figure 1, il existe des boucles dans les réseaux neuronaux r
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-2/RNN_rolled.png" /><br>
-Figure 1. Réseau neuronal récurrent enroulé
+Figure 1 : Réseau neuronal récurrent enroulé
 </center>
 
  - $x(t)$ : entrée qui varie dans le temps
@@ -63,7 +63,7 @@ Figure 1. Réseau neuronal récurrent enroulé
  - $w$ : paramètres pouvant être entraînés
  - $z(t-1)$ : état caché précédent, qui est la sortie du pas de temps précédent
  - $z(t)$ : état caché actuel
- - $g$ : fonction qui peut être un réseau de neurones compliqué ; l'une des entrées est $z(t-1)$ qui est la sortie du pas de temps précédent
+ - $g$ : fonction qui peut être un réseau de neurones compliqué. L'une des entrées est $z(t-1)$ qui est la sortie du pas de temps précédent
  - $\text{Dec}(z(t))$ : décodeur qui génère une sortie
 
 
@@ -112,27 +112,24 @@ Figure 2. Réseaux récurrents dépliés
 
 Dans la figure 2, l'entrée est $x_1, x_2, x_3$.
 
-Au temps t=0, l'entrée $x(0)$ est passée à l’encodeur et celui-ci génère la représentation $h(x(0)) = \text{Enc}(x(0))$ puis la passe à G pour générer l'état caché $z(0) = G(h_0, z', w)$. À $t = 0$, $z'$ dans $G$ peut être initialisé comme $0$ ou initialisé de façon aléatoire. $z(0)$ est passé au décodeur pour générer une sortie et également au pas de temps suivant.
+Au temps $t = 0$, l'entrée $x(0)$ est passée à l’encodeur et celui-ci génère la représentation $h(x(0)) = \text{Enc}(x(0))$ puis la passe à G pour générer l'état caché $z(0) = G(h_0, z', w)$. À $t = 0$, $z'$ dans $G$ peut être initialisé comme $0$ ou initialisé de façon aléatoire. $z(0)$ est passé au décodeur pour générer une sortie et également au pas de temps suivant.
 
 Comme il n'y a pas de boucles dans ce réseau nous pouvons mettre en œuvre la rétropropagation.
 
 La figure 2 montre un réseau avec une caractéristique particulière : chaque bloc partage les mêmes poids. Trois encodeurs, décodeurs et fonctions G ont respectivement les mêmes poids sur différents pas de temps.
 
-Malheureusement, la BPTT (Rétropropagation à travers le temps) ne fonctionne pas aussi bien dans la forme naïve du RNN.
-
-Problèmes avec les RNN :
+Malheureusement, la rétropropagation à travers le temps (BPTT pour *Backpropagation through time*) ne fonctionne pas aussi bien dans la forme naïve du RNN.
 
+Problèmes avec les RNNs :
 1. Disparition du gradient
    - Dans une longue séquence, les gradients sont multipliés par la matrice de poids (transposée) à chaque pas de temps. S'il y a de petites valeurs dans la matrice de poids, la norme des gradients devient de plus en plus petite de manière exponentielle.
 2. Explosion du gradient
    - Si nous avons une grande matrice de poids et que la non-linéarité dans la couche récurrente n'est pas saturée, les gradients vont exploser. Les poids divergeront à l'étape de mise à jour. Il se peut que nous devions utiliser un taux d'apprentissage minuscule pour que la descente des gradients fonctionne.
 
-L'une des raisons d'utiliser les RNN est l'avantage de se souvenir des informations du passé. Cependant, il pourrait ne pas mémoriser les informations d'il y a longtemps.
-
+L'une des raisons d'utiliser les RNNs est l'avantage de se souvenir des informations du passé. Cependant, il pourrait ne pas mémoriser les informations d'il y a longtemps.
 
-Un exemple qui a le problème de la disparition des gradients :
 
-L'entrée est constituée des caractères d'un programme en langage C. Le système indiquera s'il s'agit d'un programme syntaxiquement correct. Un programme syntaxiquement correct doit avoir un nombre valide d'accolades et de parenthèses. Ainsi, le réseau doit se souvenir du nombre de parenthèses et d'accolades ouvertes à vérifier, et si nous les avons toutes fermées. Le réseau doit stocker ces informations dans des états cachés comme un compteur.  Cependant, en raison de la disparition des gradients, il ne parviendra pas à conserver ces informations dans un programme long.
+Un exemple du problème de la disparition des gradients. Considérons une entrée constituée des caractères d'un programme en langage C. Le système indiquera s'il s'agit d'un programme syntaxiquement correct. Un programme syntaxiquement correct doit avoir un nombre valide d'accolades et de parenthèses. Ainsi, le réseau doit se souvenir du nombre de parenthèses et d'accolades ouvertes à vérifier, et si nous les avons toutes fermées. Le réseau doit stocker ces informations dans des états cachés comme un compteur.  Cependant, en raison de la disparition des gradients, il ne parviendra pas à conserver ces informations dans un programme long.
 
 
 <!--
@@ -144,11 +141,11 @@ L'entrée est constituée des caractères d'un programme en langage C. Le systè
    Initialize the weight matrices to preserve the norm to some extent. For example, orthogonal initialization initializes the weight matrix as a random orthogonal matrix.
 -->
 
-## Astuces pour les RNN
+## Astuces pour les RNNs
 
-- couper les gradients :  (éviter l’explosion)
+- couper les gradients pour éviter l’explosion :
    Écrasez les gradients lorsqu'ils deviennent trop importants.
-- Initialisation (commencer à droite évite l'explosion/la disparition)
+- jouer sur l'initialisation (commencer à droite évite l'explosion/la disparition) :
    Initialiser les matrices de poids pour préserver la norme dans une certaine mesure. Par exemple, l'initialisation orthogonale initialise la matrice de poids comme une matrice orthogonale aléatoire.
 
 <!--
@@ -303,13 +300,13 @@ To be specific, $z_t$ is a gating vector that determines how much of the past in
 The reset gate $r_t$ is used to decide how much of the past information to forget. In the new memory content $\phi_h(W_hx_t + U_h(r_t\odot h_{t-1}) + b_h)$, if the coefficient in $r_t$ is 0, then it stores none of the information from the past. If at the same time $z_t$ is 0, then the system is completely reset since $h_t$ would only look at the input.
 -->
 
-## [Gated Recurrent Units (GRU)](https://www.youtube.com/watch?v=ycbMGyCPzvE&t=3549s)
+## Les [Gated Recurrent Units (GRUs)](https://www.youtube.com/watch?v=ycbMGyCPzvE&t=3549s)
 
-Comme mentionné ci-dessus, le RNN souffre de la disparition/explosion des gradients et ne se souvient pas des états pendant très longtemps. Les GRU, [Cho, 2014](https://arxiv.org/abs/1406.1078), sont une application de modules multiplicatifs qui tente de résoudre ces problèmes. C'est un exemple de réseau récurrent avec mémoire (un autre est LSTM). La structure d'une unité GRU est présentée ci-dessous :
+Comme mentionné ci-dessus, le RNN souffre de la disparition/explosion des gradients et ne se souvient pas des états pendant très longtemps. Les GRUS, [Cho et al. (2014)](https://arxiv.org/abs/1406.1078), sont une application de modules multiplicatifs qui tente de résoudre ces problèmes. C'est un exemple de réseau récurrent avec mémoire. La structure d'une unité GRU est présentée ci-dessous :
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-2/GRU.png" height="300px" style="background-color:#226 ;"/><br>
-Figure 3. Gated Recurrent Unit
+Figure 3 : Gated Recurrent Unit
 </center>
 
 $$
@@ -320,7 +317,7 @@ h_t = z_t\odot h_{t-1} + (1- z_t)\odot\phi_h(W_hx_t + U_h(r_t\odot h_{t-1}) + b_
 \end{array}
 $$
 
-où $\odot$ indique une multiplication par élément (produit Hadamard), $x_t$ est le vecteur d'entrée, $h_t$ est le vecteur de sortie, $z_t$ est le vecteur de mise à jour, $r_t$ est le vecteur de réinitialisation, $\phi_h$ est un tanh hyperbolique, et $W$,$U$,$b$ sont des paramètres pouvant être appris.
+où $\odot$ indique une multiplication par élément (produit Hadamard), $x_t$ est le vecteur d'entrée, $h_t$ est le vecteur de sortie, $z_t$ est le vecteur de mise à jour, $r_t$ est le vecteur de réinitialisation, $\phi_h$ est une tanh, et $W$,$U$,$b$ sont des paramètres pouvant être appris.
 
 Pour être précis, $z_t$ est un vecteur de porte qui détermine quelle part des informations passées doit être transmise pour la suite. Il applique une fonction sigmoïde à la somme de deux couches linéaires et un biais sur l'entrée $x_t$ et l'état précédent $h_{t-1}$.  $z_t$ contient des coefficients entre 0 et 1 résultant de l'application de la fonction sigmoïde. L'état final de sortie $h_t$ est une combinaison convexe de $h_{t-1}$ et de $\phi_h(W_hx_t + U_h(r_t\odot h_{t-1}) + b_h)$ via $z_t$. Si le coefficient est égal à 1, la sortie de l'unité actuelle n'est qu'une copie de l'état précédent et ignore l'entrée (ce qui est le comportement par défaut). S'il est inférieur à 1, il prend en compte de nouvelles informations provenant de l'entrée.
 
@@ -328,8 +325,6 @@ La porte de réinitialisation $r_t$ est utilisée pour décider quelle quantité
 
 
 
-
-
 <!--
 ## LSTM (Long Short-Term Memory)
 
@@ -358,13 +353,13 @@ Though LSTMs are widely used in NLP, their popularity is decreasing. For example
 -->
 
 
-## LSTM (Long Short-Term Memory)
+## Les LSTMs (*Long Short-Term Memory*)
 
-GRU est en fait une version simplifiée de LSTM qui est sortie beaucoup plus tôt, [Hochreiter, Schmidhuber, 1997](https://www.bioinf.jku.at/publications/older/2604.pdf). En constituant des cellules de mémoire pour préserver les informations passées, les LSTM visent également à résoudre les problèmes de perte de mémoire à long terme dans les RNN. La structure des LSTM est présentée ci-dessous :
+Les GRUs sont en fait une version simplifiée des LSTMs qui ont été conçues beaucoup plus tôt, [Hochreiter, Schmidhuber, 1997](https://www.bioinf.jku.at/publications/older/2604.pdf). En constituant des cellules de mémoire pour préserver les informations passées, les LSTMs visent également à résoudre les problèmes de perte de mémoire à long terme dans les RNNs. La structure des LSTMs est présentée ci-dessous :
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-2/LSTM.png" height="300px"/><br>
-Figure 4. LSTM
+Figure 4 : Long Short-Term Memory
 </center>
 
 
@@ -382,7 +377,7 @@ où $\odot$ indique une multiplication par élément, $x_t\in\mathbb{R}^a$ est u
 
 Une unité LSTM utilise un état de cellule $c_t$ pour transmettre l'information. Elle régule la manière dont l'information est préservée ou retirée de l'état de la cellule par des structures appelées "gates" (portes). La porte d'oubli $f_t$ décide de la quantité d'informations que nous voulons conserver de l'état de cellule précédent $c_{t-1}$ en regardant l'entrée actuelle et l'état caché précédent. Elle produit un nombre entre 0 et 1 comme coefficient de $c_{t-1}$.  $\tanh(W_cx_t + U_ch_{t-1} + b_c)$ calcule un nouveau candidat pour mettre à jour l'état de la cellule, et comme la porte d'oubli, la porte d'entrée $i_t$ décide de la part de mise à jour à appliquer. Enfin, la sortie $h_t$ sera basée sur l'état de la cellule $c_t$, mais passera par une $\tanh$ puis sera filtrée par la porte de sortie $o_t$.
 
-Bien que les LSTM soient largement utilisés en NLP, leur popularité est en baisse. Par exemple, la reconnaissance vocale se dirige vers l'utilisation de ConvNets temporels, et les autres utilisations se dirigent vers l'utilisation de transformers.
+Bien que les LSTMs soient largement utilisés en NLP, leur popularité est en baisse. Par exemple, la reconnaissance vocale se dirige vers l'utilisation de ConvNets temporels, et les autres utilisations se dirigent vers l'utilisation de transformers.
 
 
 <!--
@@ -402,16 +397,16 @@ This architecture is not satisfying in two ways: First, the entire meaning of th
 
 ## Modèle de séquence à séquence
 
-L'approche proposée par [Sutskever NIPS 2014](https://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf) est le premier système de traduction automatique neuronale à avoir des performances comparables aux approches classiques. Elle utilise une architecture d'encodeur-décodeur où l'encodeur et le décodeur sont tous deux des LSTM multicouches.
+L'approche proposée par [Sutskever NIPS 2014](https://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf) est le premier système de traduction automatique neuronale à avoir des performances comparables aux approches classiques. Elle utilise une architecture d'encodeur-décodeur où l'encodeur et le décodeur sont tous deux des LSTMs multicouches.
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-2/Seq2Seq.png" height="300px" /><br>
-Figure 5. Seq2Seq
+Figure 5 : Seq2Seq
 </center>
 
-Chaque cellule de la figure est un LSTM. Pour l’encodeur (la partie de gauche), le nombre de pas de temps est égal à la longueur de la phrase à traduire. À chaque pas, il y a une pile de LSTM (quatre couches dans le papier) où l'état caché du LSTM précédent est introduit dans le suivant. La dernière couche du dernier pas de temps produit un vecteur qui représente le sens de la phrase entière, qui est ensuite introduit dans un autre LSTM multicouche (le décodeur), qui produit des mots dans la langue cible. Dans le décodeur, le texte est généré de manière séquentielle. Chaque étape produit un mot, qui est introduit dans l'étape de temps suivante.
+Chaque cellule de la figure est une LSTM. Pour l’encodeur (la partie de gauche), le nombre de pas de temps est égal à la longueur de la phrase à traduire. À chaque pas, il y a une pile de LSTM (quatre couches dans le papier) où l'état caché de la LSTM précédent est introduit dans le suivant. La dernière couche du dernier pas de temps produit un vecteur qui représente le sens de la phrase entière, qui est ensuite introduit dans une autre LSTM multicouche (le décodeur), qui produit des mots dans la langue cible. Dans le décodeur, le texte est généré de manière séquentielle. Chaque étape produit un mot, qui est introduit dans l'étape de temps suivante.
 
-Cette architecture n'est pas satisfaisante à deux égards. Premièrement, le sens entier de la phrase doit être comprimé dans l'état caché entre l’encodeur et le décodeur. Deuxièmement, les LSTM ne préservent en fait pas l'information pendant plus de 20 mots environ. La solution à ces problèmes est appelée un Bi-LSTM, qui fait fonctionner deux LSTM dans des directions opposées. Dans un Bi-LSTM, la signification est encodée dans deux vecteurs, l'un généré par l'exécution du LSTM de gauche à droite, et l'autre de droite à gauche.  Cela permet de doubler la longueur de la phrase sans perdre trop d'informations.
+Cette architecture n'est pas satisfaisante à deux égards. Premièrement, le sens entier de la phrase doit être comprimé dans l'état caché entre l’encodeur et le décodeur. Deuxièmement, les LSTMs ne préservent en fait pas l'information pendant plus de 20 mots environ. La solution à ces problèmes est appelée un Bi-LSTM, qui fait fonctionner deux LSTMs dans des directions opposées. Dans un Bi-LSTM, la signification est encodée dans deux vecteurs, l'un généré par l'exécution de la LSTM de gauche à droite, et l'autre de droite à gauche.  Cela permet de doubler la longueur de la phrase sans perdre trop d'informations.
 
 <!--
 ## Seq2seq with Attention
@@ -434,7 +429,7 @@ Le succès de l'approche ci-dessus a été de courte durée. Un autre document d
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-2/Seq2SeqwAttention.png" height="300px" /><br>
-Figure 6. Seq2Seq avec attention
+Figure 6 : Seq2Seq avec attention
 </center>
 
 Avec l’attention, pour produire le mot courant à chaque pas de temps, nous devons d'abord décider sur quelles représentations cachées des mots de la phrase d'entrée nous devons nous concentrer. Essentiellement, un réseau apprendra à évaluer dans quelle mesure chaque entrée codée correspond à la sortie actuelle du décodeur. Ces scores sont normalisés par une fonction softmax, puis les coefficients sont utilisés pour calculer une somme pondérée des états cachés dans le codeur à différents pas de temps. En ajustant les pondérations, le système peut ajuster la zone des entrées sur laquelle se concentrer. La magie de ce mécanisme est que le réseau utilisé pour calculer les coefficients peut être entraîné par rétropropagation. Il n'est pas nécessaire de les construire à la main !
@@ -491,7 +486,7 @@ Pour un réseau mémoire, il y a une entrée au réseau, $x$ (pensez à cela com
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-2/MemoryNetwork1.png" height="300px"/><br>
-Figure 7. Réseau mémoire
+Figure 7 : Réseau mémoire
 </center>
 
 Si l'une des clés (par exemple $k_i$) correspond exactement à $x$, alors le coefficient associé à cette clé sera très proche de un. La sortie du système sera donc essentiellement $v_i$.
@@ -512,9 +507,8 @@ Dans un réseau mémoire, il y a un réseau neuronal qui prend une entrée et pr
 <img src="{{site.baseurl}}/images/week06/06-2/MemoryNetwork2.png" height="200px" />
 <img src="{{site.baseurl}}/images/week06/06-2/MemoryNetwork3.png" height="200px" /> <br>
 
-Figure 8. Comparaison entre le réseau à mémoire et l'ordinateur (Photo de <a href='https://www.khanacademy.org/computing/ap-computer-science-principles/computers-101/computer--components/a/computer-memory'>Khan Acadamy</a>)
+Figure 8 : Comparaison entre le réseau à mémoire et l'ordinateur (Image de <a href='https://www.khanacademy.org/computing/ap-computer-science-principles/computers-101/computer--components/a/computer-memory'>Khan Acadamy</a>)
 </center>
 Il y a des gens qui imaginent qu'on peut en fait construire des **ordinateurs différentiables** à partir de cela. Un exemple est la [Neural Turing Machine](https://arxiv.org/abs/1410.5401) de DeepMind, qui a été rendue publique trois jours après la publication de l'article de Facebook sur arXiv.
 
 L'idée est de comparer des entrées à des clés, de générer des coefficients et de produire des valeurs, ce que fait basiquement un Transformer.  Un Transformer est essentiellement un réseau de neurones dans lequel chaque groupe de neurones est l'un de ces réseaux.
-
diff --git a/docs/fr/week06/06-3.md b/docs/fr/week06/06-3.md
index 68a847643..c84a1fee4 100644
--- a/docs/fr/week06/06-3.md
+++ b/docs/fr/week06/06-3.md
@@ -15,7 +15,7 @@ translator: Loïck Bourdois
 RNN is one type of architecture that we can use to deal with sequences of data. What is a sequence? From the CNN lesson, we learned that a signal can be either 1D, 2D or 3D depending on the domain. The domain is defined by what you are mapping from and what you are mapping to. Handling sequential data is basically dealing with 1D data since the domain is the temporal axis. Nevertheless, you can also use RNN to deal with 2D data, where you have two directions.
 -->
 
-## [Aperçu](https://www.youtube.com/watch?v=8cAffg2jaT0&t=21s)
+## [Vue d'ensemble](https://www.youtube.com/watch?v=8cAffg2jaT0&t=21s)
 
 Le RNN est un type d'architecture que nous pouvons utiliser pour traiter des séquences de données. Qu'est-ce qu'une séquence ? La leçon sur le RNN nous a appris qu'un signal peut être soit 1D, 2D ou 3D selon le domaine. Le domaine est défini par le point de départ et le point d'arrivée de la cartographie. Le traitement des données séquentielles concerne essentiellement les données 1D puisque le domaine est l'axe temporel. Néanmoins, vous pouvez également utiliser le RNN pour traiter des données 2D, où vous avez deux directions.
 
@@ -51,31 +51,31 @@ Yann's diagram adds these shapes between neurons to represent the mapping betwee
 -->
 
 
-### Vanilla vs RNN
+### Architecture standard vs RNN
 
-La figure 1 est un diagramme de réseau de neurones vanilla avec trois couches. "Vanilla" est un terme américain qui signifie "simple". La bulle rose est le vecteur d'entrée x, au centre se trouve la couche cachée en vert, et la dernière couche bleue est la sortie. En utilisant un exemple de l'électronique numérique à droite, c'est comme une logique combinatoire, où le courant de sortie ne dépend que du courant d'entrée.
+La figure 1 est un diagramme de réseau de neurones vanilla avec trois couches. « Vanilla » est un terme américain signifiant « standard / de base ». La bulle rose est le vecteur d'entrée $x$, au centre se trouve la couche cachée en vert, et la dernière couche bleue est la sortie. En utilisant un exemple de l'électronique numérique à droite, c'est comme une logique combinatoire, où le courant de sortie ne dépend que du courant d'entrée.
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/vanilla.png" style="zoom: 40%; background-color:#DCDCDC;"/><br>
-<b>Figure 1:</b> Architecture vanilla
+<b>Figure 1 :</b> Architecture standard
 </center>
 
 
-Contrairement à un réseau neuronal vanilla, dans les réseaux neuronaux récurrents la sortie de courant dépend non seulement de l'entrée mais aussi de l'état du système, comme le montre la figure 2. C'est comme une logique séquentielle dans l'électronique numérique, où la sortie dépend également d'une "bascule" (une unité de mémoire de base dans l'électronique numérique). La principale différence ici est donc que la sortie d'un réseau neuronal vanilla ne dépend que de l'entrée, tandis que celle d'un RNN dépend également de l'état du système.
+Contrairement à un réseau neuronal standard, dans les réseaux neuronaux récurrents la sortie de courant dépend non seulement de l'entrée mais aussi de l'état du système, comme le montre la figure 2. C'est comme une logique séquentielle dans l'électronique numérique, où la sortie dépend également d'un intérupteur (une unité de mémoire de base dans l'électronique numérique). La principale différence ici est donc que la sortie d'un réseau neuronal standard ne dépend que de l'entrée, tandis que celle d'un RNN dépend également de l'état du système.
 
 <center>
-<img src="{{site.baseurl}}/images/week06/06-3/rnn.png" style="zoom: 40%; background-color:#DCDCDC;"/><br> <b>Figure 2:</b> Architecture RNN
+<img src="{{site.baseurl}}/images/week06/06-3/rnn.png" style="zoom: 40%; background-color:#DCDCDC;"/><br> <b>Figure 2 :</b> Architecture RNN
 </center>
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/basic_neural_net.png" style="zoom: 40%; background-color:#DCDCDC;"/><br> 
-<b>Figure 3:</b> Architecture d’un réseau de neurones de base
+<b>Figure 3 :</b> Architecture d’un réseau de neurones de base
 </center>
 
-Le diagramme de Yann ajoute ces formes entre les neurones pour représenter le mapping entre un tenseur et un autre (d'un vecteur à un autre). Par exemple, dans la figure 3, le vecteur d'entrée x va correspondre à travers cet élément supplémentaire aux représentations cachées h. Cet élément est en fait une transformation affine, c'est-à-dire une rotation plus une distorsion. Ensuite, par une autre transformation, nous passons de la couche cachée à la sortie finale. De même, dans le diagramme RNN, vous pouvez avoir les mêmes éléments supplémentaires entre les neurones.
+Le diagramme de Yann ajoute ces formes entre les neurones pour représenter l'association entre un tenseur et un autre (d'un vecteur à un autre). Par exemple, dans la figure 3, le vecteur d'entrée x va correspondre à travers cet élément supplémentaire aux représentations cachées h. Cet élément est en fait une transformation affine, c'est-à-dire une rotation plus une distorsion. Ensuite, par une autre transformation, nous passons de la couche cachée à la sortie finale. De même, dans le diagramme RNN, vous pouvez avoir les mêmes éléments supplémentaires entre les neurones.
 
 <center>
-<img src="{{site.baseurl}}/images/week06/06-3/yann_rnn.png" style="zoom: 40%; background-color:#DCDCDC;"/><br> <b>Figure 4:</b> L'architecture RNN de Yann
+<img src="{{site.baseurl}}/images/week06/06-3/yann_rnn.png" style="zoom: 40%; background-color:#DCDCDC;"/><br> <b>Figure 4 :</b> L'architecture RNN de Yann
 </center>
 
 
@@ -168,17 +168,17 @@ The fourth and final case is sequence to sequence. In this network, as you start
 
 ### Quatre types d'architectures RNN et des exemples
 
-Le premier cas est celui du “vector to sequence” (un vecteur en entrée du réseau et on obtient une sequence en sortie de cleui-ci). L'entrée est une bulle et il y aura ensuite des évolutions de l'état interne du système annotées comme ces bulles vertes. À mesure que l'état du système évolue, il y aura une sortie spécifique à chaque étape.
+Le premier cas est celui du « vector to sequence » (un vecteur en entrée du réseau et on obtient une sequence en sortie de cleui-ci). L'entrée est une bulle et il y aura ensuite des évolutions de l'état interne du système annotées comme ces bulles vertes. À mesure que l'état du système évolue, il y aura une sortie spécifique à chaque étape.
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/vec_seq.png" style="zoom: 40%; background-color:#DCDCDC;"/><br>
-<b>Figure 5:</b> Vec to Seq
+<b>Figure 5 :</b> Vec to Seq
 </center>
 
-Un exemple de ce type d'architecture est d'avoir comme entrée une image et comme sortie une séquence de mots représentant les descriptions de l'image d'entrée. Pour expliquer l'utilisation de la figure 6, chaque bulle bleue ici peut être un index dans un dictionnaire de mots. Par exemple, si la sortie est la phrase "This is a yellow school bus" ("C’est un bus scolaire jaune"). Vous obtenez d'abord l'index du mot "This", puis l'index du mot "is", et ainsi de suite. Certains des résultats de ce réseau sont présentés ci-dessous. Par exemple, dans la première colonne, la description concernant la dernière image est "A herd of elephants walking across a dry grass field" (Un troupeau d'éléphants marchant sur un champ d'herbe sèche"), ce qui est très bien précisé. Ensuite, dans la deuxième colonne, la première image donne "Two dogs play in the grass" ("Deux chiens jouent dans l'herbe"), alors qu'il s'agit en fait de trois chiens. Dans la dernière colonne, on trouve les exemples les plus erronés comme "A yellow school bus parked in a parking lot" ("Un bus scolaire jaune garé dans un parking"). En général, ces résultats montrent que ce réseau peut échouer de manière assez radicale et être parfois performant. C'est le cas d'un vecteur d'entrée, qui est la représentation d'une image, à une séquence de symboles, qui sont par exemple des caractères ou des mots composant les phrases. Ce type d'architecture est appelé un réseau autorégressif. Un réseau autorégressif est un réseau qui donne une sortie lorsque vous alimentez comme entrée la sortie précédente.
+Un exemple de ce type d'architecture est d'avoir comme entrée une image et comme sortie une séquence de mots représentant les descriptions de l'image d'entrée. Pour expliquer l'utilisation de la figure 6, chaque bulle bleue ici peut être un index dans un dictionnaire de mots. Par exemple, si la sortie est la phrase « *This is a yellow school bus* » (« C’est un bus scolaire jaune »). Vous obtenez d'abord l'index du mot « *This* », puis l'index du mot « *is* », et ainsi de suite. Certains des résultats de ce réseau sont présentés ci-dessous. Par exemple, dans la première colonne, la description concernant la dernière image est « *A herd of elephants walking across a dry grass field* » (« Un troupeau d'éléphants marchant sur un champ d'herbe sèche »), ce qui est très bien précisé. Ensuite, dans la deuxième colonne, la première image donne « *Two dogs play in the grass* » (« Deux chiens jouent dans l'herbe »), alors qu'il s'agit en fait de trois chiens. Dans la dernière colonne, on trouve les exemples les plus erronés comme « *A yellow school bus parked in a parking lot* » (« Un bus scolaire jaune garé dans un parking »). En général, ces résultats montrent que ce réseau peut échouer de manière assez radicale et être parfois performant. C'est le cas d'un vecteur d'entrée, qui est la représentation d'une image, à une séquence de symboles, qui sont par exemple des caractères ou des mots composant les phrases. Ce type d'architecture est appelé un réseau autorégressif. Un réseau autorégressif est un réseau qui donne une sortie lorsque vous alimentez comme entrée la sortie précédente.
 
 <center>
-<img src="{{site.baseurl}}/images/week06/06-3/image_to_text_vec2seq.png" style="zoom: 40%; background-color:#DCDCDC;"/><br><b>Figure 6:</b> Exemple de vec2seq : De l'image au texte
+<img src="{{site.baseurl}}/images/week06/06-3/image_to_text_vec2seq.png" style="zoom: 40%; background-color:#DCDCDC;"/><br><b>Figure 6 :</b> Exemple de vec2seq : De l'image au texte
 </center>
 
 
@@ -186,59 +186,59 @@ Le second type est le “sequence to vector”. Ce réseau continue à alimenter
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/seq2vec.png" style="zoom: 40%; background-color:#DCDCDC;"/><br>
-<b>Figure 7:</b> Seq to Vec
+<b>Figure 7 :</b> Seq to Vec
 </center>
 
 <center><img src="{{site.baseurl}}/images/week06/06-3/second_1.png" style="zoom : 40% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 8:</b> Lignes d'entrée des codes Python
+<b>Figure 8 :</b> Lignes d'entrée des codes Python
 </center>
 
 Le réseau sera alors en mesure de produire la solution correcte de ce programme. Un autre programme plus compliqué comme celui-ci :
 
 <center>
-<img src="{{site.baseurl}}/images/week06/06-3/second_2.png" style="zoom: 40%; background-color:#DCDCDC;"/><br><b>Figure 9:</b> Lignes d'entrée des codes Python dans un cas plus complet
+<img src="{{site.baseurl}}/images/week06/06-3/second_2.png" style="zoom: 40%; background-color:#DCDCDC;"/><br><b>Figure 9 :</b> Lignes d'entrée des codes Python dans un cas plus complet
 </center>
 
 La sortie devrait alors être 12184. Ces deux exemples montrent que l'on peut entraîner un réseau de neurones à effectuer ce genre d'opération. Il suffit d'alimenter une séquence de symboles et de faire en sorte que la sortie finale soit une valeur spécifique.
 
 
 
-La troisième est "sequence to vector to sequence", comme le montre la figure 10. Cette architecture était autrefois la méthode standard pour effectuer les traductions linguistiques. Vous commencez par une séquence de symboles illustrée ici en rose. Ensuite, tout est condensé dans ce h final, qui représente un concept. Par exemple, nous pouvons avoir une phrase comme entrée et la comprimer temporairement dans un vecteur, qui représente le sens et le message à transmettre. Ensuite, après avoir obtenu ce sens dans n'importe quelle représentation, le réseau le déroule dans une autre langue. Par exemple, "Today I'm very happy" dans une séquence de mots en anglais peut être traduit en italien ou en chinois. En général, le réseau reçoit une sorte d'encodage en entrée et le transforme en une représentation compressée. Enfin, il effectue le décodage en donnant la même version compressée. Ces derniers temps, nous avons vu des réseaux comme Transformers, que nous aborderons dans la prochaine leçon, surpasser cette méthode dans les tâches de traduction. Ce type d'architecture était à la pointe de la technologie il y a environ deux ans (2018).
+La troisième est "sequence to vector to sequence", comme le montre la figure 10. Cette architecture était autrefois la méthode standard pour effectuer les traductions linguistiques. Vous commencez par une séquence de symboles illustrée ici en rose. Ensuite, tout est condensé dans ce h final, qui représente un concept. Par exemple, nous pouvons avoir une phrase comme entrée et la comprimer temporairement dans un vecteur, qui représente le sens et le message à transmettre. Ensuite, après avoir obtenu ce sens dans n'importe quelle représentation, le réseau le déroule dans une autre langue. Par exemple, « *Today I'm very happy* » dans une séquence de mots en anglais peut être traduit en italien ou en chinois. En général, le réseau reçoit une sorte d'encodage en entrée et le transforme en une représentation compressée. Enfin, il effectue le décodage en donnant la même version compressée. Ces derniers temps, nous avons vu des réseaux comme Transformers, que nous aborderons dans la prochaine leçon, surpasser cette méthode dans les tâches de traduction. Ce type d'architecture était à la pointe de la technologie il y a environ deux ans (2018).
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/seq2vec2seq.png" style="zoom: 40%; background-color:#DCDCDC;"/><br>
-<b>Figure 10:</b> Seq to Vec to Seq
+<b>Figure 10 :</b> Seq to Vec to Seq
 </center>
 
 Si vous faites une ACP sur l'espace latent, vous aurez les mots regroupés par sémantique comme indiqué dans ce graphique.
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/third_1.png" style="zoom : 40% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 11:</b> Mots groupés par sémantique après l'ACP
+<b>Figure 11 :</b> Mots groupés par sémantique après une ACP
 </center>
 
 Si nous faisons un zoom, nous verrons qu'au même endroit, il y a tous les mois, comme par exemple janvier et novembre.
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/third_2.png" style="zoom : 40% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 12:</b> Zoom sur les groupes de mots
+<b>Figure 12 :</b> Zoom sur les groupes de mots
 </center>
 
-Si vous vous concentrez sur une autre région, vous obtenez des phrases comme "il y a quelques jours" ,"les prochains mois", etc.
+Si vous vous concentrez sur une autre région, vous obtenez des phrases comme « il y a quelques jours », « les prochains mois », etc.
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/third_3.png" style="zoom : 40% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 13:</b> Groupes de mots dans une autre région
+<b>Figure 13 :</b> Groupes de mots dans une autre région
 </center>
 
 Ces exemples montrent que les différents lieux ont des significations communes spécifiques.
 
-La figure 14 montre comment l’entraînement de ce type de réseau permet de saisir certaines caractéristiques sémantiques. Par exemple, dans ce cas, vous pouvez voir qu'il y a un vecteur reliant "man" à "woman" et un autre entre "king" et "queen". Cela signifie que "woman" - "man" = "queen" et "king". Vous obtiendrez la même distance dans cet espace appliqué aux cas comme homme-femme. 
+La figure 14 montre comment l’entraînement de ce type de réseau permet de saisir certaines caractéristiques sémantiques. Par exemple, dans ce cas, vous pouvez voir qu'il y a un vecteur reliant « *man* » à « *woman* » et un autre entre « *king* » et « *queen* ». Cela signifie que « *woman* »  - « *man* » = « *queen* » et « *king* ». Vous obtiendrez la même distance dans cet espace appliqué aux cas comme homme-femme. 
 Vous pouvez toujours appliquer ce type de transformation linéaire spécifique en passant d'un mot à un autre ou d'un pays à une capitale.
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/fourth.png" style="zoom : 40% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 14:</b> Caractéristiques sémantiques choisies pendant l’entraînement
+<b>Figure 14 :</b> Caractéristiques sémantiques choisies pendant l’entraînement
 </center>
 
 Le quatrième et dernier cas est celui du "sequence to sequence". Dans ce réseau, lorsque vous commencez à alimenter les entrées, le réseau commence à générer des sorties. Un exemple de ce type d'architecture est le T9, si vous vous souvenez d'avoir utilisé un téléphone Nokia, vous obtenez des suggestions de texte pendant que vous tapez. Un autre exemple est la generation de sous-titre depuis la voix. Un exemple intéressant est ce RNN-writer. Lorsque vous commencez à taper "les anneaux de Saturne scintillent pendant que", il suggère le texte suivant "deux hommes se regardent". Ce réseau a été entraîné sur certains romans de science-fiction afin que vous puissiez simplement taper quelque chose et le laisser vous faire des suggestions pour vous aider à écrire un livre. Un autre exemple est présenté à la figure 16. Vous saisissez la phrase du haut et ensuite ce réseau essaiera de compléter le reste.
@@ -246,21 +246,21 @@ Le quatrième et dernier cas est celui du "sequence to sequence". Dans ce résea
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/seq2seq.png" style="zoom : 40% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 15:</b> Séquence à Séquence
+<b>Figure 15 :</b> Séquence à Séquence
 </center>
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/seq2seq_model_completion.png" style="zoom : 40% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 16:</b> Modèle d'auto-gérénation de texte du modèle Seq to Seq
+<b>Figure 16 :</b> Modèle d'auto-gérénation de texte du modèle Seq to Seq
 </center>
 
+
 <!--
 ## [Back Propagation through time](https://www.youtube.com/watch?v=8cAffg2jaT0&t=855s)
 -->
 
 ## [Rétropropagation à travers le temps](https://www.youtube.com/watch?v=8cAffg2jaT0&t=855s)
 
-
 <!--
 ### Model architecture
 
@@ -300,11 +300,11 @@ $y[t]$ is calculated at the final rotation and then we can use the chain rule to
 
 ### Architecture
 
-Pour entraîner un RNN, il faut utiliser la rétropropagation dans le temps (BPTT). L'architecture du RNN est donnée dans la figure ci-dessous. Le modèle de gauche utilise la représentation en boucle tandis que le modèle de droite déplie la boucle en une ligne au fil du temps.
+Pour entraîner un RNN, il faut utiliser la rétropropagation à travers le temps (BPTT). L'architecture du RNN est donnée dans la figure ci-dessous. Le modèle de gauche utilise la représentation en boucle tandis que le modèle de droite déplie la boucle en une ligne au fil du temps.
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/bptt.png" style="zoom : 40% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 17:</b> Propagation dans le temps
+<b>Figure 17 :</b> Propagation à travers le temps
 </center>
 
 Les représentations cachées sont indiquées comme suit
@@ -369,13 +369,13 @@ When performing RNN on the first batch, firstly, we feed $x[1] = [a\ g\ m\ s]$ i
 </center>
 -->
 
-### Batch-Ification en modélisation du langage
+### Batch-ification en modélisation du langage
 
 Lorsqu'il s'agit d'une séquence de symboles, nous pouvons regrouper le texte en différentes tailles. Par exemple, lorsqu'il s'agit des séquences illustrées dans la figure suivante, la batch-ification peut être appliquée en premier lieu, lorsque le domaine temporel est préservé verticalement. Dans ce cas, la taille du batch est fixée à 4.
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/batchify_1.png" style="zoom: 40%; background-color:#DCDCDC;"/><br>
-<b>Figure 18:</b> Batch-Ification
+<b>Figure 18 :</b> Batch-ification
 </center>
 
 Si la période $T$ de la BPTT est fixée à 3, la première entrée $x[1:T]$ et la sortie $y[1:T]$ pour RNN est déterminée comme
@@ -399,7 +399,7 @@ Lors de l'exécution du RNN sur le premier batch, nous introduisons d'abord $x[1
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/batchify_2.png" style="zoom: 40%; background-color:#DCDCDC;"/><br>
-<b>Figure 19:</b> Batch-Ification
+<b>Figure 19 :</b> Batch-ification
 </center>
 <!--
 ## Vanishing and Exploding Gradient
@@ -424,12 +424,12 @@ In typical RNNs, gradients will be propagated through all the possible arrows, w
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/rnn_3.png" style="zoom: 40%; background-color:#DCDCDC;"/><br>
-<b>Figure 20:</b> Problème de la disparition
+<b>Figure 20 :</b> Problème de la disparition
 </center>
 
 La figure ci-dessus est une architecture RNN typique. Afin d'effectuer une rotation sur les étapes précédentes du RNN, nous utilisons des matrices, qui peuvent être considérées comme des flèches horizontales dans le modèle ci-dessus. Comme les matrices peuvent modifier la taille des sorties, si le déterminant que nous sélectionnons est supérieur à 1, le gradient se gonflera au fil du temps et provoquera une explosion du gradient. Mathématiquement parlant, si la valeur propre que nous sélectionnons est petite par rapport à 0, le processus de propagation réduira les gradients et entraînera la disparition du gradient.
 
-Dans les RNN typiques, les gradients se propagent à travers toutes les flèches possibles, ce qui leur donne une grande chance de disparaître ou d'exploser. Par exemple, le gradient au temps 1 est grand, ce qui est indiqué par la couleur vive. Lorsqu'il effectue une rotation, le gradient se rétrécit beaucoup et au temps 3, il est tué.
+Dans les RNNs typiques, les gradients se propagent à travers toutes les flèches possibles, ce qui leur donne une grande chance de disparaître ou d'exploser. Par exemple, le gradient au temps 1 est grand, ce qui est indiqué par la couleur vive. Lorsqu'il effectue une rotation, le gradient se rétrécit beaucoup et au temps 3, il est tué.
 
 <!--
 ### Solution
@@ -452,12 +452,12 @@ L'idéal pour éviter que les gradients n'explosent ou ne disparaissent est de s
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/rnn_2.png" style="zoom : 40% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 21:</b> Sauter des connexions
+<b>Figure 21 :</b> Sauter des connexions
 </center>
 
 Dans le cas ci-dessus, nous avons divisé le réseau initial en 4 réseaux. Prenons le premier réseau par exemple. Il prend une valeur de l'entrée au temps 1 et envoie la sortie au premier état intermédiaire de la couche cachée. L'état a 3 autres réseaux où le $\circ$s permet aux gradients de passer tandis que le $-$s bloque la propagation. Une telle technique est appelée réseau récurrent à portes.
 
-LSTM est un des RNN à portes courants et est présenté en détail dans les sections suivantes.
+LSTM est un RNN à portes et est présenté en détail dans les sections suivantes.
 
 
 <!--
@@ -511,52 +511,52 @@ Similarly, we can control the memory. For example, we can reset it by having $f[
 <b>Figure 28:</b> LSTM Architecture - Write Memory
 </center>
 -->
-### Architecture des LSTM
+### Architecture des LSTMs
 
-Vous trouverez ci-dessous des équations expliquant un LSTM. La porte d'entrée est mise en évidence par des cases jaunes, qui seront une transformation affine. Cette transformation d'entrée multipliera $c[t]$, qui est notre porte candidate.
+Vous trouverez ci-dessous des équations expliquant une LSTM. La porte d'entrée est mise en évidence par des cases jaunes, qui seront une transformation affine. Cette transformation d'entrée multipliera $c[t]$, qui est notre porte candidate.
 
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/lstm.png" style="zoom: 40%; background-color:#DCDCDC;"/><br>
-<b>Figure 22:</b> Architecture d’un réseau LSTM 
+<b>Figure 22 :</b> Architecture d’un réseau LSTM 
 </center>
 
 
-La "Don't forget gate" sur le graphique multiplie la valeur précédente de la mémoire cellulaire $c[t-1]$. La valeur totale de la cellule $c[t]$ est égale à la somme de "Don't forget gate" et de "Input gate". La représentation cachée finale est une multiplication par élément entre la porte de sortie $o[t]$ et la version tangente hyperbolique de la cellule $c[t]$, de sorte que les choses sont limitées. Enfin, la porte candidate $\tilde{c}[t]$ est simplement un réseau récurrent. Nous avons donc un $o[t]$ pour moduler la sortie, un $f[t]$ pour moduler la porte "don't forget", et un $i[t]$ pour moduler la porte d'entrée. Toutes ces interactions entre la mémoire et les portes sont des interactions multiplicatives. $i[t]$, $f[t]$ et $o[t]$ sont tous des sigmoïdes, allant de zéro à un. Par conséquent, en multipliant par zéro, vous obtenez une porte fermée. En multipliant par un, vous avez une porte ouverte.
+La « *Don't forget gate* » sur le graphique multiplie la valeur précédente de la mémoire cellulaire $c[t-1]$. La valeur totale de la cellule $c[t]$ est égale à la somme de « *Don't forget gate*» et de "Input gate". La représentation cachée finale est une multiplication par élément entre la porte de sortie $o[t]$ et la version tangente hyperbolique de la cellule $c[t]$, de sorte que les choses sont limitées. Enfin, la porte candidate $\tilde{c}[t]$ est simplement un réseau récurrent. Nous avons donc un $o[t]$ pour moduler la sortie, un $f[t]$ pour moduler la porte "don't forget", et un $i[t]$ pour moduler la porte d'entrée. Toutes ces interactions entre la mémoire et les portes sont des interactions multiplicatives. $i[t]$, $f[t]$ et $o[t]$ sont tous des sigmoïdes, allant de zéro à un. Par conséquent, en multipliant par zéro, vous obtenez une porte fermée. En multipliant par un, vous avez une porte ouverte.
 
 Comment éteindre la sortie ? Supposons que nous ayons une représentation interne violette $th$ et que nous mettions un zéro dans la porte de sortie. La sortie sera alors zéro multiplié par quelque chose, et nous aurons un zéro. Si nous mettons un un dans la porte de sortie, nous obtiendrons la même valeur que la représentation en violet.
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/lstm_2.png" style="zoom : 40% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 23:</b> Architecture LSTM - Sortie activée
+<b>Figure 23 :</b> Architecture LSTM - Sortie activée
 </center>
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/lstm_3.png" style="zoom : 40% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 24:</b> Architecture LSTM - Sortie désactivée
+<b>Figure 24 :</b> Architecture LSTM - Sortie désactivée
 </center>
 
 
-De même, nous pouvons contrôler la mémoire. Par exemple, nous pouvons la réinitialiser en faisant en sorte que $f[t]$ et $i[t]$ soient des zéros. Après multiplication et sommation, nous avons un zéro dans la mémoire. Sinon, nous pouvons conserver la mémoire, en mettant toujours à zéro la représentation interne $th$ mais en gardant un un dans $f[t]$. Ainsi, la somme obtient $c[t-1]$ et continue à l'envoyer. Enfin, nous pouvons écrire de manière à obtenir un un dans la porte d'entrée, la multiplication devient violette, puis mettre un zéro dans la porte "don't forget" pour qu'elle oublie réellement.
+De même, nous pouvons contrôler la mémoire. Par exemple, nous pouvons la réinitialiser en faisant en sorte que $f[t]$ et $i[t]$ soient des zéros. Après multiplication et sommation, nous avons un zéro dans la mémoire. Sinon, nous pouvons conserver la mémoire, en mettant toujours à zéro la représentation interne $th$ mais en gardant un un dans $f[t]$. Ainsi, la somme obtient $c[t-1]$ et continue à l'envoyer. Enfin, nous pouvons écrire de manière à obtenir un un dans la porte d'entrée, la multiplication devient violette, puis mettre un zéro dans la porte « *don't forget* » pour qu'elle oublie réellement.
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/memory_cell_vis.png" style="zoom : 40% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 25:</b> Visualisation de la cellule mémoire
+<b>Figure 25 :</b> Visualisation de la cellule mémoire
 </center>
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/lstm_4.png" style="zoom : 40% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 26:</b> Architecture LSTM - Réinitialisation de la mémoire
+<b>Figure 26 :</b> Architecture LSTM - Réinitialisation de la mémoire
 </center>
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/lstm_keep_memory.png" style="zoom : 40% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 27:</b> LSTM Architecture - Conserver la mémoire
+<b>Figure 27 :</b> Architecture STM - Conserver la mémoire
 </center>
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/lstm_write_memory.png" style="zoom : 40% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 28:</b> LSTM Architecture - Mémoire d'écriture
+<b>Figure 28 :</b> Architecture LSTM - Mémoire d'écriture
 </center>
 
 <!--
@@ -615,22 +615,23 @@ The above visualization is drawing the value of hidden state over time in LSTM.
 
 ### Classification des séquences
 
+Cette section se réfère au code du *notebook* Jupyter trouvable [ici](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/08-seq_classification.ipynb) pour la version en anglais et [ici](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/08-seq_classification.ipynb) pour la version en français.
 L'objectif est de classer les séquences. Les éléments et les cibles sont représentés localement (vecteurs d'entrée avec un seul bit non nul). La séquence commence par un `B` (pour **b**egins en anglais), se termine par par un `E` (pour **e**nds en anglais) le "symbole de déclenchement), et autrement est constituée de symboles choisis au hasard dans l'ensemble `{a, b, c, d}`, à l'exception de deux éléments aux positions $t_1$ et $t_2$ qui sont soit `X` soit `Y`. Dans le cas du `DifficultyLevel.HARD`, la longueur de la séquence est choisie au hasard entre 100 et 110, $t_1$ est choisi au hasard entre 10 et 20, et $t_2$ est choisi au hasard entre 50 et 60. Il y a 4 classes de séquence `Q`, `R`, `S`, et `U`, qui dépendent de l'ordre temporel de `X` et `Y`. Les règles sont les suivantes : `X, X -> Q`; `X, Y -> R`; `Y, X -> S`; `Y, Y -> U`.
 
-1). Exploration du jeu de données
+1) Exploration du jeu de données
 
 Le type retourné par un générateur de données est un tuple de longueur 2. Le premier élément du tuple est le batch de séquences de forme $(32, 9, 8)$. Ce sont les données qui vont être introduites dans le réseau. Il y a huit symboles différents dans chaque ligne (`X`, `Y`, `a`, `b`, `c`, `d`, `B`, `E`). Chaque ligne est un vecteur one-hot. Une séquence de lignes représente une séquence de symboles. La première ligne entièrement nulle est un padding. Nous utilisons le padding lorsque la longueur de la séquence est plus courte que la longueur maximale du batch.  Le deuxième élément du tuple est le batch correspondant aux labels des classes de forme $(32, 4)$, puisque nous avons 4 classes (`Q`, `R`, `S`, et `U`). La première séquence est : `BbXcXcbE`. Ensuite, son label décodé est $[1, 0, 0, 0]$, ce qui correspond à `Q`.
 
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/dataset.png" style="zoom : 15% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 29:</b> Exemple de vecteur d'entrée
+<b>Figure 29 :</b> Exemple de vecteur d'entrée
 </center>
 
 
-2). Définition du modèle et entraînement
+2) Définition du modèle et entraînement
 
-Créons un simple réseau récurrent, un LSTM, et entraînons-les sur 10 époques. Dans la boucle d’entraînement, nous devrions toujours regarder cinq étapes :
+Créons un simple réseau récurrent, une LSTM, et entraînons-les sur 10 époques. Dans la boucle d’entraînement, nous devrions toujours regarder cinq étapes :
 
  * Effectuer la passe en avant du modèle
  * Calculer la perte
@@ -640,21 +641,21 @@ Créons un simple réseau récurrent, un LSTM, et entraînons-les sur 10 époque
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/train_test_easy.png" style="zoom : 40% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 30:</b> RNN simple vs LSTM - 10 époques
+<b>Figure 30 :</b> RNN simple vs LSTM - 10 époques
 </center>
 
-Avec un niveau de difficulté facile, RNN obtient une précision de 50% tandis que LSTM obtient 100% après 10 époques. Mais le LSTM a quatre fois plus de poids que le RNN et possède deux couches cachées, ce qui ne permet pas une comparaison équitable. Après 100 époques, le RNN obtient également une précision de 100 %, ce qui prend plus de temps que le LSTM pour s'entraîner.
+Avec un niveau de difficulté facile, RNN obtient une précision de 50% tandis que LSTM obtient 100% après 10 époques. Mais la LSTM a quatre fois plus de poids que le RNN et possède deux couches cachées, ce qui ne permet pas une comparaison équitable. Après 100 époques, le RNN obtient également une précision de 100 %, ce qui prend plus de temps que la LSTM pour s'entraîner.
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/train_test_hard.png" style="zoom : 40% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 31:</b> RNN simple vs LSTM - 100 époques
+<b>Figure 31 :</b> RNN simple vs LSTM - 100 époques
 </center>
 
-Si nous augmentons la difficulté de la partie d’entraînement (en utilisant des séquences plus longues), nous verrons le RNN échouer alors que le LSTM continue de fonctionner.
+Si nous augmentons la difficulté de la partie d’entraînement (en utilisant des séquences plus longues), nous verrons le RNN échouer alors que la LSTM continue de fonctionner.
 
 <center>
 <img src="{{site.baseurl}}/images/week06/06-3/hidden_state_lstm.png" style="zoom : 40% ; couleur de fond:#DCDCDC ;"/><br>
-<b>Figure 32:</b> Visualisation de la valeur cachée de l'État
+<b>Figure 32 :</b> Visualisation de la valeur cachée de l'État
 </center>
 
 La visualisation ci-dessus donne la valeur de l'état caché au fil du temps dans LSTM. Nous passons les entrées dans une tangente hyperbolique, de sorte que si l'entrée est inférieure à $-2,5$, elle sera mise en correspondance avec $-1$, et si elle est supérieure à $2,5$, elle sera mise en correspondance avec $1$. Dans ce cas, nous pouvons donc voir la couche cachée spécifique choisie sur `X` (cinquième ligne de l'image), qui devient rouge jusqu'à ce que nous obtenions l'autre `X`. Ainsi, la cinquième unité cachée de la cellule est déclenchée par l'observation du `X` et se calme après avoir vu l'autre `X`. Cela nous permet de reconnaître la classe de la séquence.
@@ -669,6 +670,8 @@ Before we send the whole sequence to the network and force the final target to b
 -->
 
 ### L'écho du signal
+
+Cette section se réfère au code du *notebook* Jupyter trouvable [ici](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/09-echo_data.ipynb) pour la version en anglais et [ici](https://github.com/lbourdois/pytorch-Deep-Learning-Notebooks-in-French/blob/master/09-echo_data.ipynb) pour la version en français.
 L'écho du signal n étapes est un exemple de tâche synchronisée de plusieurs à plusieurs. Par exemple, la 1ère séquence d'entrée est `1 1 0 0 1 0 1 1 0 0 0 0 0 0 0 0 0 1 1 1 1 ...`, et la 1ère séquence cible est `0 0 0 1 1 0 0 1 0 1 1 0 0 0 0 0 0 0 0 0 0 1 ...`. Dans ce cas, la sortie se fait trois étapes plus tard. Nous avons donc besoin d'une mémoire de travail de courte durée pour conserver les informations. Alors que dans le modèle linguistique, cela revient à dire quelque chose qui n'a pas encore été dit.
 
-Avant d'envoyer la séquence complète au réseau et de forcer la cible finale à être quelque chose, nous devons couper la longue séquence en petits morceaux. Tout en alimentant un nouveau morceau, nous devons garder une trace de l'état caché et l'envoyer comme entrée à l'état interne lors de l'ajout du nouveau morceau suivant. Dans les LSTM, vous pouvez conserver la mémoire pendant une longue période tant que vous avez une capacité suffisante. Dans les RNN, une fois que vous avez atteint une certaine longueur, la mémoire commence à oublier ce qui s'est passé dans le passé.
+Avant d'envoyer la séquence complète au réseau et de forcer la cible finale à être quelque chose, nous devons couper la longue séquence en petits morceaux. Tout en alimentant un nouveau morceau, nous devons garder une trace de l'état caché et l'envoyer comme entrée à l'état interne lors de l'ajout du nouveau morceau suivant. Dans les LSTMs, vous pouvez conserver la mémoire pendant une longue période tant que vous avez une capacité suffisante. Dans les RNNs, une fois que vous avez atteint une certaine longueur, la mémoire commence à oublier ce qui s'est passé dans le passé.
diff --git a/docs/fr/week06/06.md b/docs/fr/week06/06.md
index 63c1a5fef..f659bae90 100644
--- a/docs/fr/week06/06.md
+++ b/docs/fr/week06/06.md
@@ -13,7 +13,7 @@ We discussed three applications of convolutional neural networks. We started wit
 -->
 
 
-## Conférence partie A
+## Cours magistral partie A
 
 Nous discutons de trois applications des réseaux de neurones convolutifs. Nous commençons par la reconnaissance de chiffres avec l'application à une reconnaissance de code postal à 5 chiffres. En ce qui concerne la détection d'objets, nous abordons la manière d'utiliser une architecture multi-échelle dans un cadre de détection de visages. Enfin, nous voyons comment les ConvNets sont utilisés dans des tâches de segmentation sémantique avec des exemples concrets dans un système de vision robotique et la segmentation d'objets dans un environnement urbain.
 
@@ -23,9 +23,9 @@ Nous discutons de trois applications des réseaux de neurones convolutifs. Nous
 We examine Recurrent Neural Networks, their problems, and common techniques for mitigating these issues.  We then review a variety of modules developed to resolve RNN model issues including Attention, GRUs (Gated Recurrent Unit), LSTMs (Long Short-Term Memory), and Seq2Seq.
 -->
 
-## Conférence partie B
+## Cours magistral partie B
 
-Nous examinons les réseaux neuronaux récurrents, leurs problèmes et les techniques courantes permettant d'atténuer ces problèmes.  Nous examinons ensuite divers modules développés pour résoudre les problèmes liés aux modèles RNN, notamment l’Attention, les GRUs (Gated Recurrent Unit), les LSTMs (Long Short-Term Memory) et le Seq2Seq.
+Nous examinons les réseaux neuronaux récurrents, leurs problèmes et les techniques courantes permettant d'atténuer ces problèmes.  Nous examinons ensuite divers modules développés pour résoudre les problèmes liés aux modèles RNNs, notamment l’Attention, les GRUs (*Gated Recurrent Unit*), les LSTMs (*Long Short-Term Memory*) et le Seq2Seq.
 
 <!--
 ## Practicum
@@ -33,6 +33,5 @@ Nous examinons les réseaux neuronaux récurrents, leurs problèmes et les techn
 We discussed architecture of Vanilla RNN and LSTM models and compared the performance between the two. LSTM inherits advantages of RNN, while improving RNN's weaknesses by including a 'memory cell' to store information in memory for long periods of time. LSTM models significantly outperforms RNN models.
 -->
 
-## Pratique
-Nous discutons de l'architecture des modèles Vanilla RNN et LSTM et comparons les performances entre les deux. LSTM hérite des avantages de RNN, tout en améliorant ses faiblesses en incluant une "cellule mémoire" afin de stocker les informations en mémoire pendant de longues périodes. Les modèles LSTM sont nettement plus performants que les modèles RNN.
-
+## Travaux dirigés
+Nous discutons de l'architecture des modèles RNN de base et des LSTMs et comparons les performances entre les deux. Les LSTMs héritent des avantages de RNN, tout en améliorant ses faiblesses en incluant une cellule mémoire afin de stocker les informations pendant de longues périodes. Les modèles LSTMs sont nettement plus performants que les modèles RNNs.
diff --git a/docs/fr/week07/07-1.md b/docs/fr/week07/07-1.md
index 94b9cd3e8..9f5d714be 100644
--- a/docs/fr/week07/07-1.md
+++ b/docs/fr/week07/07-1.md
@@ -2,7 +2,7 @@
 lang: fr
 lang-ref: ch.07-1
 lecturer: Yann Le Cun
-title: Modèles à base d’énergie (EBM)
+title: Modèles à base d’énergie (EBMs)
 authors: Karanbir Singh Chahal，Meiyi He, Alexander Gao, Weicheng Zhu
 date: 9 Mar 2020
 translation-date: 07 Aug 2020
@@ -18,12 +18,13 @@ We will introduce a new framework for defining models. It provides a unifying um
 2. What if there are multiple possible outputs for a single input? Example: Predicting future frames of video. Essentially in a classification net, we train this net to emit a score for each class. However, this is not possible to do in a continuous high dimensional domain like images. (We cannot have softmax over images!). Even if the output is discrete, it could have a large sample space. For example, the text is compositional leading to a huge number of possible combinations. Energy-based models provide a better framework to model these modalities.
 -->
 
-## [Aperçu](https://www.youtube.com/watch?v=tVwV14YkbYs&t=64s)
+## [Vue d'ensemble](https://www.youtube.com/watch?v=tVwV14YkbYs&t=64s)
 
-Nous allons introduire un nouveau cadre pour la définition des modèles. Il fournit un parapluie unificateur qui aide à définir des modèles supervisés, non supervisés et auto-supervisé. Les modèles à base d’énergie (EBM) observent un ensemble de variables $x$ et produisent un ensemble de variables $y$. Les réseaux feed-forward posent deux problèmes majeurs :
+Nous allons introduire un nouveau cadre pour la définition des modèles. Il fournit un parapluie unificateur qui aide à définir des modèles supervisés, non supervisés et autosupervisé. Les modèles à base d’énergie (EBMs) observent un ensemble de variables $x$ et produisent un ensemble de variables $y$. Les réseaux feed-forward posent deux problèmes majeurs :
 
 1. Que faire si la procédure d'inférence est un calcul plus complexe que des couches empilées de sommes pondérées ?
-2. Que faire s'il y a plusieurs résultats possibles pour une seule entrée ? Exemple : Prévision des futures images d’une vidéo. Essentiellement dans un réseau de classification, nous entraînons ce réseau à émettre un score pour chaque classe. Toutefois, cela n'est pas possible dans un domaine continu à haute dimension comme les images. (Nous ne pouvons pas avoir de softmax sur les images !). Même si la sortie est discrète, elle pourrait avoir un grand espace d'échantillonnage. Le texte est compositionnel, ce qui conduit à un grand nombre de combinaisons possibles. Les modèles basés sur l'énergie fournissent un meilleur cadre pour modéliser ces modalités.
+2. Que faire s'il y a plusieurs résultats possibles pour une seule entrée comme par exemple la prévision des images futures dans une vidéo ?  
+Dans un réseau de classification, nous entraînons ce réseau à émettre un score pour chaque classe. Toutefois, cela n'est pas possible dans un domaine continu à haute dimension comme les images : nous ne pouvons pas avoir de softmax sur les images ! Même si la sortie est discrète, elle pourrait avoir un grand espace d'échantillonnage. Le texte est compositionnel, ce qui conduit à un grand nombre de combinaisons possibles. Les modèles basés sur l'énergie fournissent un meilleur cadre pour modéliser ces modalités.
 
 
 <!--
@@ -38,14 +39,13 @@ This method of inference by minimizing a function and a large class of models wo
  -->
 
 
-## L’approche des EBM
+## L’approche des EBMs
 
 Au lieu d'essayer de classer les $x$ à $y$, nous aimerions prédire si une certaine paire de ($x$, $y$) s'assemble ou non. Ou, en d'autres termes, trouver un $y$ compatible avec $x$. Nous pouvons également poser le problème de trouver un $y$ pour lequel certains $F(x,y)$ sont faibles. Par exemple :
+- est-ce que $y$ est une image haute résolution précise de $x$ ?  
+- le texte "A" est-il une bonne traduction du texte "B" ?  
 
-- Est-ce que $y$ est une image haute résolution précise de $x$ ?
-- Le texte "A" est-il une bonne traduction du texte "B" ?
-
-Cette méthode d'inférence par minimisation d'une fonction et une grande classe de modèles fonctionnent de cette façon. En minimisant $f(x,y)$ ou "énergie". Par conséquent, nous effectuons l'inférence en minimisant les contraintes lorsque ces contraintes sont représentées par $f(x,y)$. Nous appellerons dorénavant $f(x,y)$ la "fonction énergie".
+Cette méthode d'inférence par minimisation d'une fonction et une grande classe de modèles fonctionnent de cette façon. En minimisant $f(x,y)$ ou **énergie**. Par conséquent, nous effectuons l'inférence en minimisant les contraintes lorsque ces contraintes sont représentées par $f(x,y)$. Nous appellerons dorénavant $f(x,y)$ la **fonction d'énergie**.
 
 
 <!--
@@ -60,7 +60,8 @@ $$
 
 ### Définition
 
-Nous définissons une fonction énergie $F : \mathcal{X} \times \mathcal{Y} \rightarrow \mathcal{R}$ où $F(x,y)$ décrit le niveau de dépendance entre les paires $(x,y)$. (**Notez** que cette énergie est utilisée en inférence, **pas** en apprentissage.) L'inférence est donnée par l'équation suivante :
+Nous définissons une fonction énergie $F : \mathcal{X} \times \mathcal{Y} \rightarrow \mathcal{R}$ où $F(x,y)$ décrit le niveau de dépendance entre les paires $(x,y)$.  
+Notez que cette énergie est utilisée en inférence et non **pas** pour l'apprentissage. L'inférence est donnée par l'équation suivante :
 
 $$
 \check{y} = \displaystyle \text{argmin}_y \left \{ F(x,y)\right \}
@@ -78,10 +79,10 @@ There are many alternate methods to gradient methods to obtain the minimum.
 
 ### Solution : l'inférence basée sur les gradients
 
-Nous aimerions que la fonction énergie soit lisse et différenciable. afin d'effectuer l'inférence. Nous recherchons cette fonction en utilisant la descente de gradient pour trouver des $y$ compatibles.
+Nous aimerions que la fonction d'énergie soit lisse et différenciable afin d'effectuer l'inférence. Nous recherchons cette fonction en utilisant la descente de gradient pour trouver des $y$ compatibles.
 Il existe de nombreuses méthodes alternatives aux méthodes de gradient pour obtenir le minimum.
 
-**Note** : Les modèles graphiques sont un cas particulier des modèles à base d’énergie. La fonction d'énergie se décompose en une somme de termes d'énergie. Chaque terme énergétique prend en compte un sous-ensemble de variables dont nous avons à faire. S'ils s'organisent sous une forme particulière, il existe des algorithmes d'inférence efficaces pour trouver le minimum de la somme des termes par rapport à la variable que nous souhaitons déduire.
+**Note** : les modèles graphiques sont un cas particulier des modèles à base d’énergie. La fonction d'énergie se décompose en une somme de termes d'énergie. Chaque terme énergétique prend en compte un sous-ensemble de variables dont nous avons à faire. S'ils s'organisent sous une forme particulière, il existe des algorithmes d'inférence efficaces pour trouver le minimum de la somme des termes par rapport à la variable que nous souhaitons déduire.
 
 
 <!--
@@ -90,9 +91,9 @@ Il existe de nombreuses méthodes alternatives aux méthodes de gradient pour ob
 The output $y$ depends on $x$ as well as an extra variable $z$ (the latent variable) which we do not know the value of. These latent variables can provide auxiliary information. For example, a latent variable can tell you the positions of word boundaries in a chunk of text. This would be helpful to know when we want to interpret handwriting without spaces. This is also especially useful to know in speech that can have hard-to-decipher gaps. Additionally, some languages have very faint word boundaries (e.g. French). Hence, having this latent variable in our model will be very useful to interpret such an input.
 -->
 
-## [EBM avec variables latentes](https://www.youtube.com/watch?v=tVwV14YkbYs&t=904s)
+## [EBMs à variables latentes](https://www.youtube.com/watch?v=tVwV14YkbYs&t=904s)
 
-La sortie $y$ dépend de $x$ ainsi que d'une variable supplémentaire $z$ (la variable latente) dont nous ne connaissons pas la valeur. Ces variables latentes peuvent fournir des informations auxiliaires. Par exemple, une variable latente peut vous indiquer la position des limites des mots dans un morceau de texte. Cela serait utile pour savoir quand nous voulons interpréter une écriture sans espaces. C'est aussi particulièrement utile pour les discours qui peuvent présenter des lacunes difficiles à déchiffrer. En outre, certaines langues ont des limites de mots très faibles (par exemple le français). Par conséquent, la présence de cette variable latente dans notre modèle sera très utile pour interpréter une telle donnée.
+La sortie $y$ dépend de $x$ ainsi que d'une variable supplémentaire $z$ (la variable latente) dont nous ne connaissons pas la valeur. Ces variables latentes peuvent fournir des informations auxiliaires. Par exemple, elle peut vous indiquer la position des limites des mots dans un morceau de texte. Cela serait utile pour savoir quand nous voulons interpréter une écriture sans espaces. C'est aussi particulièrement utile pour les discours qui peuvent présenter des lacunes difficiles à déchiffrer. En outre, certaines langues ont des limites de mots très faibles comme par exemple le français. Par conséquent, la présence de cette variable latente dans notre modèle est très utile pour interpréter une telle donnée.
 
 <!--
 ### Inference
@@ -116,7 +117,7 @@ This allows a machine to produce multiple outputs, not just one.
 
 ### Inférence
 
-Pour réaliser l'inférence d’un EBM à variable latente, nous voulons minimiser simultanément la fonction énergie par rapport à y et z.
+Pour réaliser l'inférence d’un EBM à variable latente, nous voulons minimiser simultanément la fonction d'énergie par rapport à $y$ et $z$ :
 
 $$\check{y}, \check{z} = \text{argmin}_{y,z} E(x,y,z)$$
 
@@ -130,7 +131,7 @@ Cela permet à une machine de produire plusieurs sorties.
 
 <center>
 <img src="{{site.baseurl}}/images/week07/07-1/fig1.png"/><br>
-<b>Figure 1</b> : Graphique de calcul pour les modèles à base d’énergie
+<b>Figure 1 :</b> Graphe de calcul pour les modèles à base d’énergie
 </center>
 
 
@@ -145,7 +146,7 @@ Another example is translation. Language translation has always been a difficult
 
 ### Exemples
 
-Un exemple est la prédiction vidéo. Il existe de nombreuses bonnes applications pour l'utilisation de la prédiction vidéo, par exemple pour la réalisation d'un système de compression vidéo. Une autre est d'utiliser la vidéo d'une voiture autonome et de prédire ce que les autres voitures vont faire.
+Un exemple est la prédiction vidéo. Il existe de nombreuses bonnes applications pour l'utilisation de la prédiction vidéo, par exemple pour la réalisation d'un système de compression vidéo. Une autre est d'utiliser la vidéo d'une voiture autonome et de prédire ce que les autres voitures vont faire.  
 
 Un autre exemple est la traduction. La traduction a toujours été un problème difficile car il n'existe pas de traduction unique et correcte d'un texte d'une langue à l'autre. En général, il existe de nombreuses façons différentes d'exprimer une même idée et les gens ont du mal à comprendre pourquoi ils en choisissent une plutôt qu'une autre. Il serait donc bon que nous ayons un moyen de paramétrer toutes les traductions possibles qu'un système pourrait produire pour répondre à un texte donné. Disons que si nous voulons traduire de l'allemand en anglais, il pourrait y avoir plusieurs traductions en anglais qui sont toutes correctes, et en faisant varier certaines variables latentes, vous pourriez alors faire varier la traduction produite.
 
@@ -174,13 +175,14 @@ $$
 Thus, if we have a latent variable model and want to eliminate the latent variable $z$ in a probabilistically correct way, we just need to redefine the energy function $F_\beta$ (Free Energy)
 -->
 
-## [EBM *v.s.* modèles probabilistes](https://www.youtube.com/watch?v=tVwV14YkbYs&t=1703s)
+## [Les EBMs *vs* les modèles probabilistes](https://www.youtube.com/watch?v=tVwV14YkbYs&t=1703s)
 
-Nous pouvons considérer les énergies comme des probabilités logarithmiques négatives non normalisées, et utiliser la distribution de Gibbs-Boltzmann pour convertir l'énergie en probabilité après normalisation qui est :
+Nous pouvons considérer les énergies comme des probabilités logarithmiques négatives non normalisées et utiliser la distribution de Gibbs-Boltzmann pour convertir l'énergie en probabilité après normalisation qui est :
 
 $$P(y \mid x) = \frac{\exp (-\beta F(x,y))}{\int_{y'}\exp(-\beta F(x,y'))}$$
 
-où $\beta$ est une constante positive et doit être calibré pour s'adapter à votre modèle. Un plus grand $\beta$ donne un modèle plus fluctuant tandis qu’un plus petit $\beta$ donne un modèle plus lisse. (En physique, $\beta$ est la température inverse : $\beta \rightarrow \infty$ signifie que la température va jusqu'à zéro).
+où $\beta$ est une constante positive et doit être calibré pour s'adapter à votre modèle.  
+Un plus grand $\beta$ donne un modèle plus fluctuant tandis qu’un plus petit $\beta$ donne un modèle plus lisse. En physique, $\beta$ est la température inverse : $\beta \rightarrow \infty$ signifie que la température va jusqu'à zéro.
 
 $$P(y,z \mid x) = \frac{\exp(-\beta F(x,y,z))}{\int_{y}\int_{z}\exp(-\beta F(x,y,z))}$$
 
@@ -194,7 +196,7 @@ P(y \mid x) & = \frac{\int_z \exp(-\beta E(x,y,z))}{\int_y\int_z \exp(-\beta E(x
 \end{aligned}
 $$
 
-Ainsi, si nous disposons d'un modèle à variable latente et que nous voulons éliminer la variable latente $z$ de manière probabiliste, il suffit de redéfinir la fonction énergie $F_\beta$ (énergie libre)
+Ainsi, si nous disposons d'un modèle à variable latente et que nous voulons éliminer la variable latente $z$ de manière probabiliste, il suffit de redéfinir la fonction d'énergie $F_\beta$ : l'énergie libre.
 
 
 <!--
@@ -232,31 +234,40 @@ So there is a correspondence between probabilistic and Bayesian methods there, b
 -->
 
 
-### Énergie libre
+### L'énergie libre
+
 $$
 F_{\beta}(x,y) = - \frac{1}{\beta}\log \int_z \exp (-\beta E(x,y,z))
 $$
-Calculer cela peut être très difficile...  En fait, dans la plupart des cas, c'est probablement insoluble.  Donc si vous avez une variable latente que vous voulez minimiser à l'intérieur de votre modèle, ou si vous avez une variable latente que vous voulez marginaliser (ce que vous faites en définissant cette fonction d'énergie $F$), et que la minimisation correspond à la limite infinie $\beta$ de cette formule, alors c'est possible.
 
-Selon la définition de $F_\beta(x, y)$ ci-dessus, $P(y \mid x)$ n'est qu'une application de la formule de Gibbs-Boltzmann et $z$ a été implicitement marginalisé à l'intérieur de celle-ci.  Les physiciens appellent cela "énergie libre", c'est pourquoi nous l'appelons $F$ (pour free en anglais).   Donc $e$ est l'énergie, et $F$ est l'énergie libre.
+Calculer ceci peut être très difficile. En fait, dans la plupart des cas, c'est probablement insoluble.  Donc si vous avez une variable latente que vous voulez minimiser à l'intérieur de votre modèle ou si vous avez une variable latente que vous voulez marginaliser (ce que vous faites en définissant cette fonction d'énergie $F$) et que la minimisation correspond à la limite infinie $\beta$ de cette formule, alors c'est possible.
+
+Selon la définition de $F_\beta(x, y)$ ci-dessus, $P(y \mid x)$ n'est qu'une application de la formule de Gibbs-Boltzmann et $z$ a été implicitement marginalisé à l'intérieur de celle-ci. Les physiciens appellent cela l'**énergie libre**, c'est pourquoi nous l'appelons $F$ (*free energy* en anglais).
+Donc $e$ est l'énergie et $F$ est l'énergie libre.
 
-***Question : Pouvez-vous nous parler de l'avantage qu'offrent les modèles à base d’énergie ?  Dans les modèles basés sur les probabilités, vous pouvez également avoir des variables latentes, qui peuvent être marginalisées.***
 
-La différence est que dans les modèles probabilistes, vous n'avez pas le choix de la fonction objectif que vous allez minimiser, et vous devez rester fidèle au cadre probabiliste au sens que chaque objet que vous manipulez doit être une distribution normalisée (que vous pouvez approximer en utilisant des méthodes variationnelles, etc…). Nous disons ici qu'en fin de compte, ce que vous voulez faire avec ces modèles, c'est prendre des décisions.  Si vous construisez un système qui conduit une voiture, et que le système vous dit "Je dois tourner à gauche avec une probabilité de 0,8 ou tourner à droite avec une probabilité de 0,2", vous allez tourner à gauche.  Le fait que les probabilités soient de 0,2 et 0,8 n'a pas d'importance : ce que vous voulez, c'est prendre la meilleure décision, parce que vous êtes obligé de prendre une décision.  Les probabilités sont donc inutiles si vous voulez prendre des décisions.  Si vous voulez combiner la sortie d'un système automatisé avec un autre (par exemple, un système humain ou autre), et que ces systèmes n'ont pas été formés ensemble, mais plutôt séparément, alors ce que vous voulez, ce sont des scores calibrés pour que vous puissiez combiner les scores des deux systèmes afin de prendre une bonne décision.  Il n'y a qu'une seule façon de calibrer les scores, et c'est de les transformer en probabilités.  Tous les autres moyens sont soit inférieurs, soit équivalents.  Mais si vous voulez entraîner un système de bout en bout à la prise de décision, alors n'importe quelle fonction de notation que vous utilisez est bonne, à condition qu'elle donne le meilleur score à la meilleure décision.  
-Les EBM vous donnent beaucoup plus de choix quant à la façon dont vous manipulez le modèle, peut-être même plus de choix quant à la façon dont vous l'entraînez et quant à la fonction objectif que vous utilisez. Si vous insistez pour que votre modèle soit probabiliste, vous devez utiliser le maximum de vraisemblance - vous devez essentiellement entraîner votre modèle de telle manière que la probabilité qu'il donne aux données que vous avez observées soit maximale.  Le problème est que l'on ne peut prouver que cela fonctionne que si votre modèle est "correct" - et votre modèle n'est jamais "correct".  Le célèbre statisticien Goerge Box a dit : ***"Tous les modèles sont faux, mais certains sont utiles"***. Les modèles probabilistes, en particulier ceux dans les espaces à haute dimension et dans les espaces combinatoires comme le texte, sont donc tous des modèles approximatifs.  Ils sont tous erronés d'une certaine manière, et si vous essayez de les normaliser, vous les rendez encore plus erronés.  Il est donc préférable de ne pas les normaliser.
+### Quels sont les avantages qu'offrent les modèles à base d’énergie ? 
+En effet, dans les modèles basés sur les probabilités, il est aussi possible d'avoir des variables latentes qui peuvent être marginalisées.  
+
+La différence est que dans les modèles probabilistes, vous n'avez pas le choix de la fonction objectif que vous allez minimiser. Et vous devez rester fidèle au cadre probabiliste au sens que chaque objet que vous manipulez doit être une distribution normalisée (que vous pouvez approximer en utilisant des méthodes variationnelles, etc.). Nous disons ici qu'en fin de compte, ce que vous voulez faire avec ces modèles, c'est prendre des décisions. Si vous construisez un système qui conduit une voiture et que le système vous dit « Je dois tourner à gauche avec une probabilité de 0,8 ou tourner à droite avec une probabilité de 0,2 », vous allez tourner à gauche. Le fait que les probabilités soient de 0,2 et 0,8 n'a pas d'importance. Ce que vous voulez, c'est prendre la meilleure décision, parce que vous êtes obligés de prendre une décision. Les probabilités sont donc inutiles si vous voulez prendre des décisions. Si vous voulez combiner la sortie d'un système automatisé avec un autre (par exemple, un système humain ou autre) et que ces systèmes n'ont pas été entraînés ensemble, mais plutôt séparément, alors ce que vous voulez, ce sont des scores calibrés pour que vous puissiez combiner les scores des deux systèmes afin de prendre une bonne décision. Il n'y a qu'une seule façon de calibrer les scores et c'est de les transformer en probabilités. Tous les autres moyens sont soit inférieurs, soit équivalents. Mais si vous voulez entraîner un système de bout en bout à la prise de décision, alors n'importe quelle fonction de notation que vous utilisez est bonne, à condition qu'elle donne le meilleur score à la meilleure décision.  
+Les EBMs vous donnent beaucoup plus de choix quant à la façon dont vous manipulez le modèle, peut-être même plus de choix sur la manière dont vous l'entraînez et pour la fonction objectif que vous utilisez. Si vous insistez pour que votre modèle soit probabiliste, vous devez utiliser le maximum de vraisemblance. Vous devez essentiellement entraîner votre modèle de telle manière que la probabilité qu'il donne aux données que vous avez observées soit maximale. Le problème est que l'on ne peut prouver que cela fonctionne que si votre modèle est « correct » mais votre modèle n'est jamais « correct ».  Le  statisticien Goerge Box a dit : ***« Tous les modèles sont faux mais certains sont utiles »***. Les modèles probabilistes, en particulier ceux dans les espaces en grandes dimensions et dans les espaces combinatoires comme le texte, sont donc tous des modèles approximatifs. Ils sont tous erronés d'une certaine manière, et si vous essayez de les normaliser, vous les rendez encore plus erronés. Il est donc préférable de ne pas les normaliser.
 
 <center>
 <img src="{{site.baseurl}}/images/week07/07-1/fig3.png" height="75%" width="75%"/><br>
-<b>Fig. 2</b>: Visualisation de la fonction énergie qui saisit la dépendance entre x et y
+<b>Figure 2 :</b> Visualisation de la fonction d'énergie qui saisit la dépendance entre x et y
 </center>
 
-Il s'agit d'une fonction énergie qui vise à capturer la dépendance entre *x* et *y*.  C'est comme une chaîne de montagnes si vous voulez.  Les vallées sont là où se trouvent les points noirs (ce sont des points de données), et il y a des montagnes tout autour.  Maintenant, si vous entraînez un modèle probabiliste avec cela, imaginez que les points sont en fait sur une surface infiniment mince.  La distribution des données pour les points noirs n'est donc en fait qu'une ligne, et il y en a trois.  Ils n'ont en fait aucune largeur.  Donc si vous entraînez un modèle probabiliste sur ce point, votre modèle de densité devrait vous dire quand vous êtes sur cette surface.  Sur cette surface, la densité est infinie, et toutes $\varepsilon$ en dehors d'elle devrait être zéro.  Ce serait le modèle correct de cette distribution.  Non seulement la densité doit être infinie, mais l'intégrale sur [x et y] doit être égale à 1.  C'est très difficile à mettre en œuvre sur ordinateur !  Non seulement cela, mais c'est aussi fondamentalement impossible.  Supposons que vous vouliez calculer cette fonction par une sorte de réseau neuronal. Celui-ci devra avoir des poids infinis et ils devront être calibrés de telle sorte que l'intégrale de la sortie de ce système sur l'ensemble du domaine soit de 1. C'est pratiquement impossible.  Le modèle probabiliste précis et correct pour cet exemple particulier de données est impossible.  C'est ce que le maximum de vraisemblance voudra que vous produisiez, et il n'y a aucun ordinateur au monde qui puisse calculer cela.  Donc, en fait, ce n'est même pas intéressant.  Imaginez que vous ayez le modèle de densité parfait pour cet exemple, qui est une fine plaque dans cet espace (x, y) -- vous ne pourriez pas faire d'inférence !  Si je vous donne une valeur de x, et que je vous demande "quelle est la meilleure valeur de y ?"  Vous ne pourriez pas la trouver car toutes les valeurs de y, sauf un ensemble de probabilité zéro, ont une probabilité de zéro, et il n'y a que quelques valeurs possibles.  Pour ces valeurs de x par exemple :
+Il s'agit d'une fonction d'énergie qui vise à capturer la dépendance entre *x* et *y*. C'est comme une chaîne de montagnes si vous voulez. Les vallées sont là où se trouvent les points noirs (ce sont des points de données) et il y a des montagnes tout autour. Maintenant, si vous entraînez un modèle probabiliste avec cela, imaginez que les points sont en fait sur une surface infiniment mince. La distribution des données pour les points noirs n'est donc en fait qu'une ligne, et il y en a trois. Ils n'ont en fait aucune largeur. Donc si vous entraînez un modèle probabiliste sur ce point, votre modèle de densité devrait vous dire quand vous êtes sur cette surface. Sur cette surface, la densité est infinie, et toutes $\varepsilon$ en dehors d'elle devrait être zéro. Ce serait le modèle correct de cette distribution. Non seulement la densité doit être infinie, mais l'intégrale sur [x et y] doit être égale à 1. C'est très difficile à mettre en œuvre sur ordinateur ! Non seulement cela, mais c'est aussi fondamentalement impossible. Supposons que vous vouliez calculer cette fonction par une sorte de réseau neuronal. Celui-ci devra avoir des poids infinis et ils devront être calibrés de telle sorte que l'intégrale de la sortie de ce système sur l'ensemble du domaine soit de 1. C'est pratiquement impossible. Le modèle probabiliste précis et correct pour cet exemple particulier de données est impossible. C'est ce que le maximum de vraisemblance voudra que vous produisiez et il n'y a aucun ordinateur au monde qui puisse calculer cela. Donc, en fait, ce n'est même pas intéressant. Imaginez que vous ayez le modèle de densité parfait pour cet exemple, qui est une fine plaque dans cet espace (x, y), vous ne pourriez pas faire d'inférence !  Si on vous donne une valeur de x et qu'on vous demande quelle est la meilleure valeur de y, vous ne pourriez pas la trouver car toutes les valeurs de y. Sauf un ensemble de probabilité zéro ont une probabilité de zéro et il n'y a que quelques valeurs possibles.  Pour ces valeurs de x par exemple :
+<br>
 <center>
 <img src="{{site.baseurl}}/images/week07/07-1/fig4.png" height="75%" width="75%"/><br>
-<b>Fig. 3</b>: Exemple de prédiction multiple de l'EBM en tant que fonction implicite</center>
+<b>Figure 3 :</b> Exemple de prédiction multiple de l'EBM en tant que fonction implicite
+</center>
+<br>
 
-Il y a 3 valeurs de y qui sont possibles, et elles sont infiniment étroites.  Il n'y a pas d'algorithme d'inférence qui vous permettra de les trouver.  La seule façon de les trouver est de rendre votre fonction de contraste lisse et différentiable, et alors vous pouvez partir de n'importe quel point et par descente de gradient vous pouvez trouver une bonne valeur pour y pour n'importe quelle valeur de x. Mais ce ne sera pas un bon modèle probabiliste de la distribution si la distribution est du type que j'ai mentionné.  Voici donc un cas où insister pour avoir un bon modèle probabiliste est en fait mauvais.  Le maximum de vraisemblance est nul dans ce cas !
+Il y a 3 valeurs de y qui sont possibles et elles sont infiniment étroites. Il n'y a pas d'algorithme d'inférence qui vous permettra de les trouver. La seule façon de le faire est de rendre votre fonction de contraste lisse et différentiable. Alors vous pouvez partir de n'importe quel point et par descente de gradient vous pouvez trouver une bonne valeur pour y pour n'importe quelle valeur de x. Mais ce ne sera pas un bon modèle probabiliste de la distribution si la distribution est comme celle mentionnée. Voici donc un cas où insister pour avoir un bon modèle probabiliste est en fait mauvais. Le maximum de vraisemblance est néfaste dans ce cas !
 
-Donc si vous êtes un vrai Bayésien, vous dites "oh mais vous pouvez corriger cela en ayant un apriori fort où l’apriori dit que votre fonction de densité doit être lisse".  Vous pouvez considérer cela comme un apriori.  Mais, tout ce que vous faites en termes bayésiens - prenez le logarithme de celui-ci, oubliez la normalisation - vous obtenez des modèles basés sur l'énergie.  Les EBM qui ont un régularisateur, qui est additif à votre fonction énergie, sont complètement équivalents aux modèles bayésiens où la vraisemblance de l'énergie est exponentielle. Maintenant vous obtenez $\exp(\text{énergie}) \exp(\text{régulateur})$, et donc c'est égal à $\exp(\text{énergie} + \text{régulateur})$.  Et si vous supprimez l'exponentielle, vous obtenez un modèle basé sur l'énergie avec un régularisateur additif.
+Si vous êtes un Bayésien, vous dites « oh mais vous pouvez corriger cela en ayant un a priori fort indiquant que votre fonction de densité doit être lisse ».
+Mais, tout ce que vous faites en termes bayésiens (mathèmatiquement parlant), vous mène aux modèles à base d'énergie.  Les EBMs qui ont un régulariseur, qui est additif à votre fonction d'énergie, sont complètement équivalents aux modèles bayésiens où la vraisemblance de l'énergie est exponentielle. Maintenant vous obtenez $\exp(\text{énergie}) \exp(\text{régulateur})$ et donc c'est égal à $\exp(\text{énergie} + \text{régulateur})$.  Si vous supprimez l'exponentielle, vous obtenez un modèle à base d'énergie avec un régulariseur additif.
 
-Il y a donc là une correspondance entre les méthodes probabilistes et bayésiennes, mais ayez en tête que faire le maximum de vraisemblance est parfois mauvais pour vous, en particulier dans les espaces à haute dimension ou les espaces combinatoires où votre modèle probabiliste est très erroné. Il n'est pas très erroné dans les distributions discrètes (c'est correct) mais dans les cas continus, il peut être vraiment erroné.  Et tous les modèles sont erronés.
+Il y a donc là une correspondance entre les méthodes probabilistes et bayésiennes, mais ayez en tête que faire le maximum de vraisemblance est parfois néfaste pour vous, en particulier dans les espaces en grandes dimensions ou les espaces combinatoires où votre modèle probabiliste est très erroné. Cela n'est pas très erroné dans les distributions discrètes (c'est correct) mais dans les cas continus, cela peut être vraiment erroné. Et tous les modèles sont erronés.
diff --git a/docs/fr/week07/07-2.md b/docs/fr/week07/07-2.md
index 709d11749..80f0e63de 100644
--- a/docs/fr/week07/07-2.md
+++ b/docs/fr/week07/07-2.md
@@ -2,7 +2,7 @@
 lang: fr
 lang-ref: ch.07-2
 lecturer: Yann Le Cun
-title: Apprentissage auto-supervisé, EBM en details et des examples
+title: Apprentissage autosupervisé, les détails des EBMs et exemples
 authors: Ravi Choudhary， B V Nithish Addepalli, Syed Rahman，Jiayi Du
 translation-date: 07 Aug 2020
 translator: Loïck Bourdois
@@ -40,32 +40,32 @@ A neural network trained using Least Squares to predict the next frame of a vide
 -->
 
 
-## [Apprentissage auto-supervisé](https://www.youtube.com/watch?v=tVwV14YkbYs&t=2683s)
+## [Apprentissage autosupervisé](https://www.youtube.com/watch?v=tVwV14YkbYs&t=2683s)
 
-L'apprentissage auto-supervisé (SSL en anglais pour Self Supervised Learning) englobe à la fois l'apprentissage supervisé et non supervisé. L'objectif du SSL est d'apprendre une bonne représentation de l'entrée afin qu'elle puisse ensuite être utilisée pour des tâches supervisées. En SSL, le modèle est entraîné pour prédire une partie des données en fonction d'autres parties des données. Par exemple, BERT a été entraîné en utilisant  le SSL et l'auto-encodeur débruiteur (Denoising Auto-Encoder : DAE) a notamment montré des résultats de pointe en matière de traitement du langage naturel (NLP pour Natural Language Processing).
+L'apprentissage autosupervisé (pouvant être abrgé en SSL pour *Self-Supervised Learning*) englobe à la fois l'apprentissage supervisé et non supervisé. L'objectif du SSL est d'apprendre une bonne représentation de l'entrée afin qu'elle puisse ensuite être utilisée pour des tâches supervisées. En SSL, le modèle est entraîné pour prédire une partie des données en fonction d'autres parties des données. Par exemple, BERT a été entraîné en combinant le SSL et l'auto-encodeur débruiteur. Ce modèle a montré des résultats de pointe en traitement du langage naturel (NLP pour *Natural Language Processing*).
 
 <center>
 <img src="{{site.baseurl}}/images/week07/07-2/1_ssl.png"/><br>
-<b>Fig. 1</b> : Apprentissage auto-supervisé
+<b>Figure 1 :</b> Apprentissage autosupervisé
 </center>
 
-La tâche d'apprentissage auto-supervisé peut être définie comme suit :
-* Prévoir l'avenir à partir du passé.
-* Prédire le masqué à partir du visible.
-* Prévoir les parties occultées à partir de toutes les parties disponibles.
+La tâche d'apprentissage autosupervisé peut être définie comme suit :
+* prévoir l'avenir à partir du passé
+* prédire le masqué à partir du visible
+* prévoir les parties occultées à partir de toutes les parties disponibles
 
 Par exemple, si un système est entraîné à prédire l'image suivante lorsque la caméra est déplacée, le système apprendra implicitement la profondeur et la parallaxe. Cela obligera le système à apprendre que les objets occultés de sa vision ne disparaissent pas mais continuent d'exister ainsi que la distinction entre les objets animés, inanimés et l'arrière-plan. Il peut également finir par apprendre la physique intuitive comme la gravité.
 
-Les systèmes de NLP de pointe (BERT) sont pré-entraînés via un réseau neuronal géant de SSL. Vous supprimez certains mots d'une phrase et faites en sorte que le système prédisent les mots manquants. Cette méthode a été couronnée de succès. Des idées similaires ont également été expérimentées dans le domaine de la vision par ordinateur. Comme le montre l'image ci-dessous, vous pouvez prendre une image et en supprimer une partie, puis entraîner le modèle à prédire la partie manquante.
+Les systèmes de NLP de pointe sont pré-entraînés via des réseaux neuronaux géants de SSL. Vous supprimez certains mots d'une phrase et faites en sorte que le système prédisent les mots manquants. Cette méthode (BERT) a été couronnée de succès. Des idées similaires ont également été expérimentées dans le domaine de la vision par ordinateur. Comme le montre l'image ci-dessous, vous pouvez prendre une image et en supprimer une partie, puis entraîner le modèle à prédire la partie manquante.
 
 <center>
 <img src="{{site.baseurl}}/images/week07/07-2/2_cv_eg.png"/><br>
-<b>Figure 2</b> : Résultats correspondants dans la vision par ordinateur
+<b>Figure 2 :</b> Résultats correspondants dans la vision par ordinateur
 </center>
 
 Bien que les modèles puissent combler l'espace manquant, ils n'ont pas connu le même succès que les applications en NLP. Si vous deviez prendre les représentations internes générées par ces modèles, en entrée d'un système de vision par ordinateur, celui-ci est incapable de battre un modèle qui a été pré-entraîné de manière supervisée sur ImageNet. La différence ici est que le NLP est discrèt alors que les images sont continues. La différence de succès est que dans le domaine discret, nous savons comment représenter l'incertitude, nous pouvons utiliser un grand softmax sur les sorties possibles, dans le domaine continu nous ne le faisons pas.
 
-Un système intelligent (AI agent) doit être capable de prédire les résultats de sa propre action sur l'environnement et de prendre lui-même des décisions intelligentes. Comme le monde n'est pas complètement déterministe et qu'il n'y a pas assez de puissance de calcul dans une machine/un cerveau humain pour prendre en compte toutes les possibilités, nous devons apprendre aux systèmes d'IA à prédire en présence d'incertitude dans les espaces de grande dimension. Les EBM peuvent être extrêmement utiles à cet effet.
+Un système intelligent doit être capable de prédire les résultats de sa propre action sur l'environnement et de prendre lui-même des décisions intelligentes. Comme le monde n'est pas complètement déterministe et qu'il n'y a pas assez de puissance de calcul dans une machine/un cerveau humain pour prendre en compte toutes les possibilités, nous devons apprendre aux systèmes d'IA à prédire en présence d'incertitude dans les espaces en grandes dimensions. Les EBMs peuvent être extrêmement utiles à cet effet.
 
 Un réseau neuronal entraîné à l'utilisation des moindres carrés pour prédire la prochaine image d'une vidéo produira des images floues parce que le modèle ne peut pas prédire exactement l'avenir, il apprend donc à faire la moyenne de toutes les possibilités de la prochaine image à partir des données d’entraînement pour réduire la perte.
 
@@ -83,17 +83,17 @@ Scalar-valued energy function can take two versions:
 2. Unconditional $F(y)$ -  measure the compatibility between the components of $y$
 -->
 
-### Les EMB à variable latente comme solution pour faire des prédictions pour l’image suivante :
+### Les EMBs à variable latente comme solution pour faire des prédictions d'une image suivante
 
-Contrairement à la régression linéaire, les EMB à variable latente prennent ce que nous savons du monde ainsi qu'une variable latente qui nous donne des informations sur ce qui s'est passé dans la réalité. Une combinaison de ces deux éléments d'information peut être utilisée pour faire une prédiction qui sera proche de ce qui se passe réellement.
+Contrairement à la régression linéaire, les EMBs à variable latente prennent ce que nous savons du monde ainsi qu'une variable latente qui nous donne des informations sur ce qui s'est passé dans la réalité. Une combinaison de ces deux éléments d'information peut être utilisée pour faire une prédiction qui sera proche de ce qui se passe réellement.
 
 Ces modèles peuvent être considérés comme des systèmes qui évaluent la compatibilité entre l'entrée $x$ et la sortie réelle $y$ en fonction de la prédiction utilisant la variable latente qui minimise l'énergie du système. Vous observez l'entrée $x$ et produisez des prédictions possibles $\bar{y}$ pour différentes combinaisons de l'entrée $x$ et des variables latentes $z$ et choisissez celle qui minimise l'énergie, l'erreur de prédiction, du système.
 
 En fonction de la variable latente que nous tirons, nous pouvons nous retrouver avec toutes les prédictions possibles. La variable latente peut être considérée comme une information importante sur la sortie $y$ qui n'est pas présente dans l'entrée $x$.
 
-La fonction énergie à valeur scalaire peut prendre deux versions :
-1. Conditionnelle $F(x, y)$ - mesure de la compatibilité entre $x$ et $y$
-2. Inconditionnel $F(y)$ - mesure de la compatibilité entre les composantes de $y$
+La fonction d'énergie à valeur scalaire peut prendre deux versions :
+1. conditionnelle : $F(x, y)$ mesure de la compatibilité entre $x$ et $y$
+2. inconditionnel : $F(y)$ mesure de la compatibilité entre les composantes de $y$
 
 
 <!--
@@ -131,10 +131,10 @@ The gradient of the energy function is generally very complex and hence computin
 ## [Entraîner un EBM](https://www.youtube.com/watch?v=tVwV14YkbYs&t=3957s)
 
 Il existe deux classes de modèles d'apprentissage pour entraîner un EMB à paramétrer $F(x, y)$.
-1. **Méthodes contrastives :** Poussez vers le bas sur $F(x[i], y[i])$, poussez vers le haut sur d'autres points $F(x[i], y')$
-2. **Méthodes architecturales :** Construire $F(x, y)$ de manière à limiter ou à minimiser le volume des régions à faible énergie par la régularisation.
+1. Les **méthodes contrastives :** poussez vers le bas sur $F(x[i], y[i])$, poussez vers le haut sur d'autres points $F(x[i], y')$
+2. Les **méthodes architecturales :** construisez $F(x, y)$ de manière à limiter ou à minimiser le volume des régions à faible énergie par la régularisation
 
-Il existe sept stratégies pour façonner la fonction énergie. Les méthodes contrastives diffèrent dans la manière de choisir les points à pousser vers le haut. Les méthodes architecturales diffèrent dans la façon dont elles limitent la capacité d'information du code.
+Il existe sept stratégies pour façonner la fonction d'énergie. Les méthodes contrastives diffèrent dans la manière de choisir les points à pousser vers le haut. Les méthodes architecturales diffèrent dans la façon dont elles limitent la capacité d'information du code.
 
 Un exemple de la méthode contrastive est l'apprentissage par maximum de vraisemblance. L'énergie peut être interprétée comme une densité logarithmique négative non normalisée. La distribution de Gibbs nous donne la vraisemblance de $y$ pour $x$. Elle peut être formulée comme suit :
 
@@ -142,7 +142,7 @@ $$
 P(Y \mid W) = \frac{e^{-\beta E(Y,W)}}{\int_{y}e^{-\beta E(y,W)}}
 $$
 
-Le maximum de vraisemblance essaie de rendre le numérateur grand et le dénominateur petit pour maximiser la probabilité. Cela équivaut à minimiser $-\log(P(Y \moyen W))$ qui est donné ci-dessous
+Le maximum de vraisemblance essaie de rendre le numérateur grand et le dénominateur petit pour maximiser la probabilité. Cela équivaut à minimiser $-\log(P(Y \mid W))$ qui est donné ci-dessous
 
 $$
 L(Y, W) = E(Y,W) + \frac{1}{\beta}\int_{y}e^{-\beta E(y,W)}
@@ -156,7 +156,7 @@ $$
 
 Dans le gradient ci-dessus, le premier terme du gradient au point de données $Y$ et le second terme du gradient nous donne la valeur attendue du gradient de l'énergie sur l'ensemble des $Y$. Ainsi, lorsque nous effectuons la descente de gradient, le premier terme tente de réduire l'énergie donnée au point de données $Y$ et le second terme tente d'augmenter l'énergie donnée à tous les autres $Y$.
 
-Le gradient de la fonction énergie est généralement très complexe et, par conséquent, le calcul, l'estimation ou l'approximation de l'intégrale est un cas très intéressant car il est insoluble dans la plupart des cas.
+Le gradient de la fonction d'énergie est généralement très complexe et, par conséquent, le calcul, l'estimation ou l'approximation de l'intégrale est un cas très intéressant car il est insoluble dans la plupart des cas.
 
 
 <!--
@@ -185,20 +185,20 @@ These can be of two types:
 
 Le principal avantage des modèles à variables latentes est qu'ils permettent des prévisions multiples grâce à la variable latente. Comme $z$ varie sur un ensemble, $y$ varie sur la multiplicité des prédictions possibles. En voici quelques exemples :
 1. K-means
-2. Modélisation éparse (Sparse modelling)
+2. Modélisation
 3. [GLO](https://arxiv.org/abs/1707.05776)
 
 Il peut y en avoir de deux types :
 1. Modèles conditionnels où $y$ dépend de $x$
     1. $$F(x,y) = \text{min}_{z} E(x,y,z)$$
     2. $$F_\beta(x,y) = -\frac{1}{\beta}\log\int_z e^{-\beta E(x,y,z)}$$
-2. Modèles inconditionnels qui ont une fonction énergie à valeur scalaire, $F(y)$ qui mesure la compatibilité entre les composantes de $y$
+2. Modèles inconditionnels qui ont une fonction d'énergie à valeur scalaire, $F(y)$ qui mesure la compatibilité entre les composantes de $y$
     1. $$F(y) = \text{min}_{z} E(y,z)$$
     2. $$F_\beta(y) = -\frac{1}{\beta}\log\int_z e^{-\beta E(y,z)}$$
 
 <center>
 <img src="{{site.baseurl}}/images/week07/07-2/3_lv_ebm.png" width="50%"/><br>
-<b>Figure 3</b> : EBM à variable latente
+<b>Figure 3 :</b> EBM à variable latente
 </center>
 
 <!--
@@ -229,27 +229,27 @@ K-means belongs to architectural methods (as opposed to contrastive methods). He
 
 ## Exemple d’EMB à variable latente : les $K$-means
 
-K-means est un algorithme de clustering simple qui peut également être considéré comme un modèle à base d’énergie dont nous essayons de modéliser la distribution sur $y$. La fonction d'énergie est $E(y,z) = \Vert y-Wz \Vert^2$ où $z$ est vecteur $1$-hot.
+Les K-means sont un algorithme de *clustering* simple qui peut également être considéré comme un modèle à base d’énergie dont nous essayons de modéliser la distribution sur $y$. La fonction d'énergie est $E(y,z) = \Vert y-Wz \Vert^2$ où $z$ est vecteur *one-hot*.
 
 <center>
 <img src="{{site.baseurl}}/images/week07/07-2/4_kmeans.png" width="50%"/><br>
-<b>Fig. 4</b> : Exemple de K-means
+<b>Figure 4 :</b> Exemple des K-means
 </center>
 
-Avec une valeur de $y$ et $k$, nous pouvons faire une inférence en déterminant laquelle des colonnes possibles de $k$ de $W$ minimise l'erreur de reconstruction ou la fonction énergie. Pour entraîner l'algorithme, nous pouvons adopter une approche où nous pouvons trouver $z$ pour choisir la colonne de $W$ la plus proche de $y$ et ensuite essayer de nous rapprocher encore plus en prenant un pas de gradient et en répétant le processus. Cependant, la descente en gradient coordonné fonctionne en fait mieux et plus rapidement.
+Avec une valeur de $y$ et $k$, nous pouvons faire une inférence en déterminant laquelle des colonnes possibles de $k$ de $W$ minimise l'erreur de reconstruction ou la fonction d'énergie. Pour entraîner l'algorithme, nous pouvons adopter une approche où nous pouvons trouver $z$ pour choisir la colonne de $W$ la plus proche de $y$ et ensuite essayer de nous rapprocher encore plus en prenant un pas de gradient et en répétant le processus. Cependant, la descente en gradient coordonné fonctionne en fait mieux et plus rapidement.
 
 Dans le graphique ci-dessous, nous pouvons voir les points de données le long de la spirale rose. Les taches noires entourant cette ligne correspondent à des puits quadratiques autour de chacun des prototypes de $W$.
 
 <center>
 <img src="{{site.baseurl}}/images/week07/07-2/5_spiral.png" width="50%"/><br>
-<b>Fig. 5</b> : Tracé en spirale
+<b>Figure 5 :</b> Tracé en spirale
 </center>
 
-Une fois que nous avons appris la fonction énergie, nous pouvons commencer à aborder des questions comme :
+Une fois que nous avons appris la fonction d'énergie, nous pouvons commencer à aborder des questions comme :
 1. Étant donné un point $y_1$, pouvons-nous prédire $y_2$ ?
 2. Avec $y$, pouvons-nous trouver le point le plus proche sur la surface de données ?
 
-K-means appartient aux méthodes architecturales (par opposition aux méthodes contrastives). Par conséquent, nous n'augmentons l'énergie nulle part, tout ce que nous faisons, c'est de la faire baisser dans certaines régions. Un inconvénient est qu'une fois que la valeur de $k$ a été décidée, il ne peut y avoir que des points $k$ qui ont une énergie de $0$, et tous les autres points auront une énergie plus élevée qui croîtra de façon quadratique à mesure que nous nous en éloignerons.
+Les K-means appartiennent aux méthodes architecturales (par opposition aux méthodes contrastives). Par conséquent, nous n'augmentons l'énergie nulle part, tout ce que nous faisons, c'est de la faire baisser dans certaines régions. Un inconvénient est qu'une fois que la valeur de $k$ a été décidée, il ne peut y avoir que des points $k$ qui ont une énergie de $0$, et tous les autres points auront une énergie plus élevée qui croîtra de façon quadratique à mesure que nous nous en éloignerons.
 
 
 <!--
@@ -272,13 +272,13 @@ There are several ways to find these candidates $y$'s that we want to raise ener
 We will briefly discuss denoising autoencoders and contrastive divergence.
 -->
 
-## Méthodes contrastives
+## Les méthodes contrastives
 
 Selon Yann, tout le monde utilisera un jour des méthodes architecturales, mais pour l'instant, ce sont les méthodes contrastives qui fonctionnent pour les images. Considérons la figure ci-dessous qui nous montre quelques points de données et les contours de la surface énergétique. Idéalement, nous voulons que la surface énergétique ait la plus faible énergie sur la surface de données. Par conséquent, nous aimerions réduire l'énergie (c'est-à-dire la valeur de $F(x,y)$) autour de l'exemple d’entraînement, mais cela peut ne pas suffire. C'est pourquoi nous l'augmentons également pour les $y$ dans la région qui devrait avoir une énergie élevée mais qui a une énergie faible.
 
 <center>
 <img src="{{site.baseurl}}/images/week07/07-2/6_contrastive_1.png" width="50%"/><br>
-<b>Fig. 6</b> : Méthodes contrastives
+<b>Figure 6 :</b> Méthodes contrastives
 </center>
 
 Il y a plusieurs façons de trouver ces candidats pour lesquels nous voulons collecter de l'énergie. En voici quelques exemples :
@@ -324,18 +324,18 @@ The following plot illustrates how we use the DAE.
 
 ### Auto-encodeur débruiteur (DAE)
 
-Une façon de trouver des $y$ pour augmenter l'énergie nécessaire est de perturber aléatoirement l'exemple d’entraînement comme le montrent les flèches vertes dans le graphique ci-dessous.
+Une façon de trouver des $y$ pour augmenter l'énergie nécessaire est de perturber aléatoirement l'exemple d’entraînement comme le montrent les flèches vertes dans le graphique ci-dessous :
 
 <center>
 <img src="{{site.baseurl}}/images/week07/07-2/7_contrastive_2.png" width="50%"/><br>
-<b>Fig. 7</b> : Carte topographique
+<b>Figure 7 :</b> Carte topographique
 </center>
 
-Une fois que nous avons un point de données corrompu, nous pouvons pousser l'énergie jusqu'ici. Si nous le faisons suffisamment de fois pour tous les points de données, l'échantillon d'énergie se recroquevillera autour des exemples d’entraînement. Le graphique suivant illustre la façon dont l’entraînement est effectué.
+Une fois que nous avons un point de données corrompu, nous pouvons pousser l'énergie jusqu'ici. Si nous le faisons suffisamment de fois pour tous les points de données, l'échantillon d'énergie se recroquevillera autour des exemples d’entraînement. Le graphique suivant illustre la façon dont l’entraînement est effectué :
 
 <center>
 <img src="{{site.baseurl}}/images/week07/07-2/8_training.png" width="50%"/><br>
-<b>Fig. 8</b> : Entraînement
+<b>Figure 8 :</b> Entraînement
 </center>
 
 Étapes de l’entraînement:
@@ -348,7 +348,7 @@ Le graphique suivant illustre la façon dont nous utilisons le DAE.
 
 <center>
 <img src="{{site.baseurl}}/images/week07/07-2/9_dae_use.png" width="50%"/><br>
-<b>Fig. 9</b> : Utilisation du DAE
+<b>Figure 9 :</b> Utilisation du DAE
 </center>
 
 <!--
@@ -373,8 +373,8 @@ Contrastive Divergence presents us with a smarter way to find the $y$ point that
 -->
 
 ### Divergence contrastive
-La divergence contrastive nous offre une façon plus intelligente de trouver le point de $y$ pour lequel nous voulons faire monter l'énergie. Nous pouvons donner un « coup de pied » aléatoire à notre point d'entraînement et ensuite descendre la fonction énergie en utilisant la descente de gradient. A la fin de la trajectoire, nous poussons l'énergie vers le haut pour le point où nous atterrissons. Ceci est illustré dans le graphique ci-dessous par la ligne verte.
+La divergence contrastive nous offre une façon plus intelligente de trouver le point de $y$ pour lequel nous voulons faire monter l'énergie. Nous pouvons donner un « coup de pied » aléatoire à notre point d'entraînement et ensuite descendre la fonction d'énergie en utilisant la descente de gradient. A la fin de la trajectoire, nous poussons l'énergie vers le haut pour le point où nous atterrissons. Ceci est illustré dans le graphique ci-dessous par la ligne verte.
 <center>
 <img src="{{site.baseurl}}/images/week07/07-2/10_contrastive_div.png" width="50%"/><br>
-<b>Fig. 10</b> : Divergence contrastive
+<b>Figure 10 :</b> Divergence contrastive
 </center>
diff --git a/docs/fr/week07/07-3.md b/docs/fr/week07/07-3.md
index 45fe354d8..e17b43487 100644
--- a/docs/fr/week07/07-3.md
+++ b/docs/fr/week07/07-3.md
@@ -29,7 +29,7 @@ Can you tell which face is fake in Fig. 1? In fact, both of them are produced by
 
 ### Génération d'images
 
-Pouvez-vous dire quel visage est faux dans la Fig. 1 ? En fait, les deux sont produits par le générateur StyleGan2. Bien que les détails du visage soient très réalistes, l'arrière-plan semble bizarre (à gauche : flou, à droite : objets déformés). Cela s'explique par le fait que le réseau neuronal est entraîné sur des échantillons de visages. L'arrière-plan présente alors une variabilité beaucoup plus importante. Ici, le collecteur de données a environ 50 dimensions, ce qui équivaut aux degrés de liberté d'une image de visage.
+Pouvez-vous dire quel visage est faux dans la figure 1 ? En fait, les deux sont produits par le générateur StyleGan2. Bien que les détails du visage soient très réalistes, l'arrière-plan semble bizarre (à gauche : flou, à droite : objets déformés). Cela s'explique par le fait que le réseau neuronal est entraîné sur des échantillons de visages. L'arrière-plan présente alors une variabilité beaucoup plus importante. Ici, la variété des données a environ 50 dimensions, ce qui équivaut aux degrés de liberté d'une image de visage.
 
 <center>
 <img src="{{site.baseurl}}/images/week07/07-3/1_faces_gen.jpg" height="150px" /><br>
@@ -67,21 +67,21 @@ Obviously, latent space is better at capturing the structure of an image.
 <center>
 <img src="{{site.baseurl}}/images/week07/07-3/2_dog.jpg" height="120px"/><img src="{{site.baseurl}}/images/week07/07-3/2_bird.jpg" height="120px"/>
 <br>
-<b>Fig. 2</b>: Un chien et un oiseau
+<b>Figure 2 :</b> Un chien et un oiseau
 </center>
 
-Si nous interpolons linéairement entre l'image du chien et celle de l'oiseau (Fig. 2) dans l'espace des pixels, nous obtiendrons une superposition de deux images en fondu dans la Fig. 3. Du haut à gauche au bas à droite, le poids de l'image du chien diminue et celui de l'image de l'oiseau augmente.
+Si nous interpolons linéairement entre l'image du chien et celle de l'oiseau (figure 2) dans l'espace des pixels, nous obtiendrons une superposition de deux images en fondu dans la figure 3. Du haut à gauche au bas à droite, le poids de l'image du chien diminue et celui de l'image de l'oiseau augmente.
 
 <center>
 <img src="{{site.baseurl}}/images/week07/07-3/3_dog2bird.jpg" height="200px"/><br>
-<b>Fig. 3</b>: Résultats après interpolation
+<b>Figure 3 :</b> Résultats après interpolation
 </center>
 
 Si nous interpolons sur deux représentations de l'espace latent et les transmettons au décodeur, nous obtiendrons la transformation du chien en oiseau de la figure 4.
 
 <center>
 <img src="{{site.baseurl}}/images/week07/07-3/4_model_d2b.jpg" height="200px"/><br>
-<b>Fig. 4</b>: Résultats après alimentation du décodeur
+<b>Figure 4 :</b> Résultats après alimentation du décodeur
 </center>
 
 De toute évidence, l'espace latent est plus efficace pour saisir la structure d'une image.
@@ -126,7 +126,7 @@ De toute évidence, l'espace latent est plus efficace pour saisir la structure d
 " height="120px"/><img src="{{site.baseurl}}/images/week07/07-3/5_zoom2.jpg
 " height="120px"/>
 <br>
-<b>Fig. 5</b>: Zoom
+<b>Figure 5 :</b> Zoom
 </center>
 
 <center>
@@ -134,20 +134,20 @@ De toute évidence, l'espace latent est plus efficace pour saisir la structure d
 " height="120px"/><img src="{{site.baseurl}}/images/week07/07-3/6_shift2.jpg
 " height="120px"/>
 <br>
-<b>Fig. 6</b>: Décalage
+<b>Figure 6 :</b> Décalage
 </center>
 
 <center>
 <img src="{{site.baseurl}}/images/week07/07-3/7_bright1.jpg
 " height="120px"/><img src="{{site.baseurl}}/images/week07/07-3/7_bright2.jpg" height="120px"/>
 <br>
-<b>Fig. 7</b>: Luminosité
+<b>Figure 7 :</b> Luminosité
 </center>
 
 <center>
 <img src="{{site.baseurl}}/images/week07/07-3/8_rotation1.jpg" height="120px"/><img src="{{site.baseurl}}/images/week07/07-3/8_rotation2.jpg" height="120px"/>
 <br>
-<b>Fig. 8</b>: Rotation (Notez que la rotation peut être en 3D)
+<b>Figure 8 :</b> Rotation (Notez que la rotation peut être en 3D)
 </center>
 
 
@@ -166,12 +166,11 @@ From the output images, it is clear that there exist biases in the training data
 
 ### Image en super-résolution
 
-Ce modèle vise à améliorer les images et à reconstruire les visages originaux. De gauche à droite sur la figure 9, la première colonne est l'image d'entrée 16x16, la deuxième est ce que vous obtiendriez avec une interpolation bicubique standard, la troisième est la sortie générée par le réseau neuronal, et à droite est la véritable image. (https://github.com/david-gpu/srez)
+Ce modèle vise à améliorer les images et à reconstruire les visages originaux. De gauche à droite sur la figure 9, la première colonne est l'image d'entrée 16x16, la deuxième est ce que vous obtiendriez avec une interpolation bicubique standard, la troisième est la sortie générée par le réseau neuronal, et à droite est la véritable image.
 
 <center><img src="{{site.baseurl}}/images/week07/07-3/9_reconstruct.jpg" height="120px"/>
 <br>
-<b>Fig. 9</b>: Reconstitution des visages originaux </center> 
-
+<b>Figure 9 :</b> Reconstitution des visages originaux </center> 
 
 D'après les images de sortie, il est clair qu'il existe des biais dans les données d’entraînement, ce qui rend les visages reconstruits inexacts. Par exemple, l'homme asiatique en haut à gauche a l'air européen dans les images de sortie en raison du déséquilibre des images d'entraînement. Le visage reconstruit des femmes en bas à gauche est bizarre en raison de l'absence d'images sous cet angle dans les données d’entraînement.
 
@@ -199,15 +198,15 @@ Putting a grey patch on the face like in Fig. 10 makes the image away from the t
 <center>
 <img src="{{site.baseurl}}/images/week07/07-3/10_facepatch.jpg" height="120px"/>
 <br>
-<b>Fig. 10</b>: Mise en place d'une tache grise sur les visages
+<b>Figure 10 :</b> Mise en place d'une tache grise sur les visages
 </center>
 
-En plaçant une tache grise sur le visage, comme sur la figure 10, on éloigne l'image du collecteur d'entraînement. La reconstruction du visage de la Fig. 11 est réalisée en trouvant l'échantillon d'image le plus proche sur le collecteur d'entraînement via la minimisation de la fonction énergie.
+En plaçant une tache grise sur le visage, comme sur la figure 10, on éloigne l'image de la variété d'entraînement. La reconstruction du visage de la figure 11 est réalisée en trouvant l'échantillon d'image le plus proche sur la variété d'entraînement via la minimisation de la fonction énergie.
 
 <center>
 <img src="{{site.baseurl}}/images/week07/07-3/11_fixfacepatch.jpg" height="120px"/>
 <br>
-<b>Fig. 11</b> : Image reconstruite de <b>Fig. 10</b>
+<b>Figure 11 :</b> Image reconstruite de la figure 10
 </center>
 
 
@@ -228,7 +227,7 @@ The translation from text description to image in Fig. 12 is achieved by extract
 <center>
 <img src="{{site.baseurl}}/images/week07/07-3/12_caption.jpg" height="50px"/><img src="{{site.baseurl}}/images/week07/07-3/12_capimage.jpg" height="150px"/>
 <br>
-<b>Fig. 12</b>: Exemple de génération d’images d’après une légende
+<b>Figure 12 :</b> Exemple de génération d’images d’après une légende
 </center>
 
 La traduction de la description textuelle en image de la figure 12 est réalisée en extrayant les représentations des caractéristiques textuelles associées à des informations visuelles importantes, puis en les décodant en images.
@@ -273,10 +272,10 @@ Les auto-encodeurs sont des réseaux de neurones artificiels, entraînés de man
 
 <center>
 <img src="{{site.baseurl}}/images/week07/07-3/13_ae_structure.png" width="40%"/> <br>
-<b>Fig. 13</b>: Architecture d'un auto-encodeur de base <br>
+<b>Figure 13 :</b> Architecture d'un auto-encodeur de base <br>
 </center>
 
-La figure 13 montre l'architecture d'un auto-encodeur de base. Comme précédemment, nous partons du bas avec l'entrée $\boldsymbol{x}$ qui est soumise à un encodeur (transformation affine définie par $\boldsymbol{W_h}$, suivie d'un écrasement). Il en résulte la couche cachée intermédiaire $\boldsymbol{h}$. Celle-ci est soumise au décodeur (une autre transformation affine définie par $\boldsymbol{W_x}$, suivie d'un autre écrasement). Cela produit la sortie $\boldsymbol{\hat{x}}}$, qui est la prédiction/reconstruction de l'entrée par notre modèle. Selon notre convention, nous disons qu'il s'agit d'un réseau de neurones à 3 couches.
+La figure 13 montre l'architecture d'un auto-encodeur de base. Comme précédemment, nous partons du bas avec l'entrée $\boldsymbol{x}$ qui est soumise à un encodeur (transformation affine définie par $\boldsymbol{W_h}$, suivie d'un écrasement). Il en résulte la couche cachée intermédiaire $\boldsymbol{h}$. Celle-ci est soumise au décodeur (une autre transformation affine définie par $\boldsymbol{W_x}$, suivie d'un autre écrasement). Cela produit la sortie $\boldsymbol{\hat{x}}$, qui est la prédiction/reconstruction de l'entrée par notre modèle. Selon notre convention, nous disons qu'il s'agit d'un réseau de neurones à 3 couches.
 
 Nous pouvons représenter mathématiquement le réseau ci-dessus en utilisant les équations suivantes :
 
@@ -310,7 +309,7 @@ Another application of an autoencoder is as an image compressor. If we have an i
 
 À ce stade, vous vous demandez peut-être à quoi sert la prédiction de l'entrée et quelles sont les applications des auto-encodeurs.
 
-Les principales applications d'un auto-encodeur sont la détection d'anomalies ou le débruitage d'images. Nous savons que la tâche d'un auto- encodeur est de pouvoir reconstruire des données qui vivent sur le collecteur, c'est-à-dire que si nous avons un collecteur de données, nous voudrions que notre auto-encodeur ne puisse reconstruire que l'entrée qui existe dans ce collecteur. Ainsi, nous contraignons le modèle à reconstruire les choses qui ont été observées pendant l'entraînement, et donc toute variation présente dans les nouvelles entrées sera supprimée parce que le modèle serait insensible à ce genre de perturbations.
+Les principales applications d'un auto-encodeur sont la détection d'anomalies ou le débruitage d'images. Nous savons que la tâche d'un auto- encodeur est de pouvoir reconstruire des données qui vivent sur la variété, c'est-à-dire que si nous avons une variété de données, nous voudrions que notre auto-encodeur ne puisse reconstruire que l'entrée qui existe dans cette variété. Ainsi, nous contraignons le modèle à reconstruire les choses qui ont été observées pendant l'entraînement, et donc toute variation présente dans les nouvelles entrées sera supprimée parce que le modèle serait insensible à ce genre de perturbations.
 
 Une autre application de l'auto-encodeur est la compression d'images. Si nous avons une dimension intermédiaire $d$ inférieure à la dimension d'entrée $n$, alors l’encodeur peut être utilisé comme un compresseur et les représentations cachées (représentations codées) traiteraient toutes (ou la plupart) des informations de l'entrée spécifique mais prendraient moins de place.
 
@@ -336,7 +335,7 @@ $$
 $$
 -->
 
-## Reconstruction loss
+## Perte de reconstruction
 
 Examinons maintenant les pertes liées à la reconstruction que nous utilisons généralement. La perte globale pour l'ensemble de données est donnée comme la perte moyenne par échantillon, c'est-à-dire
 
@@ -373,18 +372,18 @@ Since we are trying to reconstruct the input, the model is prone to copying all
 It is to be noted that an under-complete layer cannot behave as an identity function simply because the hidden layer doesn't have enough dimensions to copy the input. Thus an under-complete hidden layer is less likely to overfit as compared to an over-complete hidden layer but it could still overfit. For example, given a powerful encoder and a decoder, the model could simply associate one number to each data point and learn the mapping. There are several methods to avoid overfitting such as regularization methods, architectural methods, etc.
 -->
 
-## Couche cachée sous-/sur- complète
+## Couche cachée sous/sur-complète
 
 Lorsque la dimensionnalité de la couche cachée $d$ est inférieure à la dimensionnalité de l'entrée $n$, on dit qu'elle est sous la couche cachée complète. Et de même, lorsque $d>n$, nous disons qu'il s'agit d'une couche cachée sur complète. La figure 14 montre une couche cachée sous-complète à gauche et une couche cachée sur-complète à droite.
 
 <center>
 <img src="{{site.baseurl}}/images/week07/07-3/14_over_under_complete.png" width="60%"/> <br>
-<b>Fig. 14</b>: Une couche cachée sous-complète vs Une couche cachée sur-complète <br>
+<b>Figure 14 :</b> Une couche cachée sous-complète vs Une couche cachée sur-complète <br>
 </center>
 
 Comme nous l'avons vu plus haut, une couche cachée sous-complète peut être utilisée pour la compression car nous encodons les informations provenant de l'entrée en moins de dimensions. En revanche, dans une couche sur-complète, nous utilisons un codage de dimension plus élevée que l'entrée. Cela facilite l'optimisation.
 
-Comme nous essayons de reconstruire l'entrée, le modèle est enclin à copier toutes les caractéristiques d'entrée dans la couche cachée et à la faire passer comme sortie, se comportant ainsi essentiellement comme une fonction identité. Cela doit être évité car cela impliquerait que notre modèle n'apprend rien. Nous devons donc appliquer des contraintes supplémentaires en créant un goulot d'étranglement au niveau de l'information. Nous le faisons en limitant les configurations possibles que la couche cachée peut prendre aux seules configurations vues pendant l’entraînement. Cela permet une reconstruction sélective (limitée à un sous-ensemble de l'espace d'entrée) et rend le modèle insensible à tout ce qui ne se trouve pas dans le collecteur.
+Comme nous essayons de reconstruire l'entrée, le modèle est enclin à copier toutes les caractéristiques d'entrée dans la couche cachée et à la faire passer comme sortie, se comportant ainsi essentiellement comme une fonction identité. Cela doit être évité car cela impliquerait que notre modèle n'apprend rien. Nous devons donc appliquer des contraintes supplémentaires en créant un goulot d'étranglement au niveau de l'information. Nous le faisons en limitant les configurations possibles que la couche cachée peut prendre aux seules configurations vues pendant l’entraînement. Cela permet une reconstruction sélective (limitée à un sous-ensemble de l'espace d'entrée) et rend le modèle insensible à tout ce qui ne se trouve pas dans la variété.
 
 Il est à noter qu'une couche sous-complète ne peut pas se comporter comme une fonction d'identité simplement parce que la couche cachée n'a pas assez de dimensions pour copier l'entrée. Ainsi, une couche cachée sous-complète a moins de chances de faire du surentraînement qu'une couche cachée sur-complète. Néanmoins elle peut quand même en faire. Par exemple, avec un encodeur et un décodeur puissants, le modèle pourrait simplement associer un numéro à chaque point de données et apprendre la cartographie. Il existe plusieurs méthodes pour éviter le surentraînement, telles que les méthodes de régularisation, les méthodes architecturales, etc.
 
@@ -421,17 +420,17 @@ We can also use different colours to represent the distance of each input point
 The lighter the colour, the longer the distance a point travelled. From the diagram, we can tell that the points at the corners travelled close to 1 unit, whereas the points within the 2 branches didn't move at all since they are attracted by the top and bottom branches during the training process.
 -->
 
-## Auto-encodeur de débruitage
+## Auto-encodeur débruiteur
 
-La figure 15 montre les multiples possibilités de l'auto-encodeur de débruitage et l'intuition de son fonctionnement.
+La figure 15 montre les multiples possibilités de l'auto-encodeur débruiteur et l'intuition de son fonctionnement.
 
 <center>
 <img src="{{site.baseurl}}/images/week07/07-3/15_denoising_ae.png" width="500px" /><br>
-<b>Fig. 15</b> : Auto-encodeur de débruitage<br>
+<b>Figure 15 :</b> Auto-encodeur débruiteur<br>
 </center>
 
 Dans ce modèle, nous supposons que nous injectons la même distribution de bruit que celle que nous allons observer dans la réalité, afin que nous puissions apprendre à nous en remettre de manière robuste.
-En comparant l'entrée et la sortie, nous pouvons dire que les points qui se trouvaient déjà sur les données du collecteur n'ont pas bougé, et que les points qui étaient éloignés du collecteur ont beaucoup bougé.
+En comparant l'entrée et la sortie, nous pouvons dire que les points qui se trouvaient déjà sur la variété des données n'ont pas bougé et que les points qui étaient éloignés sur la variété ont beaucoup bougé.
 
 La figure 16 présente la relation entre les données d'entrée et les données de sortie.
 
@@ -439,15 +438,15 @@ La figure 16 présente la relation entre les données d'entrée et les données
 <img src="{{site.baseurl}}/images/week07/07-3/16_relation1.png" width="350px" />
 <img src="{{site.baseurl}}/images/week07/07-3/16_relation2.png" width="330px" />
 <br>
-<b>Fig. 16</b>: Entrée et sortie de l'auto-encodeur de débruitage<br>
+<b>Figure 16 :</b> Entrée et sortie de l'auto-encodeur débruiteur<br>
 </center>
 
 
-Nous pouvons également utiliser différentes couleurs pour représenter la distance de chaque mouvement de point d'entrée, la Fig.17 montre le diagramme.
+Nous pouvons également utiliser différentes couleurs pour représenter la distance de chaque mouvement de point d'entrée, la figure 17 montre le diagramme.
 
 <center>
 <img src="{{site.baseurl}}/images/week07/07-3/17_distance.png" width="500px" /><br>
-<b>Fig. 17</b>: Mesure de la distance parcourue par les données d'entrée <br>
+<b>Figure 17 :</b> Mesure de la distance parcourue par les données d'entrée <br>
 </center>
 
 Plus la couleur est claire, plus la distance parcourue par un point est longue. D'après le diagramme, nous pouvons dire que les points aux coins ont parcouru une distance proche de 1 unité, alors que les points à l'intérieur des 2 branches n'ont pas bougé du tout puisqu'ils sont attirés par les branches supérieures et inférieures pendant le processus d’entraînement.
@@ -479,11 +478,11 @@ The training manifold is a single-dimensional object going in three dimensions.
 
 ## Auto-encoder contractif
 
-La figure 18 montre la fonction de perte de l'auto-encodeur contractif et du collecteur.
+La figure 18 montre la fonction de perte de l'auto-encodeur contractif et de la variété.
 
 <center>
 <img src="{{site.baseurl}}/images/week07/07-3/18_contractive_ae.png" width="500px" /><br>
-<b>Fig. 18</b> : Auto-encodeur contractif <br>
+<b>Figure 18 :</b> Auto-encodeur contractif <br>
 </center>
 
 La fonction de perte contient le terme de reconstruction plus la norme au carré du gradient de la représentation cachée par rapport à l'entrée. Par conséquent, la perte globale minimisera la variation de la couche cachée compte tenu de la variation de l'entrée. L'avantage serait de rendre le modèle sensible aux directions de reconstruction tout en étant insensible aux autres directions possibles.
@@ -492,10 +491,10 @@ La figure 19 montre comment ces auto-encodeurs fonctionnent en général.
 
 <center>
 <img src="{{site.baseurl}}/images/week07/07-3/19_basic_ae.png" width="500px" /><br>
-<b>Fig. 19</b>: Auto-encoder de base<br>
+<b>Figure 19 :</b> Auto-encodeur standard<br>
 </center>
 
-Le collecteur d'entraînement est un objet unidimensionnel allant à trois dimensions. Où $\boldsymbol{x}\in \boldsymbol{X}\subseteq\mathbb{R}^{n}$, le but de l'auto-encodeur est d'étirer la ligne bouclée dans une direction, où $\boldsymbol{z}\in \boldsymbol{Z}\subseteq\mathbb{R}^{d}$. En conséquence, un point de la couche d'entrée sera transformé en un point de la couche latente. Nous avons maintenant la correspondance entre les points de l'espace d'entrée et les points de l'espace latent, mais pas la correspondance entre les régions de l'espace d'entrée et les régions de l'espace latent. Ensuite, nous utiliserons le décodeur pour transformer un point de la couche latente afin de générer une couche de sortie significative.
+La variété d'entraînement est un objet unidimensionnel allant à trois dimensions. Où $\boldsymbol{x}\in \boldsymbol{X}\subseteq\mathbb{R}^{n}$, le but de l'auto-encodeur est d'étirer la ligne bouclée dans une direction, où $\boldsymbol{z}\in \boldsymbol{Z}\subseteq\mathbb{R}^{d}$. En conséquence, un point de la couche d'entrée sera transformé en un point de la couche latente. Nous avons maintenant la correspondance entre les points de l'espace d'entrée et les points de l'espace latent, mais pas la correspondance entre les régions de l'espace d'entrée et les régions de l'espace latent. Ensuite, nous utiliserons le décodeur pour transformer un point de la couche latente afin de générer une couche de sortie significative.
 
 
 <!--
@@ -507,9 +506,9 @@ In this notebook, we are going to implement a standard autoencoder and a denoisi
 -->
 ## [Notebook : Implémenter l'auto-encodeur](https://www.youtube.com/watch?v=bggWQ14DD9M&t=2491s)
 
-Le notebook Jupyter se trouve [ici](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/10-autoencoder.ipynb).
+La version anglaise du *notebook* Jupyter se trouve [ici](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/10-autoencoder.ipynb) et la version française [ici](https://github.com/lbourdois/pytorch-Deep-Learning-Notebooks-in-French/blob/master/10-autoencoder.ipynb).
 
-Dans ce notebook, nous allons implémenter un auto-encodeur standard et un auto-encodeur de débruitage, puis comparer les résultats.
+Dans ce *notebook*, nous allons implémenter un auto-encodeur standard et un auto-encodeur débruiteur, puis comparer les résultats.
 
 <!--
 ### Define autoencoder model architecture and reconstruction loss
@@ -542,7 +541,7 @@ criterion = nn.MSELoss()
 
 ### Définir l'architecture du modèle d'auto-encodeur et la perte de reconstruction
 
-On utilise une image à $28 \times 28$ et une couche cachée en 30 dimensions. La routine de transformation passerait de $784$ à $30$ à $784 $. En appliquant la fonction tangente hyperbolique à la routine d'encodage et de décodage, nous sommes en mesure de limiter la plage de sortie à $(-1, 1)$. La perte d'erreur quadratique moyenne (MSE) sera utilisée comme fonction de perte de ce modèle.
+On utilise une image à $28 \times 28$ et une couche cachée en 30 dimensions. La routine de transformation passerait de $784$ à $30$ à $784$. En appliquant la fonction tangente hyperbolique à la routine d'encodage et de décodage, nous sommes en mesure de limiter la plage de sortie à $(-1, 1)$. La perte d'erreur quadratique moyenne (MSE) sera utilisée comme fonction de perte de ce modèle.
 
 ```python=
 class Autoencoder(nn.Module):
@@ -634,18 +633,18 @@ Fig. 21 shows the output of the denoising autoencoder.
 </center>
 -->
 
-### Entraîner un auto-encodeur de débruitage
+### Entraîner un auto-encodeur débruiteur
 
-Pour l’auto-encodeur de débruitage, vous devez ajouter les étapes suivantes:<br>
+Pour l’auto-encodeur débruiteur, vous devez ajouter les étapes suivantes:<br>
 1) Appeler `nn.Dropout()` pour éteindre les neurones de façon aléatoire. <br>
 2) Créer un masque de bruit : `do(torch.ones(img.shape))`.<br>
 3) Créez de mauvaises images en multipliant les bonnes images aux masques binaires : `img_bad = (img * noise).to(device)`.
 
-La figure 21 montre la sortie de l'auto-encodeur de débruitage.
+La figure 21 montre la sortie de l'auto-encodeur débruiteur.
 
 <center>
 <img src="{{site.baseurl}}/images/week07/07-3/22_out_denoising_ae.png" width="500px" /><br>
-<b>Fig. 21</b>: Sortie de l'auto-encodeur de débruitage <br>
+<b>Figure 21 :</b> Sortie de l'auto-encodeur débruiteur<br>
 </center>
 
 
@@ -698,25 +697,25 @@ Vous trouverez ci-dessous des exemples de noyaux utilisés dans l'auto-encodeur
 <img src="{{site.baseurl}}/images/week07/07-3/AE_kernels.png" style="zoom: 40%; background-color:#DCDCDC;" /><br>
 <b>Figure 22:</b> Noyaux d’auto-encodeurs standards.
 </center>
-D'autre part, lorsque les mêmes données sont transmises à un auto-encodeur de débruitage où un masque de dropout est appliqué à chaque image avant l’application du modèle, quelque chose de différent se produit. Chaque noyau qui apprend un modèle fixe les pixels en dehors de la région où le nombre existe à une certaine valeur constante. Comme un masque de dropout est appliqué aux images, le modèle se préoccupe maintenant des pixels situés en dehors de la région où le nombre existe.
+D'autre part, lorsque les mêmes données sont transmises à un auto-encodeur débruiteur où un masque de dropout est appliqué à chaque image avant l’application du modèle, quelque chose de différent se produit. Chaque noyau qui apprend un modèle fixe les pixels en dehors de la région où le nombre existe à une certaine valeur constante. Comme un masque de dropout est appliqué aux images, le modèle se préoccupe maintenant des pixels situés en dehors de la région où le nombre existe.
 <center>
 <img src="{{site.baseurl}}/images/week07/07-3/denoiser_kernels.png" style="zoom: 50%; background-color:#DCDCDC;" /><br>
-<b>Figure 23:</b> Noyaux d’auto-encodeurs de débruitage.
+<b>Figure 23:</b> Noyaux d’auto-encodeurs débruiteur
 </center>
 Par rapport à l'état de l'art, notre auto-encodeur fait en fait mieux ! Vous pouvez voir les résultats ci-dessous.
 <center>
 <img src="{{site.baseurl}}/images/week07/07-3/AE_output.png" style="zoom: 40%; background-color:#DCDCDC;" /><br>
-<b>Figure 24:</b> Données d’entrées (MNIST).
+<b>Figure 24 :</b> Données d’entrées (MNIST)
 </center>
 <center>
 <img src="{{site.baseurl}}/images/week07/07-3/denoiser_output.png" style="zoom: 40%; background-color:#DCDCDC;" /><br>
-<b>Figure 25:</b> Reconstructions de l'auto-encodeur de débruitage.
+<b>Figure 25 :</b> Reconstructions de l'auto-encodeur débruiteur
 </center>
 <center>
 <img src="{{site.baseurl}}/images/week07/07-3/telea_output.png" style="zoom: 40%; background-color:#DCDCDC;" /><br>
-<b>Figure 26:</b> Sortie obtenue via Telea.
+<b>Figure 26 :</b> Sortie obtenue via Telea
 </center>
 <center>
 <img src="{{site.baseurl}}/images/week07/07-3/navier-stokes_output.png" style="zoom: 40%; background-color:#DCDCDC;" /><br>
-<b>Figure 27:</b> Sortie obtenue via Navier-Stokes.
+<b>Figure 27 :</b> Sortie obtenue via Navier-Stokes
 </center>
diff --git a/docs/fr/week07/07.md b/docs/fr/week07/07.md
index 7e4ca9c94..11f0708bb 100644
--- a/docs/fr/week07/07.md
+++ b/docs/fr/week07/07.md
@@ -13,10 +13,10 @@ We introduced the concept of the energy-based models and the intention for diffe
 -->
 
 
-## Conférence partie A
+## Cours magistral partie A
 
 
-Nous introduisons le concept des modèles à base d’énergie (EBM en anglais comme abréviation de energy-based models) et l'intention d'adopter des approches différentes autres que les réseaux feed-forward. Pour résoudre la difficulté de l'inférence chez les EBM, des variables latentes sont utilisées pour fournir des informations auxiliaires et permettre de multiples prédictions. Enfin, les EBM peuvent être généraliser aux modèles probabilistes avec des fonctions de notation plus souples.
+Nous introduisons le concept des modèles à base d’énergie (EBMs pour *energy-based models*) et l'intention d'adopter des approches différentes autres que les réseaux *feed-forward*. Pour résoudre la difficulté de l'inférence chez les EBMs, des variables latentes sont utilisées pour fournir des informations auxiliaires et permettre de multiples prédictions. Enfin, les EBMs peuvent être généralisés aux modèles probabilistes avec des fonctions de notation plus souples.
 
 
 <!--
@@ -25,9 +25,9 @@ Nous introduisons le concept des modèles à base d’énergie (EBM en anglais c
 We discussed self-supervised learning, introduced how to train an Energy-based models, discussed Latent Variable EBM, specifically with an explained K-means example. We also introduced Contrastive Methods, explained a denoising autoencoder with a topographic map, the training process, and how it can be used, followed by an introduction to BERT. Finally, we talked about Contrastive Divergence, also explained using a topographic map.
 -->
 
-## Conférence partie B
+## Cours magistral partie B
 
-Nous discutons de l'apprentissage auto-supervisé, présentons la manière d’entraîné un EBM, discutons de la gestion des variables latentes, en particulier avec l’exemple des K-means. Nous présentons également les méthodes contrastives, expliquons un auto-encoders de débruitage avec une carte topographique ainsi que le processus d’entraînement et la façon dont il peut être utilisé. Nous poursuivons avec une introduction à BERT. Enfin, nous parlons de la Divergence Contrastive, également expliquée à l'aide d'une carte topographique.
+Nous discutons de l'apprentissage autosupervisé, présentons la manière d’entraîné un EBM, discutons de la gestion des variables latentes, en particulier avec l’exemple des K-means. Nous présentons également les méthodes contrastives, expliquons le fonctionnement d'auto-encodeur débruiteur avec une carte topographique ainsi que le processus d’entraînement et la façon dont il peut être utilisé. Nous poursuivons avec une introduction à BERT. Enfin, nous parlons de la divergence contrastive, également expliquée à l'aide d'une carte topographique.
 
 
 <!--
@@ -36,6 +36,5 @@ Nous discutons de l'apprentissage auto-supervisé, présentons la manière d’e
 We discussed some applications of Autoencoders and talked about why we want to use them. Then we talked about different architectures of Autoencoders (under or over complete hidden layer), how to avoid overfitting issues and the loss functions we should use. Finally we implemented a standard Autoencoder and a denoising Autoencoder.
 -->
 
-## Pratique
+## Travaux dirigés
 Nous discutons de certaines applications des auto-encodeurs et des raisons pour lesquelles nous voulons les utiliser. Nous parlons ensuite des différentes architectures d'auto-encodeurs (sous ou sur une couche cachée complète), de la manière d'éviter les problèmes de surentraînement et des fonctions de perte que nous devrions utiliser. Enfin, nous mettons en place un auto-encodeur standard et un auto-encodeur débruiteur.
-
diff --git a/docs/fr/week08/08-1.md b/docs/fr/week08/08-1.md
index 52e4f5e6c..1027edb09 100644
--- a/docs/fr/week08/08-1.md
+++ b/docs/fr/week08/08-1.md
@@ -26,15 +26,15 @@ Maximum Likelihood method probabilistically pushes down energies at training dat
 
 ## [Recapitulatif](https://www.youtube.com/watch?v=ZaVP2SY23nc&t=5s)
 
-Yann a passé les 15 premières minutes à passer en revue les modèles à base d’énergie (EBM). Veuillez-vous référer à la semaine dernière (notes de la semaine 7) pour ces informations, en particulier le concept de méthodes d'apprentissage contrastives.
+Yann a passé les 15 premières minutes à passer en revue les modèles à base d’énergie (EBMs). Veuillez-vous référer aux notes de la semaine 7 pour ces informations, en particulier le concept de méthodes d'apprentissage contrastives.
 
-Comme nous l'avons appris lors de la dernière conférence, il existe deux grandes catégories de méthodes d'apprentissage :
+Comme nous l'avons vu lors du dernier cours, il existe deux grandes catégories de méthodes d'apprentissage :
 1. Les méthodes contrastives qui poussent vers le bas l'énergie des points des données d’entraînement, $F(x_i, y_i)$, tout en poussant vers le haut l'énergie sur tous les autres points, $F(x_i, y')$.
-2. Les méthodes architecturales qui construisent une fonction énergie$F$ qui a minimisé/limité les régions à faible énergie en appliquant une régularisation.
+2. Les méthodes architecturales qui construisent une fonction d'énergie $F$ qui a minimisé/limité les régions à faible énergie en appliquant une régularisation.
 
-Pour distinguer les caractéristiques des différentes méthodes d'entraînement, Yann a résumé 7 stratégies d'entraînement des deux classes mentionnées précédemment. L'une d'entre elles est une méthode similaire à la méthode du maximum de vraisemblance, qui pousse l'énergie des points de données vers le bas et vers le haut partout ailleurs.
+Pour distinguer les caractéristiques des différentes méthodes d'entraînement, Yann a résumé sept stratégies d'entraînement des deux classes mentionnées précédemment. L'une d'entre elles est une méthode similaire à la méthode du maximum de vraisemblance, qui pousse l'énergie des points de données vers le bas et vers le haut partout ailleurs.
 
-La méthode du maximum de vraisemblance pousse de façon probabiliste les énergies vers le bas les points des données d'entraînement et vers le haut partout ailleurs pour chaque autre valeur de $y'\neq y_i$. La méthode du maximum de vraisemblance ne se "soucie" pas des valeurs absolues des énergies, mais seulement de la différence entre les énergies. Comme la distribution des probabilités est toujours normalisée à 1, la comparaison du rapport entre deux points donnés est plus utile que la simple comparaison des valeurs absolues.
+La méthode du maximum de vraisemblance pousse de façon probabiliste les énergies vers le bas les points des données d'entraînement et vers le haut partout ailleurs pour chaque autre valeur de $y'\neq y_i$. La méthode du maximum de vraisemblance ne se soucie pas des valeurs absolues des énergies, mais seulement de la différence entre les énergies. Comme la distribution des probabilités est toujours normalisée à 1, la comparaison du rapport entre deux points donnés est plus utile que la simple comparaison des valeurs absolues.
 
 
 <!--
@@ -47,13 +47,13 @@ In self-supervised learning, we use one part of the input to predict the other p
 Researchers have found empirically that applying contrastive _embedding_ methods to self-supervised learning models can indeed have good performances which rival that of supervised models. We will explore some of these methods and their results below.
 -->
 
-## [Méthodes contrastives en apprentissage auto-supervisé](https://www.youtube.com/watch?v=ZaVP2SY23nc&t=613s)
+## [Méthodes contrastives en apprentissage autosupervisé](https://www.youtube.com/watch?v=ZaVP2SY23nc&t=613s)
 
 Dans les méthodes contrastives, nous poussons vers le bas l'énergie des points des données d'entraînement observés ($x_i$, $y_i$), tout en poussant vers le haut l'énergie des points en dehors de la surface des données d'entraînement.
 
-Dans l'apprentissage auto-supervisé, nous utilisons une partie des données d'entrée pour prédire les autres parties. Nous espérons que notre modèle peut produire de bonnes caractéristiques pour la vision par ordinateur qui rivalisent avec celles des tâches supervisées.
+Dans l'apprentissage autosupervisé, nous utilisons une partie des données d'entrée pour prédire les autres parties. Nous espérons que notre modèle peut produire de bonnes caractéristiques pour la vision par ordinateur qui rivalisent avec celles des tâches supervisées.
 
-Les chercheurs ont constaté empiriquement que l'application de méthodes d’enchâssement contrastives (contrastive _embedding_ methods) à des modèles d'apprentissage auto-supervisé peut effectivement avoir de bonnes performances qui rivalisent avec celles des modèles supervisés. Nous allons explorer certaines de ces méthodes et leurs résultats ci-dessous.
+Les chercheurs ont constaté empiriquement que l'application de méthodes d’enchâssement contrastives (*contrastive embedding methods*) à des modèles d'apprentissage autosupervisé peut effectivement avoir de bonnes performances qui rivalisent avec celles des modèles supervisés. Nous allons explorer certaines de ces méthodes et leurs résultats ci-dessous.
 
 
 <!--
@@ -82,16 +82,16 @@ Recent results (on ImageNet) have shown that this method can produce features th
 
 ### Méthodes d’enchâssement contrastives
 
-Considérons une paire ($x$, $y$), telle que $x$ est une image et $y$ est une transformation de $x$ qui préserve son contenu (rotation, grossissement, recadrage, etc...). Nous appelons cette paire, une paire **positive**.
+Considérons une paire ($x$, $y$), telle que $x$ est une image et $y$ est une transformation de $x$ qui préserve son contenu (rotation, grossissement, recadrage, etc.). Nous appelons cette paire, une paire **positive**.
 
 <center><img src="{{site.baseurl}}/images/week08/08-1/fig1.png" width="50%"/><br>
-<b>Figure 1</b> : Paire positive
+<b>Figure 1 :</b> Paire positive
 </center>
 
 Conceptuellement, les méthodes d’enchâssement contrastives prennent un réseau convolutif et alimentent $x$ et $y$ à travers ce réseau pour obtenir deux vecteurs de caractéristiques : $h$ et $h'$. Comme $x$ et $y$ ont le même contenu (c'est-à-dire une paire positive), nous voulons que leurs vecteurs de caractéristiques soient aussi similaires que possible. Par conséquent, nous choisissons une métrique de similarité (telle que la similarité cosinus) et une fonction de perte qui maximise la similarité entre $h$ et $h'$. Ce faisant, nous réduisons l'énergie des images sur la surface des données d'entraînement.
 
 <center><img src="{{site.baseurl}}/images/week08/08-1/fig2.png" width="50%"/><br>
-<b>Fig. 2</b> : Paire négative
+<b>Figure 2 :</b> Paire négative
 </center>
 
 Cependant, nous devons également pousser l'énergie des points situés en dehors de cette surface. Ainsi, nous générons également des échantillons **négatifs** ($x_{\text{neg}}$, $y_{\text{neg}}$), des images au contenu différent (labels de classe différents, par exemple). Nous les transmettons à notre réseau ci-dessus, obtenons les vecteurs de caractéristiques $h$ et $h'$, et essayons maintenant de minimiser la similarité entre eux.
@@ -134,16 +134,16 @@ Answer: With an L2 norm, it's very easy to make two vectors similar by making th
 -->
 
 
-### Résultats des méthodes auto-supervisées (MoCo, PIRL, SimCLR)
+### Résultats des méthodes autosupervisées (MoCo, PIRL, SimCLR)
 
 <center>
 <img src="{{site.baseurl}}/images/week08/08-1/fig3.png" height="75%" width="75%"/><br>
-<b>Figure 3</b> : PIRL et MoCo sur ImageNet
+<b>Figure 3 :</b> PIRL et MoCo sur ImageNet
 </center>
 
 Comme le montre la figure ci-dessus, les méthodes MoCo et PIRL obtiennent les résultats d’état de l’art (en particulier pour les modèles de faible capacité, avec un petit nombre de paramètres). PIRL commence à se rapprocher du top 1 de la précision linéaire des baseline supervisées (~75%).
 
-Nous pouvons mieux comprendre PIRL en examinant sa fonction objectif : NCE (Noise Contrastive Estimator) comme suit :
+Nous pouvons mieux comprendre PIRL en examinant sa fonction objectif, la NCE (*Noise Contrastive Estimator*), comme suit :
 
 $$
 h(v_I,v_{I^t})=\frac{\exp\big[\frac{1}{\tau}s(v_I,v_{I^t})\big]}{\exp\big[\frac{1}{\tau}s(v_I,v_{I^t})\big]+\sum_{I'\in D_{N}}\exp\big[\frac{1}{\tau}s(v_{I^t},v_{I'})\big]}
@@ -162,8 +162,9 @@ Dans un mini-batch, nous aurons une paire positive (similaire) et de nombreuses
 
 Yann mentionne que pour que cela fonctionne, il faut un grand nombre d'échantillons négatifs. Dans le SGD, il peut être difficile de maintenir de façon constante un grand nombre de ces échantillons négatifs à partir de mini batchs. C'est pourquoi PIRL utilise également une banque de mémoire cache.
 
-**Question** : Pourquoi utilisons-nous la similarité du cosinus au lieu de la norme L2 ?
-Réponse : Avec une norme L2, il est très facile de rendre deux vecteurs similaires en les rendant "courts" (proches du centre) ou de rendre deux vecteurs dissemblables en les rendant très "longs" (éloignés du centre). En effet, la norme L2 n'est qu'une somme des carrés des différences partielles entre les vecteurs. Ainsi, l'utilisation de la similarité du cosinus oblige le système à trouver une bonne solution sans "tricher" en rendant les vecteurs courts ou longs.
+**Pourquoi utilisons-nous la similarité du cosinus au lieu de la norme L2 ?**
+> Avec une norme L2, il est très facile de rendre deux vecteurs similaires en les rendant « courts »  (proches du centre) ou de rendre deux vecteurs dissemblables en les rendant très « longs » (éloignés du centre). En effet, la norme L2 n'est qu'une somme des carrés des différences partielles entre les vecteurs. Ainsi, l'utilisation de la similarité du cosinus oblige le système à trouver une bonne solution sans « tricher » en rendant les vecteurs courts ou longs.
+
 
 <!--
 ### SimCLR
@@ -180,9 +181,9 @@ SimCLR shows better results than previous methods. In fact, it reaches the perfo
 
 <center>
 <img src="{{site.baseurl}}/images/week08/08-1/fig5.png" height="75%" width="75%"/><br>
-<b>Fig. 4</b>: Résultats de SimCLR sur ImageNet</center>
+<b>Figure 4 :</b> Résultats de SimCLR sur ImageNet</center>
 
-SimCLR donne de meilleurs résultats que les méthodes précédentes. En fait, elle atteint les performances des méthodes supervisées sur ImageNet, avec une « top-1 linear accuracy » sur ImageNet. La technique utilise une méthode sophistiquée d'augmentation des données pour générer des paires similaires, et elles s'entraînent pendant un temps considérable (avec des batchs très très importants) sur les TPU. Yann pense que SimCLR, dans une certaine mesure, montre la limite des méthodes contrastives. Il y a beaucoup beaucoup de régions dans un espace à haute dimension où il faut pousser l'énergie vers le haut pour s'assurer qu'elle est effectivement plus élevée que sur la surface de données. Au fur et à mesure que vous augmentez la dimension de la représentation, vous avez besoin de plus en plus d'échantillons négatifs pour vous assurer que l'énergie est plus élevée dans les endroits qui ne sont pas sur la surface.
+SimCLR donne de meilleurs résultats que les méthodes précédentes. En fait, elle atteint les performances des méthodes supervisées avec une « *top-1 linear accuracy* » sur ImageNet. La technique utilise une méthode sophistiquée d'augmentation des données pour générer des paires similaires et elles s'entraînent pendant un temps considérable (avec des batchs très très importants) sur les TPUs. Yann pense que SimCLR, dans une certaine mesure, montre la limite des méthodes contrastives. Il y a beaucoup beaucoup de régions dans un espace en grande dimension où il faut pousser l'énergie vers le haut pour s'assurer qu'elle est effectivement plus élevée que sur la surface de données. Au fur et à mesure que vous augmentez la dimension de la représentation, vous avez besoin de plus en plus d'échantillons négatifs pour vous assurer que l'énergie est plus élevée dans les endroits qui ne sont pas sur la surface.
 
 <!--
 ## [Denoising autoencoder](https://www.youtube.com/watch?v=ZaVP2SY23nc&t=1384s)
@@ -197,11 +198,11 @@ In [week 7's practicum](https://atcold.github.io/pytorch-Deep-Learning/en/week07
 
 ## [Auto-encodeur débruiteur](https://www.youtube.com/watch?v=ZaVP2SY23nc&t=1384s)
 
-Dans [le cas pratique de la semaine 7](https://atcold.github.io/pytorch-Deep-Learning/en/week07/07-3/), nous avons discuté de l’auto-encodeur débruiteur. Le modèle tend à apprendre la représentation des données en reconstruisant l'entrée corrompue à l'entrée originale. Plus précisément, nous entraînons le système à produire une fonction énergiequi croît quadratiquement à mesure que les données corrompues s'éloignent de la surface de données.
+Dans [les travaux dirigés de la semaine 7](https://atcold.github.io/pytorch-Deep-Learning/fr/week07/07-3/), nous avons discuté de l’auto-encodeur débruiteur. Le modèle tend à apprendre la représentation des données en reconstruisant l'entrée corrompue à l'entrée originale. Plus précisément, nous entraînons le système à produire une fonction d'énergie qui croît quadratiquement à mesure que les données corrompues s'éloignent de la surface de données.
 
 <center>
 <img src="{{site.baseurl}}/images/week08/08-1/fig6.png" height="75%" width="75%"/><br>
-<b>Fig. 5</b>: Architecture de l’auto-encodeur débruiteur
+<b>Figure 5 :</b> Architecture de l’auto-encodeur débruiteur
 </center>
 
 
@@ -213,7 +214,7 @@ However, there are several problems with denoising autoencoders. One problem is
 
 ### Problèmes
 
-Cependant, l’auto-encodeur débruiteur pose plusieurs problèmes. L'un des problèmes est que dans un espace continu de grande dimension, il existe d'innombrables façons de corrompre une donnée. Il n'y a donc aucune garantie que nous puissions modeler la fonction énergie en poussant simplement sur un grand nombre d'endroits différents. Un autre problème avec le modèle est qu'il est peu performant lorsqu'il s'agit d'images en raison de l'absence de variables latentes. Comme il existe de nombreuses façons de reconstruire les images, le système produit diverses prédictions et n'apprend pas de caractéristiques particulièrement bonnes. En outre, les points corrompus au milieu de la surface pourraient être reconstruits des deux côtés. Cela créera des points plats dans la fonction énergie et affectera la performance globale.
+Cependant, l’auto-encodeur débruiteur pose plusieurs problèmes. L'un des problèmes est que dans un espace continu de grande dimension, il existe d'innombrables façons de corrompre une donnée. Il n'y a donc aucune garantie que nous puissions modeler la fonction d'énergie en poussant simplement sur un grand nombre d'endroits différents. Un autre problème avec le modèle est qu'il est peu performant lorsqu'il s'agit d'images en raison de l'absence de variables latentes. Comme il existe de nombreuses façons de reconstruire les images, le système produit diverses prédictions et n'apprend pas de caractéristiques particulièrement bonnes. En outre, les points corrompus au milieu de la surface pourraient être reconstruits des deux côtés. Cela créera des points plats dans la fonction d'énergie et affectera la performance globale.
 
 <!--
 ## Other Contrastive Methods
@@ -223,7 +224,7 @@ There are other contrastive methods such as contrastive divergence, Ratio Matchi
 
 ## Autres méthodes contrastives
 
-Il existe d'autres méthodes contrastives telles que la divergence contrastive, le Ratio Matching, le Noise Contrastive Estimation, ou encore le Minimum Probability Flow. Nous aborderons brièvement l'idée de base de la divergence contrastive.
+Il existe d'autres méthodes contrastives telles que la divergence contrastive, le *Ratio Matching*, le *Noise Contrastive Estimation* ou encore le *Minimum Probability Flow*. Nous aborderons brièvement l'idée de base de la divergence contrastive.
 
 
 <!--
@@ -234,7 +235,7 @@ Contrastive divergence (CD) is another model that learns the representation by s
 
 ### Divergence contrastive
 
-La divergence contrastive est un autre modèle qui apprend la représentation en corrompant intelligemment l'échantillon d'entrée. Dans un espace continu, nous choisissons d'abord un échantillon d'entraînement $y$ et nous en diminuons l'énergie. Pour cet échantillon, nous utilisons une sorte de processus basé sur des gradients pour descendre à la surface de l'énergie avec du bruit. Si l'espace d'entrée est discret, nous pouvons à la place perturber l'échantillon d'entraînement de manière aléatoire pour modifier l'énergie. Si l'énergie que nous obtenons est plus faible, nous la gardons. Sinon, nous la rejetons avec une certaine probabilité. Si nous continuons ainsi, nous finirons par diminuer l'énergie de $y$. Nous pouvons alors mettre à jour le paramètre de notre fonction énergie en comparant $y$ et l'échantillon contrasté $\bar y$ avec une certaine fonction de perte.
+La divergence contrastive est un autre modèle qui apprend la représentation en corrompant intelligemment l'échantillon d'entrée. Dans un espace continu, nous choisissons d'abord un échantillon d'entraînement $y$ et nous en diminuons l'énergie. Pour cet échantillon, nous utilisons une sorte de processus basé sur des gradients pour descendre à la surface de l'énergie avec du bruit. Si l'espace d'entrée est discret, nous pouvons à la place perturber l'échantillon d'entraînement de manière aléatoire pour modifier l'énergie. Si l'énergie que nous obtenons est plus faible, nous la gardons. Sinon, nous la rejetons avec une certaine probabilité. Si nous continuons ainsi, nous finirons par diminuer l'énergie de $y$. Nous pouvons alors mettre à jour le paramètre de notre fonction d'énergie en comparant $y$ et l'échantillon contrasté $\bar y$ avec une certaine fonction de perte.
 
 
 <!--
@@ -245,4 +246,4 @@ One of the refinements of contrastive divergence is persistent contrastive diver
 
 ### Divergence contrastive persistante
 
-L'un des raffinements de la divergence contrastive est la divergence contrastive persistante. Le système utilise un groupe de "particules" et se souvient de leurs positions. Ces particules sont déplacées vers le bas sur la surface d'énergie, tout comme nous l'avons fait dans la divergence contrastive ordinaire. Finalement, elles trouveront des endroits à faible énergie dans notre surface énergétique et les feront monter. Cependant, le système ne s'adapte pas bien à l'échelle car la dimensionnalité augmente.
+L'un des raffinements de la divergence contrastive est la divergence contrastive persistante. Le système utilise un groupe de « particules » et se souvient de leurs positions. Ces particules sont déplacées vers le bas sur la surface d'énergie, tout comme nous l'avons fait dans la divergence contrastive ordinaire. Finalement, elles trouveront des endroits à faible énergie dans notre surface énergétique et les feront monter. Cependant, le système ne s'adapte pas bien à l'échelle car la dimensionnalité augmente.
diff --git a/docs/fr/week08/08-2.md b/docs/fr/week08/08-2.md
index 2fdd08bac..fc37dae5d 100644
--- a/docs/fr/week08/08-2.md
+++ b/docs/fr/week08/08-2.md
@@ -2,7 +2,7 @@
 lang: fr
 lang-ref: ch.08-2
 lecturer: Yann Le Cun
-title: EBM à variables latentes régularisées
+title: EBMs à variables latentes régularisées
 authors: Henry Steinitz, Rutvi Malaviya, Aathira Manoj
 date: 23 Mar 2020
 translation-date: 08 Aug 2020
@@ -30,17 +30,15 @@ $$E(x,y,z) = C(y, \text{Dec}(\text{Pred}(x), z)) + \lambda R(z)$$
 This method will limit the volume of space of $z$ which takes a small value and the value which will, in turn, controls the space of $y$ that has low energy. The value of $\lambda$ controls this tradeoff. A useful example of $R$ is the $L_1$ norm, which can be viewed as an almost everywhere differentiable approximation of effective dimension. Adding noise to $z$ while limiting its $L_2$ norm can also limit its information content (VAE).
 -->
 
-## [EBM à variables latentes régularisées](https://www.youtube.com/watch?v=ZaVP2SY23nc&t=2233s)
+## [EBMs à variables latentes régularisées](https://www.youtube.com/watch?v=ZaVP2SY23nc&t=2233s)
 
-Les modèles avec variables latentes sont capables de faire une distribution de prédictions $\overline{y}$ conditionnée par une entrée observée $x$ et une *variable latente* supplémentaire $z$. Les modèles à base d’énergie peuvent également contenir des variables latentes :
+Les modèles avec variables latentes sont capables de faire une distribution de prédictions $\overline{y}$ conditionnée par une entrée observée $x$ et une variable latente supplémentaire $z$. Les modèles à base d’énergie peuvent également contenir des variables latentes :
 
 <center>
 <img src="{{site.baseurl}}/images/week08/08-2/fig1.png" height="50%" width="50%"/><br>
-<b>Fig. 1</b> : Exemple d'un EBM avec une variable latente
+<b>Figure 1 :</b> : Exemple d'un EBM à variable latente
 </center>
 
-Voir les notes de la conférence précédente pour plus de détails.
-
 Malheureusement, si la variable latente $z$ a une trop grande puissance expressive dans la production de la prédiction finale $\overline{y}$, chaque sortie réelle $y$ sera parfaitement reconstruite à partir de l'entrée $x$ avec un $z$ choisi de manière appropriée. Cela signifie que la fonction d'énergie sera partout égale à 0, puisque l'énergie est optimisée à la fois sur $y$ et $z$ pendant l'inférence.
 
 Une solution naturelle consiste à limiter la capacité d'information de la variable latente $z$. Un moyen d'y parvenir est de régulariser la variable latente :
@@ -90,10 +88,10 @@ The inner expression $Z(t) - \frac{1}{L}W_d^\top(W_dZ(t) - Y)$ is a gradient ste
 
 <center>
 <img src="{{site.baseurl}}/images/week08/08-2/fig2.png" width="90%"/><br>
-<b>Figure 2</b> : Graphique de calcul de FISTA
+<b>Figure 2 :</b> Grpahe de calcul de FISTA
 </center>
 
-FISTA (fast ISTA) est un algorithme qui optimise la fonction d'énergie de codage épars $E(y,z)$ par rapport à $z$ en optimisant alternativement les deux termes $\Vert y - Wz\Vert^2$ et $\lambda \Vert z\Vert_{L^1}$. Nous initialisons $Z(0)$ et mettons à jour itérativement $Z$ selon la règle suivante :
+FISTA (*fast ISTA*) est un algorithme qui optimise la fonction d'énergie de codage épars $E(y,z)$ par rapport à $z$ en optimisant alternativement les deux termes $\Vert y - Wz\Vert^2$ et $\lambda \Vert z\Vert_{L^1}$. Nous initialisons $Z(0)$ et mettons à jour itérativement $Z$ selon la règle suivante :
 
 $$z(t + 1) = \text{Shrinkage}_\frac{\lambda}{L}(z(t) - \frac{1}{L}W_d^\top(W_dZ(t) - y))$$
 
@@ -137,7 +135,7 @@ FISTA est trop coûteux pour être appliqué à des ensembles de données de gra
 
 <center>
 <img src="{{site.baseurl}}/images/week08/08-2/fig3.png" height="50%" width="50%"/><br>
-<b>Fig. 3</b> : EBM avec encodeur à variables latentes
+<b>Figure 3 :</b> Encodeur d'un EBM à variables latentes
 </center>
 
 L'énergie de cette architecture comprend alors un terme supplémentaire qui mesure la différence entre la variable latente prédite $\overline z$ et la variable latente optimale $z$ :
@@ -158,7 +156,7 @@ Cette règle de mise à jour peut être interprétée comme un réseau récurren
 
 <center>
 <img src="{{site.baseurl}}/images/week08/08-2/fig4.png" height="70%" width="80%"/><br>
-<b>Fig. 4</b> : LISTA comme un réseau récurrent déployé à travers le temps.
+<b>Figure 4 :</b> LISTA comme un réseau récurrent déployé à travers le temps
 </center>
 
 
@@ -181,7 +179,7 @@ Lorsqu'un système de codage épars avec un vecteur latent à 256 dimensions est
 
 <center>
 <img src="{{site.baseurl}}/images/week08/08-2/fig5.png" height="70%" width="90%"/><br>
-<b>Fig. 5</b> : Codage épars sur MNIST. Chaque image est une colonne apprise de $W$.
+<b>Figure 5 :</b> Codage épars sur MNIST. Chaque image est une colonne apprise de $W$
 </center>
 
 Lorsqu'un système de codage épars est entraîné sur des images naturelles, les caractéristiques apprises sont les filtres de Gabor, qui sont des bords orientés. Ces caractéristiques ressemblent aux caractéristiques apprises dans les premières parties des systèmes visuels des animaux.
@@ -233,12 +231,12 @@ The figure above is another example on colour images. The decoding kernel (on th
 
 <center>
 <img src="{{site.baseurl}}/images/week08/08-2/fig6.png" height="90%" width="90%"/><br>
-<b>Fig.6</b> Filtres et fonctions de base obtenus. Décodeur convolutionnel linéaire
+<b>Figure 6 :</b> Filtres et fonctions de base obtenus. Décodeur convolutionnel linéaire
 </center>
 
 Les filtres de l'encodeur et du décodeur se ressemblent beaucoup. L'encodeur est simplement une convolution suivie d'une certaine non-linéarité, puis une couche diagonale pour changer l'échelle. Ensuite, il y a une faible contrainte sur le code. Le décodeur n'est qu'un décodeur linéaire convolutif et la reconstruction est ici l'erreur quadratique.
 
-Donc, si nous imposons qu'il n'y ait qu'un seul filtre, alors il s'agit juste d'un filtre de type « center surround ». Avec deux filtres, nous pouvons obtenir des filtres de forme étrange. Avec quatre filtres, nous obtenons des bords orientés (horizontaux et verticaux) ; nous obtenons 2 polarités pour chacun des filtres. Avec huit filtres, nous pouvons obtenir des bords orientés à 8 orientations différentes. Avec 16 filtres, nous obtenons plus d'orientation ainsi que les center surround. En augmentant les filtres, on obtient des filtres plus variés, c'est-à-dire en plus des détecteurs de bords, on obtient également des détecteurs de réseaux de différentes orientations, des center surround, etc.
+Donc, si nous imposons qu'il n'y ait qu'un seul filtre, alors il s'agit juste d'un filtre de type *center surround*. Avec deux filtres, nous pouvons obtenir des filtres de forme étrange. Avec quatre filtres, nous obtenons des bords orientés (horizontaux et verticaux) et 2 polarités pour chacun des filtres. Avec huit filtres, nous pouvons obtenir des bords orientés à 8 orientations différentes. Avec 16 filtres, nous obtenons plus d'orientation ainsi que les *center surround*. En augmentant les filtres, on obtient des filtres plus variés, c'est-à-dire en plus des détecteurs de bords, on obtient également des détecteurs de réseaux de différentes orientations, des *center surround*, etc.
 
 Ce phénomène semble intéressant car il est similaire à ce que nous observons dans le cortex visuel. C'est donc une indication que nous pouvons apprendre de très bonnes caractéristiques d'une manière totalement non supervisée.
 
@@ -246,7 +244,7 @@ Par ailleurs, si nous prenons ces caractéristiques et les connectons à un rés
 
 <center>
 <img src="{{site.baseurl}}/images/week08/08-2/fig7.png" height="90%" width="90%"/><br>
-<b>Fig. 7 </b> Codage convolutif épars sur image couleur
+<b>Figure :7 </b> Codage convolutif épars sur image couleur
 </center>
 
 La figure ci-dessus est un autre exemple sur les images en couleur. Le noyau de décodage (sur le côté droit) est de taille 9 par 9. Ce noyau est appliqué par convolution sur l'ensemble de l'image. L'image de gauche est constituée des codes épars de l’encodeur. Le vecteur $Z$ est un espace très épars où il n'y a que peu de composantes blanches ou noires (non grises).
@@ -285,7 +283,7 @@ It is also possible to adapt the size of the fuzzy balls. This is limited by a p
 -->
 
 ### [Auto-encodeurs variationnels](https://www.youtube.com/watch?v=ZaVP2SY23nc&t=4371s)
-Les auto-encodeurs variationnels ont une architecture similaire à celle des EBM (Regularized Latent Variable), à l'exception de l’éparsité. Au contraire, le contenu informationnel du code est limité en le rendant bruyant.
+Les auto-encodeurs variationnels ont une architecture similaire à celle des EBMs à variable latente régularisée, à l'exception de l’éparsité. Au contraire, le contenu informationnel du code est limité en le rendant bruyant.
 <center>
 <img src="{{site.baseurl}}/images/week08/08-2/fig8.png" height="50%" width="50%"/><br>
 <b>Fig. 8</b> : Architecture de l'auto-encodeur variationnel
@@ -293,15 +291,17 @@ Les auto-encodeurs variationnels ont une architecture similaire à celle des EBM
 La variable latente $z$ n'est pas calculée en minimisant la fonction énergie par rapport à $z$. Au lieu de cela, la fonction énergie est considérée comme un échantillonnage aléatoire de $z$ selon une distribution dont le logarithme est le coût qui la relie à ${\overline z}$. La distribution est une gaussienne avec une moyenne de ${\overline z}$ et cela se traduit par l'ajout d'un bruit gaussien à ${\overline z}$.
 
 Les vecteurs de code avec ajout de bruit gaussien peuvent être visualisés sous forme de boules floues, comme le montre la figure 9(a).
-| <center><img src="{{site.baseurl}}/images/week08/08-2/fig9.png" height="75%" width="75%"/><br>(a) Ensemble original de boules floues </center> | <center><img src="{{site.baseurl}}/images/week08/08-2/fig10.png" height="75%" width="75%"/><br>(b) Mouvement de boules floues dû à la minimisation de l'énergie sans régularisation</center> |
-<center><b>Fig. 9:</b> Effet de la minimisation de l'énergie sur les boules floues</center>
 
-Le système essaie de rendre les vecteurs de code ${\overline z}$ aussi grands que possible afin que l'effet de $z$(bruit) soit aussi petit que possible. Cela a pour résultat que les boules floues s'éloignent de l'origine comme le montre la figure 9(b). Une autre raison pour laquelle le système tente de rendre les vecteurs de code plus grands est d'éviter le chevauchement des boules floues, qui entraîne une confusion du décodeur entre les différents échantillons lors de la reconstruction.
+| <center><img src="{{site.baseurl}}/images/week08/08-2/fig9.png" height="75%" width="75%"/><br>(a) Ensemble original de « boules floues » </center> | <center><img src="{{site.baseurl}}/images/week08/08-2/fig10.png" height="75%" width="75%"/><br>(b)Mouvement de « boules floues » dû à la minimisation de l'énergie sans régularisation |
+
+<center><b>Figure 9 :</b> Effet de la minimisation de l'énergie sur les « boules floues »</center>
+
+Le système essaie de rendre les vecteurs de code ${\overline z}$ aussi grands que possible afin que l'effet de $z$ (bruit) soit aussi petit que possible. Cela a pour résultat que les « boules floues » s'éloignent de l'origine comme le montre la figure 9(b). Une autre raison pour laquelle le système tente de rendre les vecteurs de code plus grands est d'éviter le chevauchement des « boules floues », qui entraîne une confusion du décodeur entre les différents échantillons lors de la reconstruction.
 Mais nous voulons que les boules floues se regroupent autour d'une surface de données, s'il y en a un. Ainsi, les vecteurs de code sont régularisés pour avoir une moyenne et une variance proches de zéro. Pour ce faire, nous les relions à l'origine par un ressort comme le montre la figure 10.
 
 <center>
 <img src="{{site.baseurl}}/images/week08/08-2/fig11.png" height="50%" width="50%"/><br>
-<b>Fig. 10</b> : Effets de la régularisation visualisés avec des ressorts
+<b>Figure 10 :</b> Effets de la régularisation visualisés avec des ressorts
 </center>
-La force du ressort détermine la proximité des boules floues par rapport à l'origine. Si le ressort est trop faible, les boules s'envoleront de l'origine. Et si le ressort est trop fort, alors elles s'effondreraient à l'origine, ce qui entraînerait une valeur énergétique élevée. Pour éviter cela, le système ne laisse les sphères se chevaucher que si les échantillons correspondants sont similaires.
-Il est également possible d'adapter la taille des boules floues. Ceci est limité par une fonction de pénalité (KL Divergence) qui tente de rendre la variance proche de 1 afin que la taille de la boule ne soit ni trop grande ni trop petite pour qu'elle s'effondre.
+La force du ressort détermine la proximité des « boules floues » par rapport à l'origine. Si le ressort est trop faible, les boules s'envoleront de l'origine. Et si le ressort est trop fort, alors elles s'effondreraient à l'origine, ce qui entraînerait une valeur d'énergie élevée. Pour éviter cela, le système ne laisse les sphères se chevaucher que si les échantillons correspondants sont similaires.
+Il est également possible d'adapter la taille des boules floues. Ceci est limité par une fonction de pénalité (*KL Divergence*) qui tente de rendre la variance proche de 1 afin que la taille de la boule ne soit ni trop grande ni trop petite pour qu'elle s'effondre.
diff --git a/docs/fr/week08/08-3.md b/docs/fr/week08/08-3.md
index 26af33dee..fc7a9fc89 100644
--- a/docs/fr/week08/08-3.md
+++ b/docs/fr/week08/08-3.md
@@ -23,12 +23,12 @@ To summarize at a high level, a very simple form of AE is as follows:
 
 ### [Récapitulatif : Auto-encodeur (AE)](https://www.youtube.com/watch?v=7Rb4s9wNOmc&t=155s)
 
-Pour résumer l’AE de manière très simple :
+Pour résumer l'auto-encodeur de manière très simple :
 
 - Tout d'abord, l'auto-encodeur prend une entrée et l'associe à un état caché par une transformation affine $\boldsymbol{h} = f(\boldsymbol{W}_h \boldsymbol{x} + \boldsymbol{b}_h)$, où $f$ est une fonction d'activation (par élément). C'est l'étape de **l'encodeur**. Notez que $\boldsymbol{h}$ est également appelé le **code**.
 - Ensuite, $\hat{\boldsymbol{x}} = g(\boldsymbol{W}_x \boldsymbol{h} + \boldsymbol{b}_x)$, où $g$ est une fonction d'activation. C'est l'étape du **décodeur**.
 
-*Pour une explication détaillée, voir les notes de [Semaine 7]({{site.baseurl}}/fr/semaine07/07-3/).*
+Pour une explication détaillée, voir les notes de [Semaine 7]({{site.baseurl}}/fr/semaine07/07-3/).
 
 
 <!--
@@ -57,25 +57,25 @@ In fact, for classic autoencoder, we can think of $\boldsymbol{h}$ as just the v
 
 ### Intuition derrière les VAE et comparaison avec les auto-encodeurs classiques
 
-Ensuite, nous présentons les auto-encodeurs variationnels (ou VAE), un type de modèles génératifs. Mais pourquoi s'intéresser aux modèles génératifs ? Pour répondre à la question, les modèles discriminants apprennent à faire des prédictions à partir de certaines observations, mais les modèles génératifs visent à simuler le processus de génération de données. Un des effets est que les modèles génératifs peuvent mieux comprendre les relations causales sous-jacentes, ce qui conduit à une meilleure généralisation.
+Ensuite, nous présentons les auto-encodeurs variationnels (ou VAEs), un type de modèles génératifs. Mais pourquoi s'intéresser aux modèles génératifs ? Pour répondre à la question, les modèles discriminants apprennent à faire des prédictions à partir de certaines observations, mais les modèles génératifs visent à simuler le processus de génération de données. Un des effets est que les modèles génératifs peuvent mieux comprendre les relations causales sous-jacentes, ce qui conduit à une meilleure généralisation.
 
-Il est à noter que bien que le nom VAE contienne des auto-encodeurs (AE) (en raison de la similarité structurelle ou architecturale avec les auto-encodeurs), les formulations entre VAE et AE sont très différentes. Voir *Figure 1* ci-dessous.
+Il est à noter que bien que le nom VAE contienne des auto-encodeurs (AE), en raison de la similarité structurelle ou architecturale avec les auto-encodeurs, les formulations entre VAE et AE sont très différentes.
 
 <center>
 <img src="{{site.baseurl}}/images/week08/08-3/fig_1.png" height="400px" /><br>
-<b>Figure 1</b> : VAE vs. AE classique
+<b>Figure 1 :</b> VAE vs AE classique
 </center>
 
 **Quelle est la différence entre l'auto-encodeur variationnel (VAE) et l'auto-encodeur classique (AE) ?**
 
-Pour VAE :
+Pour le VAE :
 - D'abord, l'étape de l'encodeur : nous passons l'entrée $\boldsymbol{x}$ à l'encodeur. Au lieu de générer une représentation cachée $\boldsymbol{h}$ (le code) dans AE, le code dans VAE comprend deux choses : $\mathbb{E}(\boldsymbol{z})$ et $\mathbb{V}(\boldsymbol{z})$ où $\boldsymbol{z}$ est la variable aléatoire latente suivant une distribution gaussienne avec la moyenne $\mathbb{E}(\boldsymbol{z})$ et la variance $\mathbb{V}(\boldsymbol{z})$. Notez qu'en pratique, les gens utilisent les distributions gaussiennes comme distribution encodée, mais d'autres distributions peuvent également être utilisées.
 - L'encodeur sera une fonction de $\mathcal{X}$ à $\mathbb{R}^{2d}$ : $\boldsymbol{x} \mapsto \boldsymbol{h}$ (ici nous utilisons $\boldsymbol{h}$ pour représenter la concaténation de $\mathbb{E}(\boldsymbol{z})$ et $\mathbb{V}(\boldsymbol{z})$).
 - Ensuite, nous allons échantillonner $\boldsymbol{z}$ à partir de la distribution ci-dessus paramétrée par l'encodeur ; plus précisément, $\mathbb{E}(\boldsymbol{z})$ et $\mathbb{V}(\boldsymbol{z})$ sont passés dans un **échantillonneur** pour générer la variable latente $\boldsymbol{z}$.
 - Ensuite, $\boldsymbol{z}$ est passé dans le décodeur pour générer $\hat{\boldsymbol{x}}$.
-- Le décodeur sera une fonction de $\mathcal{Z}$ à $\mathbb{R}^{n}$ : $\boldsymbol{z}$. \mapsto \boldsymbol{\hat{x}}$.
+- Le décodeur sera une fonction de $\mathcal{Z}$ à $\mathbb{R}^{n}$: $\boldsymbol{z} \mapsto \boldsymbol{\hat{x}}$.
 
-En fait, pour l'auto-encodeur classique, on peut considérer $\boldsymbol{h}$ comme le vecteur $\E(\boldsymbol{z})$ de la formulation VAE. En bref, la principale différence entre les VAE et les AE est que les VAE ont un bon espace latent qui permet le processus de génération.
+En fait, pour l'auto-encodeur classique, on peut considérer $\boldsymbol{h}$ comme le vecteur $\E(\boldsymbol{z})$ de la formulation VAE. En bref, la principale différence entre les VAEs et les AEs est que les VAEs ont un bon espace latent qui permet le processus de génération.
 
 
 
@@ -101,16 +101,16 @@ As usual, to train VAE, we minimize a loss function. The loss function is theref
 
 <center>
 <img src="{{site.baseurl}}/images/week08/08-3/fig_2.png" /><br>
-<b>Figure 2</b> : Cartographie de l'espace d'entrée à l'espace latent
+<b>Figure 2 :</b> De l'espace d'entrée vers l'espace latent
 </center>
 
-*Voir la figure 2 ci-dessus. Pour l'instant, ignorez le coin supérieur droit (qui est l'astuce de reparamétrage expliquée dans la section suivante).*
+Décrivons cette figure 2 ci-dessus. Commençons par ignorer le coin supérieur droit (qui est l'astuce de reparamétrage expliquée dans la section suivante).
 
 D'abord nous encodons, de l'espace d'entrée (à gauche) à l'espace latent (à droite), en passant par l'encodeur et le bruit. Ensuite, nous décodons de l'espace latent (à droite) à l'espace de sortie (à gauche). Pour passer de l'espace latent à l'espace d'entrée (le processus de génération), nous devrons soit apprendre la distribution (du code latent), soit appliquer une certaine structure. Dans notre cas, le VAE applique une certaine structure à l'espace latent.
 
 Comme d'habitude, pour entraîner le VAE, nous minimisons une fonction de perte. La fonction de perte est donc composée d'un terme de reconstruction ainsi que d'un terme de régularisation.
 - Le terme de reconstruction se trouve sur la dernière couche (côté gauche de la figure). Cela correspond à $l(\boldsymbol{x}, \hat{\boldsymbol{x}})$ dans la figure.
-- Le terme de régularisation se trouve sur la couche latente, pour renforcer une structure gaussienne spécifique sur l'espace latent (côté droit de la figure). Pour ce faire, nous utilisons un terme de pénalité $l_{KL}(\boldsymbol{z}, \mathcal{N}(\boldsymbol{0}, \boldsymbol{I}_d))$. Sans ce terme, le VAE agira comme un auto-encodeur classique, ce qui peut conduire à du sur-apprentissage, et nous n'aurons pas les propriétés génératrices que nous souhaitons.
+- Le terme de régularisation se trouve sur la couche latente, pour renforcer une structure gaussienne spécifique sur l'espace latent (côté droit de la figure). Pour ce faire, nous utilisons un terme de pénalité $l_{KL}(\boldsymbol{z}, \mathcal{N}(\boldsymbol{0}, \boldsymbol{I}_d))$. Sans ce terme, le VAE agira comme un auto-encodeur classique, ce qui peut conduire à du surentraînement, et nous n'aurons pas les propriétés génératrices que nous souhaitons.
 
 
 <!--
@@ -125,7 +125,7 @@ Instead, we use the **reparameterization trick** to "sample" $\boldsymbol{z}$. W
 
 Comment prélever un échantillon de la distribution renvoyée par l'encodeur dans la VAE ? Selon ce qui précède, nous effectuons un échantillonnage à partir de la distribution gaussienne, afin d'obtenir $\boldsymbol{z}$. Cependant, cela est problématique, car lorsque nous effectuons une descente de gradient pour entraîner le modèle VAE, nous ne savons pas comment effectuer la rétropropagation par le module d'échantillonnage.
 
-Nous utilisons plutôt l'astuce du **reparamétrage** pour "échantillonner" $\boldsymbol{z}$. Nous utilisons $\boldsymbol{z} = \mathbb{E}(\boldsymbol{z}) + \boldsymbol{\epsilon} \odot \sqrt{\mathbb{V}(\boldsymbol{z})}$ où $\epsilon\sim \mathcal{N}(\boldsymbol{0}, \boldsymbol{I}_d)$. Dans ce cas, la rétropropagation lors de l'entraînement est possible. Plus précisément, les gradients passeront par la multiplication (par élément) et l'addition dans l'équation ci-dessus.
+Nous utilisons plutôt l'astuce du **reparamétrage** pour échantillonner $\boldsymbol{z}$. Nous utilisons $\boldsymbol{z} = \mathbb{E}(\boldsymbol{z}) + \boldsymbol{\epsilon} \odot \sqrt{\mathbb{V}(\boldsymbol{z})}$ où $\epsilon\sim \mathcal{N}(\boldsymbol{0}, \boldsymbol{I}_d)$. Dans ce cas, la rétropropagation lors de l'entraînement est possible. Plus précisément, les gradients passeront par la multiplication (par élément) et l'addition dans l'équation ci-dessus.
 
 
 <!--
@@ -172,26 +172,26 @@ $$
 
 ### Visualisation des estimations de variables latentes et de la perte de reconstruction
 
-Comme indiqué ci-dessus, la fonction de perte pour le VAE comporte deux parties : un terme de reconstruction et un terme de régularisation.  On peut écrire cela comme
+Comme indiqué ci-dessus, la fonction de perte pour le VAE comporte deux parties : un terme de reconstruction et un terme de régularisation. On peut écrire cela comme :
 
 $$
 l(\boldsymbol{x}, \hat{\boldsymbol{x}}) = l_{reconstruction} + \beta l_{\text{KL}}(\boldsymbol{z},\mathcal{N}(\textbf{0}, \boldsymbol{I}_d))
 $$
 
-Pour visualiser l'objectif de chaque terme dans la fonction de perte, nous pouvons penser à chaque valeur estimée de $\boldsymbol{z}$ comme un cercle dans un espace de $2d$, où le centre du cercle est $\mathbb{E}(\boldsymbol{z})$ et la zone environnante sont les valeurs possibles de $\boldsymbol{z}$ déterminées par $\mathbb{V}(\boldsymbol{z}).$.
+Pour visualiser l'objectif de chaque terme dans la fonction de perte, nous pouvons penser à chaque valeur estimée de $\boldsymbol{z}$ comme un cercle dans un espace de $2d$, où le centre du cercle est $\mathbb{E}(\boldsymbol{z})$ et la zone environnante sont les valeurs possibles de $\boldsymbol{z}$ déterminées par $\mathbb{V}(\boldsymbol{z})$.
 
 <center>
 <img src="{{site.baseurl}}/images/week08/08-3/fig_3.png" height="350px" /><br>
-<b>Figure 3</b> : Visualisation du vecteur $z$ sous forme de bulles dans l'espace latent
+<b>Figure 3 :</b> Visualisation du vecteur $z$ sous forme de bulles dans l'espace latent
 </center>
 
-*Dans la figure 3 ci-dessus, chaque bulle représente une région estimée à $\boldsymbol{z}$, et les flèches représentent comment le terme de reconstruction éloigne chaque valeur estimée des autres, ce qui est expliqué plus en détail ci-dessous.*
+Dans la figure 3 ci-dessus, chaque bulle représente une région estimée à $\boldsymbol{z}$, et les flèches représentent comment le terme de reconstruction éloigne chaque valeur estimée des autres, ce qui est expliqué plus en détail ci-dessous.
 
-S'il y a un chevauchement entre deux estimations de $z$, (visuellement, si deux bulles se chevauchent), cela crée une ambiguïté pour la reconstruction car les points de chevauchement peuvent être mis en correspondance avec les deux entrées originales. Par conséquent, la perte de reconstruction éloignera les points l'un de l'autre.
+S'il y a un chevauchement entre deux estimations de $z$, (visuellement si deux bulles se chevauchent), cela crée une ambiguïté pour la reconstruction car les points de chevauchement peuvent être mis en correspondance avec les deux entrées originales. Par conséquent, la perte de reconstruction éloignera les points l'un de l'autre.
 
 Cependant, si nous n'utilisons que la perte de reconstruction, les estimations continueront à être éloignées l'une de l'autre et le système pourrait exploser.  C'est là qu'intervient le terme de pénalité.
 
-**Note : pour les entrées binaires, la perte de reconstruction est
+Note : pour les entrées binaires, la perte de reconstruction est
 
 $$
 l(\boldsymbol{x}, \hat{\boldsymbol{x}}) = - \sum\limits_{i=1}^n [x_i \log{(\hat{x_i})} + (1 - x_i)\log{(1-\hat{x_i})}]].
@@ -247,7 +247,7 @@ $$
 \beta l_{\text{KL}}(\boldsymbol{z},\mathcal{N}(\textbf{0}, \boldsymbol{I}_d)) = \frac{\beta}{2} \sum\limits_{i=1}^d(\mathbb{V}(z_i) - \log{[\mathbb{V}(z_i)]} - 1 + \mathbb{E}(z_i)^2)
 $$
 
-Où chaque expression de la sommation comporte quatre termes. Ci-dessous, nous écrivons les trois premiers termes dans la *Figure 4* et nous les reportons sur un graphique.
+Chaque expression de la somme comporte quatre termes. Ci-dessous, nous écrivons les trois premiers termes dans la figure 4 et nous les reportons sur un graphique.
 
 $$
 v_i = \mathbb{V}(z_i) - \log{[\mathbb{V}(z_i)]} - 1
@@ -255,22 +255,21 @@ $$
 
 <center>
 <img src="{{site.baseurl}}/images/week08/08-3/fig_4.png" /><br>
-<b>Fig. 4</b> : Graphique montrant comment l'entropie relative force les bulles à avoir une variance = 1
+<b>Figue 4 :</b> Graphique montrant comment l'entropie relative force les bulles à avoir une variance de 1
 </center>
 
-On peut donc voir que cette expression est minimisée lorsque $z_i$ a la variance 1.  Par conséquent, notre perte de pénalité maintiendra la variance de nos variables latentes estimées à environ 1. Visuellement, cela signifie que nos "bulles" du haut auront un rayon d'environ 1.
+On peut donc voir que cette expression est minimisée lorsque $z_i$ a la variance 1. Par conséquent, notre perte de pénalité maintiendra la variance de nos variables latentes estimées à environ 1. Visuellement, cela signifie que nos « bulles » du haut auront un rayon d'environ 1.
 
-Le dernier terme, $\mathbb{E}(z_i)^2$, minimise la distance entre les $z_i$ et empêche donc l'"explosion" favorisée par le terme de reconstruction.
+Le dernier terme, $\mathbb{E}(z_i)^2$, minimise la distance entre les $z_i$ et empêche donc l'explosion favorisée par le terme de reconstruction.
 
 <center>
 <img src="{{site.baseurl}}/images/week08/08-3/fig_5.png" height="400px"/><br>
-<b>Fig. 5</b> : L'interprétation "bulle-de-bulle" de la VAE
+<b>Figure 5 :</b> L'interprétation « bulle-de-bulle » du VAE
 </center>
 
-*La figure 5 ci-dessus montre comment la perte du VAE a poussé les variables latentes estimées aussi près que possible l'une de l'autre sans aucun chevauchement tout en maintenant la variance estimée de chaque point autour de un.*
-
-**Note:** Le $\beta$ dans la fonction de perte du VAE est un hyperparamètre qui dicte comment pondérer les termes de reconstruction et de pénalité.
+La figure 5 ci-dessus montre comment la perte du VAE a poussé les variables latentes estimées aussi près que possible l'une de l'autre sans aucun chevauchement tout en maintenant la variance estimée de chaque point autour de un.
 
+Note : le $\beta$ dans la fonction de perte du VAE est un hyperparamètre qui dicte comment pondérer les termes de reconstruction et de pénalité.
 
 
 <!--
@@ -283,13 +282,13 @@ In this notebook, we implement a VAE and train it on the MNIST dataset. Then we
 **Note:** In the MNIST dataset used, the pixel values have been normalized to be in range $[0, 1]$.
 -->
 
-## [Mise en œuvre de l'auto-encodeur variationnel (VAE)](https://www.youtube.com/watch?v=7Rb4s9wNOmc&t=1893s)
+## [Implémentation de l'auto-encodeur variationnel (VAE)](https://www.youtube.com/watch?v=7Rb4s9wNOmc&t=1893s)
 
-Le notebook Jupyter se trouve [ici](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/11-VAE.ipynb).
+La version anglaise du *notebook* Jupyter se trouve [ici](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/11-VAE.ipynb) et celle en français [ici](https://github.com/lbourdois/pytorch-Deep-Learning-Notebooks-in-French/blob/master/11-VAE.ipynb).  
 
-Dans ce notebook, nous mettons en œuvre un VAE et nous l'entraînons sur l'ensemble de données MNIST. Ensuite, nous échantillonnons $\boldsymbol{z}$ à partir d'une distribution normale et l'envoyons au décodeur pour comparer le résultat. Enfin, nous examinons comment $\boldsymbol{z}$ change dans la projection 2D.
+Dans ce *notebook*, nous mettons en œuvre un VAE et nous l'entraînons sur l'ensemble de données MNIST. Ensuite, nous échantillonnons $\boldsymbol{z}$ à partir d'une distribution normale et l'envoyons au décodeur pour comparer le résultat. Enfin, nous examinons comment $\boldsymbol{z}$ change dans la projection 2D.
 
-**Note:** Dans l'ensemble de données MNIST utilisé, les valeurs des pixels ont été normalisées pour se situer dans la plage $[0, 1]$.
+Note : dans le jeu de données MNIST utilisé, les valeurs des pixels ont été normalisées pour se situer dans la plage $[0, 1]$.
 
 
 <!--
@@ -321,7 +320,7 @@ class VAE(nn.Module):
 
 ### L'encodeur et le décodeur
 
-1. Nous définissons l'encodeur et le décodeur dans notre module "VAE".
+1. Nous définissons l'encodeur et le décodeur dans notre module VAE.
 2. Pour la dernière couche linéaire de l'encodeur, nous définissons la sortie comme étant de taille $2d$, dont les premières valeurs $d$ sont les moyennes et les autres valeurs $d$ sont les variances. Nous échantillonnons $\boldsymbol{z} \in R^d$ en utilisant ces moyennes et variances comme expliqué dans l'astuce de reparamétrage précédente.
 3. Pour la dernière couche linéaire dans le décodeur, nous utilisons l'activation sigmoïde afin de pouvoir avoir une sortie dans la plage $[0, 1]$, similaire aux données d'entrée.
 
@@ -378,7 +377,7 @@ def forward(self, x):
 
 Pour la fonction `reparameterise`, si le modèle est en mode entraînement, nous calculons l'écart-type (`std`) de la variance logarithmique (`logvar`). Nous utilisons la variance logarithmique au lieu de la variance parce que nous voulons nous assurer que la variance n'est pas négative, et le fait de prendre le logarithme de celle-ci nous assure d'avoir la gamme complète de la variance, ce qui entraîne une plus grande stabilité de l'apprentissage.
 
-Pendant l'entraînement, la fonction de `reparameterise` fera l'affaire pour que nous puissions faire de la rétropropagation pendant l'entraînement. Pour faire le lien avec le concept de la bulle jaune, comme expliqué dans le cours, chaque fois que cette fonction est appelée, nous dessinons un point `eps = std.data.new(std.size()).normal_()`, donc si nous le faisons 100 fois, nous obtiendrons 100 points qui forment approximativement une sphère parce que c'est une distribution normale, et la ligne `eps.mul(std).add_(mu)` fera que cette sphère soit centrée en `mu` avec un rayon égal à `std`.
+Pendant l'entraînement, la fonction de `reparameterise` permet de faire l'astuce permettant la rétropropagation. Pour faire le lien avec le concept de la bulle jaune, chaque fois que cette fonction est appelée, nous dessinons un point `eps = std.data.new(std.size()).normal_()`. Donc si nous le faisons 100 fois, nous obtenons 100 points qui forment approximativement une sphère parce que c'est une distribution normale et la ligne `eps.mul(std).add_(mu)` fait que cette sphère est centrée en `mu` avec un rayon égal à `std`.
 
 Pour la fonction `forward`, nous calculons d'abord `mu` (première moitié) et le `logvar` (seconde moitié) à partir de l'encodeur, puis nous calculons le symbole $\boldsymbol{z}$ via la fonction `reparamterise`. Enfin, nous renvoyons la sortie du décodeur.
 
@@ -453,18 +452,18 @@ We can look at how one digit morphs into another, which would not have been poss
 
 ### Générer de nouveaux échantillons
 
-Après avoir entraîné notre modèle, nous pouvons échantillonner un $z$ aléatoire de la distribution normale et l'envoyer à notre décodeur. Nous pouvons observer sur la *Figure 6* que certains des résultats ne sont pas bons parce que notre décodeur n'a pas "couvert" tout l'espace latent. Cela peut être amélioré si nous entraînons le modèle pour d'autres époques.
+Après avoir entraîné notre modèle, nous pouvons échantillonner un $z$ aléatoire de la distribution normale et l'envoyer à notre décodeur. Nous pouvons observer sur la figure 6 que certains des résultats ne sont pas bons parce que notre décodeur n'a pas couvert tout l'espace latent. Cela peut être amélioré si nous entraînons le modèle pour d'autres époques.
 
 <center>
 <img src="{{site.baseurl}}/images/week08/08-3/fig_6.png" /><br>
-<b>Fig. 6</b> : Déplacement aléatoire dans l'espace latent
+<b>Figure 6 :</b> Déplacement aléatoire dans l'espace latent
 </center>
 
-Nous pouvons voir comment un chiffre se transforme en un autre, ce qui n'aurait pas été possible si nous avions utilisé un auto-encodeur. Nous pouvons voir que lorsque nous marchons dans l'espace latent, la sortie du décodeur semble toujours légitime. *La figure 7* ci-dessous montre comment nous transformons le chiffre 3$ en 8$.
+Nous pouvons voir comment un chiffre se transforme en un autre, ce qui n'aurait pas été possible si nous avions utilisé un auto-encodeur. Nous pouvons voir que lorsque nous marchons dans l'espace latent, la sortie du décodeur semble toujours légitime. La figure 7 ci-dessous montre comment nous transformons le chiffre $3$ en $8$.
 
 <center>
 <img src="{{site.baseurl}}/images/week08/08-3/fig_7.png" /><br>
-<b>Fig. 7</b> : Transformation du chiffre 3 en 8
+<b>Figure 7 :</b> Transformation du chiffre 3 en 8
 </center>
 
 
@@ -480,8 +479,8 @@ Finally, let's take a look at how the latent space changes during/after training
 -->
 
 ### Projection des moyennes
-Enfin, examinons comment l'espace latent change pendant ou après l'entraînement. Les graphiques suivants de la *Figure 8* sont les moyennes issues de la sortie de l'encodeur, projetées sur l'espace 2D, où chaque couleur représente un chiffre. Nous pouvons voir qu'à partir de l'époque 0, les classes se répandent partout, avec une faible concentration. Au fur et à mesure que le modèle est entraîné, l'espace latent devient plus défini et les classes (chiffres) commencent à former des groupes.
+Enfin, examinons comment l'espace latent change pendant ou après l'entraînement. Les graphiques de la figure 8 sont les moyennes issues de la sortie de l'encodeur, projetées sur l'espace 2D, où chaque couleur représente un chiffre. Nous pouvons voir qu'à partir de l'époque 0, les classes se répandent partout, avec une faible concentration. Au fur et à mesure que le modèle est entraîné, l'espace latent devient plus défini et les classes (chiffres) commencent à former des groupes.
 <center>
 <img src="{{site.baseurl}}/images/week08/08-3/fig_8.png" /><br>
-<b>Fig. 8</b> : Projection 2D des moyennes $\E(\vect{z})$ dans l'espace latent
+<b>Figure 8 :</b> Projection 2D des moyennes $\E(\vect{z})$ dans l'espace latent
 </center>
diff --git a/docs/fr/week08/08.md b/docs/fr/week08/08.md
index 28dadf67b..bcd015564 100644
--- a/docs/fr/week08/08.md
+++ b/docs/fr/week08/08.md
@@ -13,9 +13,9 @@ In this section, we focused on the introduction of contrastive methods in Energy
 -->
 
 
-## Conférence partie A
+## Cours magistral partie A
 
-Dans cette section, nous nous focalisons sur l'introduction des méthodes contrastives dans les modèles à base d’énergie (EBM) sous plusieurs aspects. Tout d'abord, nous discutons de l'avantage apporté par l'application des méthodes contrastives dans l'auto-apprentissage. Ensuite, nous discutons de l'architecture des auto-encodeurs débruiteur et de leur faiblesse dans les tâches de reconstruction d'images. Nous évoquons également d'autres méthodes contrastives, comme la divergence contrastive et la divergence contrastive persistante.
+Dans cette section, nous nous focalisons sur l'introduction des méthodes contrastives dans les modèles à base d’énergie (EBMs) sous plusieurs aspects. Tout d'abord, nous discutons de l'avantage apporté par l'application des méthodes contrastives dans l'apprentissage autosupervisé. Ensuite, nous discutons de l'architecture des auto-encodeurs débruiteurs et de leur faiblesse dans les tâches de reconstruction d'images. Nous évoquons également d'autres méthodes contrastives, comme la divergence contrastive et la divergence contrastive persistante.
 
 <!--
 ## Lecture part B
@@ -23,9 +23,9 @@ Dans cette section, nous nous focalisons sur l'introduction des méthodes contra
 In this section, we discussed regularized latent variable EBMs in detail covering concepts of conditional and unconditional versions of these models. We then discussed the algorithms of ISTA, FISTA and LISTA and look at examples of sparse coding and filters learned from convolutional sparse encoders. Finally we talked about Variational Auto-Encoders and the underlying concepts involved.
 -->
 
-## Conférence partie B
+## Cours magistral partie B
 
-Dans cette section, nous discutons en détail des EBM à variables latentes régularisées en couvrant les concepts de versions conditionnelles et inconditionnelles de ces modèles. Nous discutons ensuite des algorithmes ISTA, FISTA et LISTA. Nous examinons des exemples de codage épars et de filtres appris d’encodeurs épars convolutifs. Enfin, nous parlons des auto-encodeurs variationnels et des concepts sous-jacents impliqués.
+Dans cette section, nous discutons en détail des EBMs à variables latentes régularisées en couvrant les concepts de versions conditionnelles et inconditionnelles de ces modèles. Nous discutons ensuite des algorithmes ISTA, FISTA et LISTA. Nous examinons des exemples de codage épars et de filtres appris d’encodeurs épars convolutifs. Enfin, nous parlons des auto-encodeurs variationnels et des concepts sous-jacents impliqués.
 
 <!--
 ## Practicum
@@ -33,8 +33,5 @@ Dans cette section, nous discutons en détail des EBM à variables latentes rég
 In this section, we discussed a specific type of generative model called Variational Autoencoders and compared their functionalities and advantages over Classic Autoencoders. We explored the objective function of VAE in detail, understanding how it enforced some structure in the latent space. Finally, we implemented and trained a VAE on the MNIST dataset and used it to generate new samples.
 -->
 
-## Pratique
-Dans cette section, nous discutons d'un type spécifique de modèle génératif appelé auto-encodeurs variationnels (VAE) et comparons leurs fonctionnalités et avantages par rapport aux auto-encodeurs classiques. Nous explorons en détail la fonction objective du VAE, en comprenant comment elle impose une certaine structure dans l'espace latent. Enfin, nous mettons en œuvre et entraînons un VAE sur l'ensemble de données MNIST et l’utilisons pour générer de nouveaux échantillons.
-
-
-
+## Travaux dirigés
+Dans cette section, nous discutons d'un type spécifique de modèle génératif appelé auto-encodeurs variationnels (VAE) et comparons leurs fonctionnalités et avantages par rapport aux auto-encodeurs classiques. Nous explorons en détail la fonction objectif du VAE, en comprenant comment elle impose une certaine structure dans l'espace latent. Enfin, nous mettons en œuvre et entraînons un VAE sur l'ensemble de données MNIST et l’utilisons pour générer de nouveaux échantillons.
diff --git a/docs/fr/week09/09-1.md b/docs/fr/week09/09-1.md
index dd2fd3718..fd412abf8 100644
--- a/docs/fr/week09/09-1.md
+++ b/docs/fr/week09/09-1.md
@@ -32,17 +32,17 @@ The advantage of this is by forcing the system to find representations that can
 
 ## [Auto-encodeurs discriminants récurrents épars (Discriminative recurrent sparse autoencoder : DrSAE)](https://www.youtube.com/watch?v=Pgct8PKV7iw&t=35s)
 
-L'idée des DrSAE consiste à combiner un codage épars, ou l'auto-encodeur épars, avec un entraînement discriminant.
- <center><img src="{{site.baseurl}}/images/week09/09-1/q7pSvUJ.png" width="400px"/><br>
-<b>Figure 1:</b> Réseau DrSAE</center>
+L'idée des DrSAEs consiste à combiner un codage épars ou l'auto-encodeur épars avec un entraînement discriminant.
+<center><img src="{{site.baseurl}}/images/week09/09-1/q7pSvUJ.png" width="400px"/><br>
+<b>Figure 1 :</b> Réseau DrSAE</center>
 
 
 L'encodeur, $W_e$, est similaire à celui de la méthode LISTA. La variable $X$ est passée par $W_e$, puis par une non-linéarité. Ce résultat est ensuite multiplié par une autre matrice apprise, $S$, et ajouté à $W_e$. Il est ensuite envoyé à travers une autre non-linéarité. Ce processus peut être répété un certain nombre de fois, chaque répétition constituant une couche.
 
 Nous entraînons ce réseau de neurones avec 3 critères différents :
-1. $L_1$ : Appliquer le critère $L_1$ sur le vecteur d'entités $Z$ pour le rendre épars.
-2. Reconstruire $X$ : Ceci est fait en utilisant une matrice de décodage qui reproduit l'entrée sur la sortie. Ceci est fait en minimisant l'erreur quadratique, indiquée par $W_d$ dans la figure 1.
-3. Ajouter un troisième terme : Ce troisième terme, indiqué par $W_c$, est un simple classifieur linéaire qui tente de prédire une catégorie.
+1. $L_1$ : appliquer le critère $L_1$ sur le vecteur d'entités $Z$ pour le rendre épars.
+2. Reconstruire $X$ : ceci est fait en utilisant une matrice de décodage qui reproduit l'entrée sur la sortie. Ceci est fait en minimisant l'erreur quadratique, indiquée par $W_d$ dans la figure 1.
+3. Ajouter un troisième terme : ce troisième terme, indiqué par $W_c$, est un simple classifieur linéaire qui tente de prédire une catégorie.
 
 Le système est entraîné à minimiser ces trois critères en même temps.
 
@@ -62,10 +62,10 @@ Figure 2 shows an example of an auto-encoder with group sparsity. Here, instead
 
 ### Eparsité de groupe
 
-L'idée ici est de générer des caractéristiques éparses, c’est-à-dire pas seulement des caractéristiques normales qui sont extraites par des convolutions mais de produire essentiellement des caractéristiques qui sont éparses après le pooling.
+L'idée ici est de générer des caractéristiques éparses, c’est-à-dire pas seulement des caractéristiques normales qui sont extraites par des convolutions mais de produire essentiellement des caractéristiques qui sont éparses après le *pooling*.
 
  <center><img src="{{site.baseurl}}/images/week09/09-1/kpDK8Xu.png" width="400px" height="135px"/><br>
-<b>Figure 2:</b> Auto-encodeur avec éparsité de groupe</center>
+<b>Figure 2 :</b> Auto-encodeur avec éparsité de groupe</center>
 
 
 La figure 2 montre un exemple d'auto-encodeur avec éparsité de groupe. Ici, au lieu de la variable latente $Z$ passant par une $L_1$, elle passe essentiellement par une $L_2$ sur les groupes. Vous prenez donc la norme $L_2$ pour chaque composant dans un groupe de $Z$, et vous prenez la somme de ces normes. C'est donc ce qui est utilisé comme régularisateur, afin que nous puissions avoir une certaine éparsité dans les groupes de $Z$. Ces groupes, ou groupes de caractéristiques, ont tendance à regrouper des caractéristiques qui sont similaires les unes aux autres.
@@ -91,19 +91,19 @@ Q: Does group regularization help with grouping similar features?
 A: The answer is unclear, work done here was done before computational power/ data was readily available. Techniques have not been brought back to the forefront.
 -->
 
-## [Auto-encodeur avec éparsité de groupe : questions et précisions](https://www.youtube.com/watch?v=Pgct8PKV7iw&t=918s)
-Q : Une stratégie similaire à celle utilisée dans la première diapositive avec le classifieur et le régularisateur peut-elle être appliquée pour les VAE ?
-R : Ajouter du bruit et forcer l’éparsité dans un VAE sont deux moyens de réduire l'information de la variable/code latente. Empêcher l'apprentissage d'une fonction d'identité.
+## [Auto-encodeur avec éparsité de groupe : questions des étudiants](https://www.youtube.com/watch?v=Pgct8PKV7iw&t=918s)
 
-Q : Dans la diapositive "AE with Group Sparsity", qu'est-ce que $P_j$ ?
-R : $p$ est un ensemble de caractéristiques. Pour un vecteur $z$, ce serait un sous-ensemble des valeurs de $z$.
+**Une stratégie similaire à celle utilisée dans la première diapositive avec le classifieur et le régularisateur peut-elle être appliquée pour les VAEs ?**
+> Ajouter du bruit et forcer l’éparsité dans un VAE sont deux moyens de réduire l'information de la variable/code latente. Empêcher l'apprentissage d'une fonction d'identité.
 
-Q : *Clarification sur le pooling des caractéristiques.*
-R : (Yann dessine une représentation d’un AE avec éparsité de groupe) 
-L’encodeur produit une variable latente $z$, qui est régularisée en utilisant la norme $L_2$ des caractéristiques mises en commun. Cette $z$ est utilisée par le décodeur pour la reconstruction de l'image.
+**Dans la diapositive « *AE with Group Sparsity* », qu'est-ce que $P_j$ ?**
+> $p$ est un ensemble de caractéristiques. Pour un vecteur $z$, ce serait un sous-ensemble des valeurs de $z$.
 
-Q : La régularisation de groupe aide-t-elle à regrouper des caractéristiques similaires ?
-R : La réponse n'est pas claire, le travail effectué ici a été fait avant que la puissance de calcul/les données ne soient facilement disponibles. Les techniques n'ont pas été remises au premier plan.
+**Clarification sur le *pooling* des caractéristiques.**
+> L’encodeur produit une variable latente $z$, qui est régularisée en utilisant la norme $L_2$ des caractéristiques mises en commun. Cette $z$ est utilisée par le décodeur pour la reconstruction de l'image.
+
+**La régularisation de groupe aide-t-elle à regrouper des caractéristiques similaires ?**
+> La réponse n'est pas claire, le travail effectué ici a été fait avant que la puissance de calcul/les données ne soient facilement disponibles. Les techniques n'ont pas été remises au premier plan.
 
 <!--
 ## [Image level training, local filters but no weight sharing](https://www.youtube.com/watch?v=Pgct8PKV7iw&t=1834s)
@@ -147,35 +147,34 @@ To train this system, at each iteration, you give an $x$ and find the $z$ which
 
 
 ## [Entraînement au niveau de l'image, filtres locaux mais pas de partage de poids](https://www.youtube.com/watch?v=Pgct8PKV7iw&t=1834s)
-La réponse à la question de savoir si cela aide n'est pas claire. Les personnes qui s'y intéressent s'intéressent soit à la restauration d'images, soit à une sorte d'apprentissage auto-supervisé. Cela fonctionnerait plutôt bien lorsque l'ensemble de données est très réduit. Lorsque vous avez un encodeur et un décodeur convolutifs et que vous vous entraînez avec des groupes clairsemés sur des cellules complexes, après avoir terminé l’entraînement, le système vous débarrasse du décodeur et n'utilise l'encodeur que comme extracteur de caractéristiques (disons la première couche du réseau convolutif) et vous collez une deuxième couche par-dessus.
 
-<center><img src="{{site.baseurl}}/images/week09/09-1/7akkfhv.png" width="400px"/><br>
-<b>Figure 3:</b>Structure d’un Convolutional RELU avec éparsité de groupe </center>
+La réponse à la question de savoir si cela aide n'est pas claire. Les personnes qui s'y intéressent s'intéressent soit à la restauration d'images, soit à une sorte d'apprentissage autosupervisé. Cela fonctionnerait plutôt bien lorsque le jeu de données est très réduit. Lorsque vous avez un encodeur et un décodeur convolutifs et que vous entraînez avec l'éparsité de groupe sur des cellules complexes, après avoir terminé l’entraînement, le système vous débarrasse du décodeur et n'utilise l'encodeur que comme un extracteur de caractéristiques (disons la première couche du réseau convolutif) et vous collez une deuxième couche par-dessus.
 
-Comme on peut le voir ci-dessus, vous commencez avec une image, vous avez un encodeur qui est en fait une fonction RELU à convolution et une sorte de couche de mise à l'échelle après cela. Vous entrainez avec une éparsité de groupe. Vous avez un décodeur linéaire et un critère qui est le groupe par 1. Vous prenez l’éparsité de groupe comme régularisation. C'est comme le pooling L2 avec une architecture similaire à l’éparsité de groupe.
-Vous pouvez également entraîner une autre instance de ce réseau. Cette fois, vous pouvez ajouter d'autres couches et avoir un décodeur avec le polling L2 et le critère d’éparsité, et l'entraîner à reconstruire son entrée avec le pooling au-dessus. Cela créera un réseau convolutionnel à deux couches pré-entraîné. Cette procédure est également appelée "Stacked Autoencoder". La principale caractéristique de cette procédure est qu'elle est entraînée à produire des caractéristiques invariantes avec une éparsité de groupe.
+<center><img src="{{site.baseurl}}/images/week09/09-1/7akkfhv.png" width="400px"/><br>
+<b>Figure 3 :</b>Structure d’un ConvNet avec ReLU et éparsité de groupe </center>
 
-Q : Devrions-nous utiliser tous les sous-arbres possibles comme groupes ?
+Comme on peut le voir ci-dessus, vous commencez avec une image, vous avez un encodeur qui est en fait une fonction *ReLU* à convolution et une sorte de couche de mise à l'échelle après cela. Vous entrainez avec une éparsité de groupe. Vous avez un décodeur linéaire et un critère qui est le groupe par 1. Vous prenez l’éparsité de groupe comme régularisation. C'est comme le *pooling* L2 avec une architecture similaire à l’éparsité de groupe.
+Vous pouvez également entraîner une autre instance de ce réseau. Cette fois, vous pouvez ajouter d'autres couches et avoir un décodeur avec le polling L2 et le critère d’éparsité, et l'entraîner à reconstruire son entrée avec le *pooling* au-dessus. Cela créera un réseau convolutionnel à deux couches pré-entraîné. Cette procédure est également appelée **stacked autoencoder**. La principale caractéristique de cette procédure est qu'elle est entraînée à produire des caractéristiques invariantes avec une éparsité de groupe.
 
-R : C'est à vous de décider, vous pouvez utiliser plusieurs arbres si vous le souhaitez. Nous pouvons entraîner l'arbre avec un arbre plus grand que nécessaire et ensuite retirer les branches rarement utilisées.
+**Devrions-nous utiliser tous les sous-arbres possibles comme groupes ?**
+> C'est à vous de décider, vous pouvez utiliser plusieurs arbres si vous le souhaitez. Nous pouvons entraîner l'arbre avec un arbre plus grand que nécessaire et ensuite retirer les branches rarement utilisées.
 
 <center><img src="{{site.baseurl}}/images/week09/09-1/EuhORxu.jpg" width="400px"/><br>
-<b>Figure 4:</b>Entraînement au niveau de l'image, filtres locaux mais pas de partage du poids </center>
+<b>Figure 4 :</b> Entraînement au niveau de l'image, filtres locaux mais pas de partage du poids </center>
 
-C'est ce qu'on appelle les *pin-wheel patterns* (motifs à roues à picots). C'est une sorte d'organisation des caractéristiques. L'orientation varie continuellement lorsque vous contournez ces points rouges. Si nous prenons un de ces points rouges et si nous faisons un petit cercle autour des points rouges, vous remarquez que l'orientation de l'extracteur varie en quelque sorte continuellement lorsque vous vous déplacez. Des tendances similaires sont observées dans le cerveau.
+> C'est ce qu'on appelle les *pinwheel patterns* (motifs en forme de pales de turbines). C'est une sorte d'organisation des caractéristiques. L'orientation varie continuellement lorsque vous contournez ces points rouges. Si nous prenons un de ces points rouges et si nous faisons un petit cercle autour des points rouges, vous remarquez que l'orientation de l'extracteur varie en quelque sorte continuellement lorsque vous vous déplacez. Des tendances similaires sont observées dans le cerveau.
 
-Q : Le terme "éparsité de groupe" est-il entraîné à avoir une petite valeur ? 
-R : Il s'agit d'un régularisateur. Le terme lui-même n'est pas entraîné, il est fixe. C'est juste la norme L2 des groupes et les groupes sont prédéterminés. Mais, comme c'est un critère, il détermine ce que l’encodeur et le décodeur vont faire et quel type de caractéristiques seront extraites.
+**Le terme d'éparsité de groupe est-il entraîné à avoir une petite valeur ?** 
+> Il s'agit d'un régularisateur. Le terme lui-même n'est pas entraîné, il est fixe. C'est juste la norme L2 des groupes et les groupes sont prédéterminés. Mais, comme c'est un critère, il détermine ce que l’encodeur et le décodeur vont faire et quel type de caractéristiques seront extraites.
 
 <center><img src="{{site.baseurl}}/images/week09/09-1/AS3giSt.jpg" width="400px" height="200px"/><br>
-<b>Figure 5:</b> Caractéristiques invariantes par inhibition latérale </center>
+<b>Figure 5 :</b> Caractéristiques invariantes par inhibition latérale </center>
 
-Ici, il y a un décodeur linéaire avec une erreur de reconstruction carrée. Il y a un critère dans l'énergie. La matrice $S$ est soit déterminée à la main, soit apprise de façon à maximiser ce terme. Si les termes dans $S$ sont positifs et grands, cela implique que le système ne veut pas que $z_i$ et $z_j$ soient allumés en même temps. Il s'agit donc d'une sorte d'inhibition mutuelle (appelée inhibition naturelle en neurosciences). Vous essayez donc de trouver une valeur pour $S$ qui soit la plus grande possible.
+> Ici, il y a un décodeur linéaire avec une erreur de reconstruction carrée. Il y a un critère dans l'énergie. La matrice $S$ est soit déterminée à la main, soit apprise de façon à maximiser ce terme. Si les termes dans $S$ sont positifs et grands, cela implique que le système ne veut pas que $z_i$ et $z_j$ soient allumés en même temps. Il s'agit donc d'une sorte d'inhibition mutuelle (appelée inhibition naturelle en neurosciences). Vous essayez donc de trouver une valeur pour $S$ qui soit la plus grande possible.
 
 <center><img src="{{site.baseurl}}/images/week09/09-1/sszdGh0.png" width="400px"/><br>
-<b>Figure 6:</b> Caractéristiques invariantes par inhibition latérale (forme d'arbre) </center>
-
-Si vous organisez S en termes d'arbre, les lignes représentent les termes zéro dans la matrice $S$. Chaque fois que vous n'avez pas de ligne, il y a un terme non nul. Ainsi, chaque caractéristique inhibe toutes les autres caractéristiques, sauf celles qui sont en haut de l'arbre ou en bas de l'arbre. C'est un peu l'inverse de l’éparsité de groupe.
+<b>Figure 6 :</b> Caractéristiques invariantes par inhibition latérale (forme d'arbre) </center>
 
-Vous voyez encore une fois que les systèmes organisent les caractéristiques de manière plus ou moins continue. Les caractéristiques le long de la branche d'un arbre représentent la même caractéristique avec différents niveaux de sélectivité. Les caractéristiques en périphérie varient plus ou moins.
-Pour entraîner ce système, à chaque itération, vous donnez un $x$ et trouvez le $z$ qui minimise cette fonction énergétique. Ensuite, faites une étape de descente en pente pour mettre à jour le $W$. Vous pouvez également faire une étape de montée pour augmenter les termes en $S$.
+> Si vous organisez S en termes d'arbre, les lignes représentent les termes zéro dans la matrice $S$. Chaque fois que vous n'avez pas de ligne, il y a un terme non nul. Ainsi, chaque caractéristique inhibe toutes les autres caractéristiques, sauf celles qui sont en haut de l'arbre ou en bas de l'arbre. C'est un peu l'inverse de l’éparsité de groupe.
+> Vous voyez encore une fois que les systèmes organisent les caractéristiques de manière plus ou moins continue. Les caractéristiques le long de la branche d'un arbre représentent la même caractéristique avec différents niveaux de sélectivité. Les caractéristiques en périphérie varient plus ou moins.
+> Pour entraîner ce système, à chaque itération, vous donnez un $x$ et trouvez le $z$ qui minimise cette fonction énergétique. Ensuite, faites une étape de descente en pente pour mettre à jour le $W$. Vous pouvez également faire une étape de montée pour augmenter les termes en $S$.
diff --git a/docs/fr/week09/09-2.md b/docs/fr/week09/09-2.md
index 03de86722..58ce0d0e6 100644
--- a/docs/fr/week09/09-2.md
+++ b/docs/fr/week09/09-2.md
@@ -2,7 +2,7 @@
 lang: fr
 lang-ref: ch.09-2
 lecturer: Yann Le Cun
-title: Modèles du monde et réseaux génératifs antagonistes (Generative Adversarial Networks)
+title: Modèles du monde et réseaux génératifs antagonistes
 authors: Bofei Zhang, Andrew Hopen, Maxwell Goldstein, Zeping Zhan
 date: 30 Mar 2020
 translation-date: 09 Aug 2020
@@ -15,9 +15,9 @@ translator: Loïck Bourdois
 One of the most important uses of self-supervised learning is to learn world models for control. When humans perform a task, we have an internal model for how the world works. For example, we gain an intuition for physics when we're about 9 months old, mostly through observation. In some sense, this is similar to self-supervised learning; in learning to predict what will happen, we learn abstract principles, just like self-supervised models learn latent features. But taking this one step further, the internal models let us act on the world. For example, we can use our learned physics intuition and our learned understanding of how our muscles work to predict --- and execute --- how to catch a falling pen.
 -->
 
-## [Modèles du monde pour un contrôle autonome](https://www.youtube.com/watch?v=Pgct8PKV7iw&t=2526s)
+## [Modèles du monde pour le contrôle autonome](https://www.youtube.com/watch?v=Pgct8PKV7iw&t=2526s)
 
-L'une des utilisations les plus importantes de l'apprentissage auto-supervisé est l'apprentissage de modèles du monde pour le contrôle. Lorsque les humains effectuent une tâche, ils disposent d'un modèle interne pour le fonctionnement du monde. Par exemple, nous acquérons une intuition pour la physique à l'âge de 9 mois environ, principalement par l'observation. Dans un certain sens, cela ressemble à l'apprentissage auto-supervisé ; en apprenant à prédire ce qui va se passer, nous apprenons des principes abstraits, tout comme les modèles auto-supervisés apprennent des caractéristiques latentes. Mais en allant plus loin, les modèles internes nous permettent d'agir sur le monde. Par exemple, nous pouvons utiliser notre intuition en physique et notre compréhension du fonctionnement de nos muscles pour prédire (et exécuter) comment attraper un stylo qui tombe.
+L'une des utilisations les plus importantes de l'apprentissage autosupervisé est l'apprentissage de modèles du monde pour le contrôle. Lorsque les humains effectuent une tâche, ils disposent d'un modèle interne pour le fonctionnement du monde. Par exemple, nous acquérons une intuition pour la physique à l'âge de 9 mois environ, principalement par l'observation. Dans un certain sens, cela ressemble à l'apprentissage autosupervisé. En apprenant à prédire ce qui va se passer, nous apprenons des principes abstraits, tout comme les modèles autosupervisés apprennent des caractéristiques latentes. Mais en allant plus loin, les modèles internes nous permettent d'agir sur le monde. Par exemple, nous pouvons utiliser notre intuition en physique et notre compréhension du fonctionnement de nos muscles pour prédire (et exécuter) comment attraper un stylo qui tombe.
 
 <!--
 ### What is a "world model"?
@@ -35,21 +35,21 @@ An autonomous intelligence system comprises four major modules (Figure 1.). Firs
 </center>
 -->
 
-### Qu'est-ce qu'un modèle du monde (World Model) ?
+### Qu'est-ce qu'un modèle du monde (*world model*) ?
 
-Un système de renseignement autonome comprend quatre grands modules (figure 1.). Tout d'abord, le module de perception observe le monde et calcule une représentation de l'état du monde. Cette représentation est incomplète parce que : \\
+Un système de renseignement autonome comprend quatre grands modules (figure 1). Tout d'abord, le module de perception observe le monde et calcule une représentation de l'état du monde. Cette représentation est incomplète parce que : \\
  1) l'agent n'observe pas l'univers entier \\
  2) la précision des observations est limitée. \\
-Il est également intéressant de noter que dans le modèle de feed-forward, le module de perception n'est présent que pour le pas de temps initial. Deuxièmement, le module acteur (également appelé module politique) imagine une action basée sur l'état (représenté) du monde. Troisièmement, le module modèle prédit le résultat de l'action en fonction de l'état (représenté) du monde, et peut-être aussi en fonction de certaines caractéristiques latentes. Cette prédiction est transmise au pas de temps suivant en tant que supposition de l'état suivant du monde, en prenant le rôle du module de perception à partir du pas de temps initial. La figure 2 présente une démonstration détaillée de ce processus d'anticipation. Enfin, le module critique transforme cette même prédiction en un coût de réalisation de l'action proposée, *par exemple* étant donné la vitesse à laquelle je crois que le stylo tombe, si je bouge les muscles de cette manière particulière, à quel point vais-je rater la prise ?
+Il est également intéressant de noter que dans le modèle *feed-forward*, le module de perception n'est présent que pour le pas de temps initial. Deuxièmement, le module acteur (également appelé module politique) imagine une action basée sur l'état (représenté) du monde. Troisièmement, le module modèle prédit le résultat de l'action en fonction de l'état (représenté) du monde, et peut-être aussi en fonction de certaines caractéristiques latentes. Cette prédiction est transmise au pas de temps suivant en tant que supposition de l'état suivant du monde, en prenant le rôle du module de perception à partir du pas de temps initial. La figure 2 présente une démonstration détaillée de ce processus d'anticipation. Enfin, le module critique transforme cette même prédiction en un coût de réalisation de l'action proposée, par exemple étant donné la vitesse à laquelle je crois que le stylo tombe, si je bouge les muscles de cette manière particulière, à quel point vais-je rater la prise ?
 
 <center>
 <img src="{{site.baseurl}}/images/week09/09-2/week9_world_models_arch.png" height="400px" /><br>
-<b>Fig. 1</b> : L'architecture d’un modèle du monde d'une démonstration de système de renseignement autonome.
+<b>Figure 1 :</b> L'architecture d’un modèle du monde d'une démonstration de système de renseignement autonome
 </center>
 
 <center>
 <img src="{{site.baseurl}}/images/week09/09-2/week9_world_models.png" height="400px" /><br>
-<b>Figure 2</b> : Architecture du modèle.
+<b>Figure 2 :</b> Architecture du modèle
 </center>
 
 
@@ -64,9 +64,9 @@ Aside: We use the word "inference" for latent variables, and "learning" for para
 
 ## Le cadre classique
 
-Dans le contrôle optimal classique, il n'y a pas de module acteur/politique, mais plutôt une variable d'action. Cette formulation est optimisée par une méthode classique appelée "Model Predictive Control", qui a été utilisée par la NASA dans les années 1960 pour calculer les trajectoires des fusées lorsqu'elles sont passées des ordinateurs humains (principalement des mathématiciennes noires) aux ordinateurs électroniques. Nous pouvons considérer ce système comme un RNN déroulé, et les actions comme des variables latentes, et utiliser des méthodes de rétropropagation et de gradient (ou éventuellement d'autres méthodes, comme la programmation dynamique pour un ensemble d'actions discrètes) pour déduire la séquence d'actions qui minimise la somme des coûts des pas de temps.
+Dans le contrôle optimal classique, il n'y a pas de module acteur/politique, mais plutôt une variable d'action. Cette formulation est optimisée par une méthode classique appelée « *Model Predictive Control* » qui a été utilisée par la NASA dans les années 1960 pour calculer les trajectoires des fusées lorsqu'elles sont passées des ordinateurs humains (principalement des mathématiciennes noires) aux ordinateurs électroniques. Nous pouvons considérer ce système comme un RNN déroulé et les actions comme des variables latentes. On peut utiliser des méthodes de rétropropagation et de gradient (ou éventuellement d'autres méthodes, comme la programmation dynamique pour un ensemble d'actions discrètes) pour déduire la séquence d'actions qui minimise la somme des coûts des pas de temps.
 
-Note : Nous utilisons le mot "inférence" pour les variables latentes, et "apprentissage" pour les paramètres, bien que le processus d'optimisation de ceux-ci soit généralement similaire. Une différence importante est qu'une variable latente prend une valeur spécifique pour chaque échantillon, alors que les paramètres sont partagés entre les échantillons.
+Note : nous utilisons le mot « inférence » pour les variables latentes et « apprentissage » pour les paramètres, bien que le processus d'optimisation de ceux-ci soit généralement similaire. Une différence importante est qu'une variable latente prend une valeur spécifique pour chaque échantillon, alors que les paramètres sont partagés entre les échantillons.
 
 <!--
 ## An improvement
@@ -87,7 +87,7 @@ Maintenant, nous préférons ne pas passer par le processus compliqué de la ré
 
 <center>
 <img src="{{site.baseurl}}/images/week09/09-2/week9_policy_network.png" height="400px" /><br>
-<b>Figure 3</b> : Réseau politique.
+<b>Figure 3 :</b> Réseau politique
 </center>
 
 Une fois entraînés, nous pouvons utiliser les réseaux politiques pour prévoir la séquence d'action optimale immédiatement après la perception.
@@ -114,13 +114,13 @@ where $z$ is a latent variable of which we don't know the value. $z$ represents
 
 ## [Apprentissage par renforcement](https://www.youtube.com/watch?v=Pgct8PKV7iw&t=3993s)
 
-Les principales différences entre l’apprentissage par renforcement (nous le noterons RL dans la suite, d’après le terme anglais Reinforcement learning) et ce que nous avons étudié jusqu'à présent sont de deux ordres :
+Les principales différences entre l’apprentissage par renforcement (nous le noterons RL dans la suite, d’après le terme anglais* Reinforcement learning*) et ce que nous avons étudié jusqu'à présent sont de deux ordres :
 1. Dans les environnements d'apprentissage par renforcement, la fonction de coût est une boîte noire. En d'autres termes, l'agent ne comprend pas la dynamique de la récompense.
 2. Dans le cadre du RL, nous n'utilisons pas un modèle avancé du monde pour faire avancer l'environnement. Au lieu de cela, nous interagissons avec le monde réel et apprenons le résultat en observant ce qui se passe. Dans le monde réel, notre mesure de l'état du monde est imparfaite et il n'est donc pas toujours possible de prédire ce qui se passera ensuite.
 
-Le principal problème du RL est que la fonction de coût n'est pas différenciable. Cela signifie que la seule façon d'apprendre est de procéder par essais et erreurs. Le problème devient alors de savoir comment explorer efficacement l'espace des états. Une fois que vous avez trouvé une solution à ce problème, la question qui suit est celle fondamentale de l'exploration *vs.* exploitation : préférez-vous prendre des mesures pour apprendre le plus possible sur l'environnement ou plutôt exploiter ce que vous avez déjà appris pour obtenir une récompense aussi élevée que possible ?
+Le principal problème du RL est que la fonction de coût n'est pas différenciable. Cela signifie que la seule façon d'apprendre est de procéder par essais et erreurs. Le problème devient alors de savoir comment explorer efficacement l'espace des états. Une fois que vous avez trouvé une solution à ce problème, la question qui suit est celle fondamentale de l'exploration *vs* exploitation : préférez-vous prendre des mesures pour apprendre le plus possible sur l'environnement ou plutôt exploiter ce que vous avez déjà appris pour obtenir une récompense aussi élevée que possible ?
 
-Les méthodes d'acteur-critique sont une famille populaire d'algorithmes de RL qui entraînent à la fois un acteur et un critique. De nombreuses méthodes de RL fonctionnent de manière similaire, en entraînant un modèle de la fonction de coût (le critique). Dans les méthodes Acteur-Critique, le rôle du critique est d'apprendre la valeur attendue de la fonction de valeur. Cela permet de faire une rétropropagation dans le module, puisque le critique n'est qu'un réseau neuronal. La responsabilité de l'acteur est de proposer des actions à entreprendre dans l'environnement, et le rôle du critique est d'apprendre un modèle de la fonction de coût. L'acteur et le critique travaillent en tandem, ce qui permet un apprentissage plus efficace que si aucun critique n'est utilisé.  Si vous n'avez pas un bon modèle du monde, il est beaucoup plus difficile d'apprendre : *par exemple*, la voiture à côté de la falaise ne saura pas que tomber d'une falaise est une mauvaise idée. Cela permet aux humains et aux animaux d'apprendre beaucoup plus rapidement que les agents du RL. Nous avons de très bons modèles du monde dans notre tête.
+Les méthodes Acteur-Critique sont une famille populaire d'algorithmes de RL qui entraînent à la fois un acteur et un critique. De nombreuses méthodes de RL fonctionnent de manière similaire, en entraînant un modèle de la fonction de coût (le critique). Dans les méthodes Acteur-Critique, le rôle du critique est d'apprendre la valeur attendue de la fonction de valeur. Cela permet de faire une rétropropagation dans le module, puisque le critique n'est qu'un réseau neuronal. La responsabilité de l'acteur est de proposer des actions à entreprendre dans l'environnement, et le rôle du critique est d'apprendre un modèle de la fonction de coût. L'acteur et le critique travaillent en tandem, ce qui permet un apprentissage plus efficace que si aucun critique n'est utilisé.  Si vous n'avez pas un bon modèle du monde, il est beaucoup plus difficile d'apprendre : *par exemple*, la voiture à côté de la falaise ne saura pas que tomber d'une falaise est une mauvaise idée. Cela permet aux humains et aux animaux d'apprendre beaucoup plus rapidement que les agents du RL. Nous avons de très bons modèles du monde dans notre tête.
 
 Nous ne pouvons pas toujours prédire l'avenir du monde en raison de l'incertitude inhérente : l'incertitude aléatoire et épistémique. L'incertitude aléatoire est due à des choses que vous ne pouvez pas contrôler ou observer dans l'environnement. L'incertitude épistémique, c'est quand vous ne pouvez pas prédire l'avenir du monde parce que votre modèle ne contient pas assez de données d'entraînement.
 
diff --git a/docs/fr/week09/09-3.md b/docs/fr/week09/09-3.md
index 3619e724a..cbe458e42 100644
--- a/docs/fr/week09/09-3.md
+++ b/docs/fr/week09/09-3.md
@@ -33,27 +33,27 @@ The training of the cost network is based on minimizing the MSE loss, while the
 To ensure that high cost is assigned to points outside the data manifold and low cost is assigned to points within it, the loss function for the cost network $\mathcal{L}\_{C}$ is $C(x)+[m-C(G(\vect{z}))]^+$ for some positive margin $m$. Minimizing $\mathcal{L}\_{C}$ requires that $C(\vect{x}) \rightarrow 0$ and $C(G(\vect{z})) \rightarrow m$. The loss for the generator $\mathcal{L}\_{G}$ is simply $C(G(\vect{z}))$, which encourages the generator to ensure that $C(G(\vect{z})) \rightarrow 0$. However, this does create instability as $0 \leftarrow C(G(\vect{z})) \rightarrow m$.
 -->
 
-## [Introduction aux generative adversarial networks (GANs)](https://www.youtube.com/watch?v=xYc11zyZ26M&t=57s)
+## [Introduction aux réseaux génératifs antagonistes (GANs)](https://www.youtube.com/watch?v=xYc11zyZ26M&t=57s)
 
 <center>
 <img src="{{site.baseurl}}/images/week09/09-3/GANArchitecture.png" height="400px" /><br>
-<b>Figure 1</b> : Architecture d’un GAN
+<b>Figure 1 :</b> Architecture d’un GAN
 </center>
 
-Les GAN sont un type de réseau neuronal utilisé pour l'apprentissage machine non supervisé. Ils sont composés de deux modules contradictoires : les réseaux _générateur_ et  _coût_. Ces modules se font concurrence de telle sorte que le réseau _coût_ tente de filtrer les faux exemples tandis que le _générateur_ tente de tromper ce filtre en créant des exemples réalistes $\vect{\hat{x}}$. Grâce à cette compétition, le modèle apprend un générateur qui crée des données réalistes. Ces données peuvent être utilisées dans des tâches telles que les prédictions ou pour générer des images après avoir été entraîné sur un ensemble de données particulier.
+Les GANs sont un type de réseau neuronal utilisé pour l'apprentissage machine non supervisé. Ils sont composés de deux modules contradictoires : les réseaux _générateur_ et  _coût_. Ces modules se font concurrence de telle sorte que le réseau _coût_ tente de filtrer les faux exemples tandis que le _générateur_ tente de tromper ce filtre en créant des exemples réalistes $\vect{\hat{x}}$. Grâce à cette compétition, le modèle apprend un générateur qui crée des données réalistes. Ces données peuvent être utilisées dans des tâches telles que les prédictions ou pour générer des images après avoir été entraîné sur un ensemble de données particulier.
 
 <center>
 <img src="{{site.baseurl}}/images/week09/09-3/GANMapping.png" height="400px" /><br>
-<b>Figure 2</b> : Cartographie d’un GAN à partir d'une variable aléatoire
+<b>Figure 2 :</b> Association d’un GAN à partir d'une variable aléatoire
 </center>
 
-Les GAN sont des exemples de modèles à base d’énergie (EBM). En tant que tel, le réseau _coût_ est entraîné à produire des coûts faibles pour des intrants plus proches de la distribution réelle des données, désignée par le $\vect{x}$ rose dans la figure 2. Les données provenant d'autres distributions, comme le $\vect{\hat{x}}$ bleu de la figure 2, devraient avoir un coût élevé. Une perte d'erreur quadratique moyenne (EQM) est généralement utilisée pour calculer la performance du réseau de coût. Il convient de noter que la fonction de coût produit une valeur scalaire positive dans une plage spécifiée *c’est-à-dire* $\text{cost} : \mathbb{R}^n \rightarrow  \mathbb{R}^+ \cup \{0\}$). Ceci est différent d'un discriminateur classique qui utilise une classification discrète pour ses sorties.
+Les GANs sont des exemples de modèles à base d’énergie (EBMs). En tant que tel, le réseau _coût_ est entraîné à produire des coûts faibles pour des intrants plus proches de la distribution réelle des données, désignée par le $\vect{x}$ rose dans la figure 2. Les données provenant d'autres distributions, comme le $\vect{\hat{x}}$ bleu de la figure 2, devraient avoir un coût élevé. Une perte d'erreur quadratique moyenne (EQM) est généralement utilisée pour calculer la performance du réseau de coût. Il convient de noter que la fonction de coût produit une valeur scalaire positive dans une plage spécifiée c’est-à-dire $\text{cost} : \mathbb{R}^n \rightarrow  \mathbb{R}^+ \cup \{0\}$). Ceci est différent d'un discriminateur classique qui utilise une classification discrète pour ses sorties.
 
 Pendant ce temps, le réseau générateur ($\text{generator} : \mathcal{Z} \rightarrow \mathbb{R}^n$) est entraîné à améliorer la correspondance de la variable aléatoire $\vect{z}$ aux données réalistes générées $\vect{\hat{x}}$ pour tromper le réseau de coût. Le générateur est entraîné d’après la sortie du réseau de coût, en essayant de minimiser l'énergie de $\vect{\hat{x}}$. Nous désignons cette énergie par $C(G(\vect{z}))$, où $C(\cdot)$ est le réseau de coût et $G(\cdot)$ est le réseau du générateur.
 
 L’entraînement du réseau de coût est basée sur la minimisation de la perte MSE, tandis que l’entraînement du réseau de générateur est basée sur la minimisation du réseau de coût, en utilisant des gradients de $C(\vect{\hat{x}})$ par rapport à $\vect{\hat{x}}$.
 
-Pour garantir que le coût élevé est attribué aux points situés à l'extérieur de la surface de données et que le coût faible est attribué aux points situés à l'intérieur de celui-ci, la fonction de perte pour le réseau de coût $\mathcal{L}\_{C}$ est de $C(x)+[m-C(G(\vect{z}))]^+$ pour une certaine marge positive $m$. Pour minimiser $\mathcal{L}\_{C}$, il faut que $C(\vect{x}) \rightarrow  0$ et $C(G(\vect{z}) \rightarrow m$. La perte pour le générateur $\mathcal{L}\_{G}$ est simplement $C(G(\vect{z}))$, ce qui encourage le générateur à s'assurer que $C(G(\vect{z}) \\N- Flèche droite 0$. Cependant, cela crée une instabilité car 0$ \leftarrow C(G(\vect{z})) \rightarrow m$.
+Pour garantir que le coût élevé est attribué aux points situés à l'extérieur de la surface de données et que le coût faible est attribué aux points situés à l'intérieur de celui-ci, la fonction de perte pour le réseau de coût $\mathcal{L}\_{C}$ est de $C(x)+[m-C(G(\vect{z}))]^+$ pour une certaine marge positive $m$. Pour minimiser $\mathcal{L}\_{C}$, il faut que $C(\vect{x}) \rightarrow  0$ et $C(G(\vect{z}) \rightarrow m$. La perte pour le générateur $\mathcal{L}\_{G}$ est simplement $C(G(\vect{z}))$, ce qui encourage le générateur à s'assurer que $C(G(\vect{z})) \rightarrow 0$. Cependant, cela crée une instabilité car 0$ \leftarrow C(G(\vect{z})) \rightarrow m$.
 
 <!--
 ## [Difference between GANs and VAEs](https://www.youtube.com/watch?v=xYc11zyZ26M&t=1844s)
@@ -77,17 +77,17 @@ GANs also differ from VAEs through how they produce and use $\vect{z}$. GANs sta
 
 <center>
 <img src="{{site.baseurl}}/images/week09/09-3/GANvsVAEArchitecture.png" height="400px" /><br>
-<b>Figure 3</b> : VAE (gauche) *vs.* GAN (droite) - Conception architecturale
+<b>Figure 3 :</b> VAE (gauche) vs GAN (droite) - Conception architecturale
 </center>
 
-Par rapport aux VAE de la semaine 8, les GAN créent des générateurs légèrement différents. Rappelons que les VAE « mappent » les entrées $\vect{x}$ vers un espace latent $\mathcal{Z}$ avec un _encodeur_ puis « mappent » de $\mathcal{Z}$ vers l'espace de données avec un _décodeur_ pour obtenir $\vect{\hat{x}}$. Ils utilisent ensuite la perte de reconstruction pour pousser $\vect{x}$ et $\vect{\hat{x}}$ à être similaires. Les GAN, en revanche, s'entraînent dans un cadre contradictoire avec le générateur et les réseaux de coûts en concurrence comme décrit ci-dessus. Ces réseaux sont successivement entraînés par rétropropagation au moyen de méthodes basées sur le gradient. Une comparaison de cette différence architecturale est présentée à la figure 3.
+Par rapport aux VAE de la semaine 8, les GANs créent des générateurs légèrement différents. Rappelons que les VAE « mappent » les entrées $\vect{x}$ vers un espace latent $\mathcal{Z}$ avec un _encodeur_ puis « mappent » de $\mathcal{Z}$ vers l'espace de données avec un _décodeur_ pour obtenir $\vect{\hat{x}}$. Ils utilisent ensuite la perte de reconstruction pour pousser $\vect{x}$ et $\vect{\hat{x}}$ à être similaires. Les GANs, en revanche, s'entraînent dans un cadre contradictoire avec le générateur et les réseaux de coûts en concurrence comme décrit ci-dessus. Ces réseaux sont successivement entraînés par rétropropagation au moyen de méthodes basées sur le gradient. Une comparaison de cette différence architecturale est présentée à la figure 3.
 
 <center>
 <img src="{{site.baseurl}}/images/week09/09-3/GANvsVAEMapping.jpg" height="250px" /><br>
-<b>Fig. 4</b> : VAE (gauche) *vs.* GAN (droite) - Cartographie à partir d'un échantillon aléatoire $\vect{z}$
+<b>Figure 4 :</b> VAE (gauche) *vs.* GAN (droite) - Correspondance à partir d'un échantillon aléatoire $\vect{z}$
 </center>
 
-Les GAN diffèrent également des VAE par la façon dont ils produisent et utilisent les $vect{z}$. Les GAN commencent par échantillonner $\vect{z}$, comme l'espace latent dans un VAE. Ils utilisent ensuite un réseau génératif pour mettre en correspondance $\vect{z}$ avec $\vect{\hat{x}}$. Ce $\vect{\hat{x}}$ est ensuite envoyé à travers un réseau discriminateur/coûts pour évaluer son caractère "réel". Une des principales différences entre la VAE et le GAN est que **nous n'avons pas besoin de mesurer une relation directe (*c'est-à-dire* la perte de reconstruction) entre la sortie du réseau générateur $\vect{\hat{x}}$ et les données réelles $\vect{x}$. ** Au lieu de cela, nous forçons $\vect{\hat{x}}$ à être similaire à $\vect{x}$ en entraînant le générateur à produire $\vect{\hat{x}}$ de telle sorte que le réseau discriminateur/coûts produise des scores similaires à ceux des données réelles $\vect{x}$, ou plus "réels".
+Les GANs diffèrent également des VAEs par la façon dont ils produisent et utilisent les $vect{z}$. Les GANs commencent par échantillonner $\vect{z}$, comme l'espace latent dans un VAE. Ils utilisent ensuite un réseau génératif pour mettre en correspondance $\vect{z}$ avec $\vect{\hat{x}}$. Ce $\vect{\hat{x}}$ est ensuite envoyé à travers un réseau discriminateur/coûts pour évaluer son caractère « réel ». Une des principales différences entre le VAE et le GAN est que **nous n'avons pas besoin de mesurer une relation directe (c'est-à-dire la perte de reconstruction) entre la sortie du réseau générateur $\vect{\hat{x}}$ et les données réelles $\vect{x}$**. Au lieu de cela, nous forçons $\vect{\hat{x}}$ à être similaire à $\vect{x}$ en entraînant le générateur à produire $\vect{\hat{x}}$ de telle sorte que le réseau discriminateur/coûts produise des scores similaires à ceux des données réelles $\vect{x}$.
 
 <!--
 ## Major pitfalls in GANs
@@ -113,7 +113,7 @@ As a result of this adversarial nature between the generator and discriminator t
 
 Au fur et à mesure que le générateur s'améliore avec l'entraînement, les performances du discriminateur se détériorent car celui-ci ne peut plus faire facilement la différence entre les données réelles et les fausses. Si le générateur est parfait, les données réelles et fausses se superposeront et le discriminateur créera de nombreuses erreurs de classification.
 
-Cela pose un problème pour la convergence du GAN : le retour d'information du discriminateur devient moins significatif avec le temps. Si le GAN continue à s'entraîner au-delà du moment où le discriminateur donne un retour d'information complètement aléatoire, alors le générateur commence à s'entraîner sur le retour d'information indésirable et sa qualité peut s'effondrer. Voir [la convergence de l’entraînement dans les GAN](https://developers.google.com/machine-learning/gan/training)
+Cela pose un problème pour la convergence du GAN : le retour d'information du discriminateur devient moins significatif avec le temps. Si le GAN continue à s'entraîner au-delà du moment où le discriminateur donne un retour d'information complètement aléatoire, alors le générateur commence à s'entraîner sur le retour d'information indésirable et sa qualité peut s'effondrer. Voir [la convergence de l’entraînement dans les GANs](https://developers.google.com/machine-learning/gan/training).
 
 En raison de cette nature contradictoire entre le générateur et le discriminateur, il existe un point d'équilibre instable plutôt qu'un équilibre.
 
@@ -210,26 +210,26 @@ class Generator(nn.Module):
     def __init__(self):
         super().__init__()
         self.main = nn.Sequential(
-            # input is Z, going into a convolution
+            # l'entrée Z va dans une convolution
             nn.ConvTranspose2d(     nz, ngf * 8, 4, 1, 0, bias=False),
             nn.BatchNorm2d(ngf * 8),
             nn.ReLU(True),
-            # state size. (ngf*8) x 4 x 4
+            # état de taille (ngf*8) x 4 x 4
             nn.ConvTranspose2d(ngf * 8, ngf * 4, 4, 2, 1, bias=False),
             nn.BatchNorm2d(ngf * 4),
             nn.ReLU(True),
-            # state size. (ngf*4) x 8 x 8
+            # état de taille (ngf*4) x 8 x 8
             nn.ConvTranspose2d(ngf * 4, ngf * 2, 4, 2, 1, bias=False),
             nn.BatchNorm2d(ngf * 2),
             nn.ReLU(True),
-            # state size. (ngf*2) x 16 x 16
+            # état de taille (ngf*2) x 16 x 16
             nn.ConvTranspose2d(ngf * 2,     ngf, 4, 2, 1, bias=False),
             nn.BatchNorm2d(ngf),
             nn.ReLU(True),
-            # state size. (ngf) x 32 x 32
+            # état de taille (ngf) x 32 x 32
             nn.ConvTranspose2d(    ngf,      nc, 4, 2, 1, bias=False),
             nn.Tanh()
-            # state size. (nc) x 64 x 64
+            # état de taille (nc) x 64 x 64
         )
 
     def forward(self, input):
@@ -249,22 +249,22 @@ class Discriminator(nn.Module):
     def __init__(self):
         super().__init__()
         self.main = nn.Sequential(
-            # input is (nc) x 64 x 64
+            # l'entrée est (nc) x 64 x 64
             nn.Conv2d(nc, ndf, 4, 2, 1, bias=False),
             nn.LeakyReLU(0.2, inplace=True),
-            # state size. (ndf) x 32 x 32
+            # état de taille (ndf) x 32 x 32
             nn.Conv2d(ndf, ndf * 2, 4, 2, 1, bias=False),
             nn.BatchNorm2d(ndf * 2),
             nn.LeakyReLU(0.2, inplace=True),
-            # state size. (ndf*2) x 16 x 16
+            # état de taille (ndf*2) x 16 x 16
             nn.Conv2d(ndf * 2, ndf * 4, 4, 2, 1, bias=False),
             nn.BatchNorm2d(ndf * 4),
             nn.LeakyReLU(0.2, inplace=True),
-            # state size. (ndf*4) x 8 x 8
+            # état de taille (ndf*4) x 8 x 8
             nn.Conv2d(ndf * 4, ndf * 8, 4, 2, 1, bias=False),
             nn.BatchNorm2d(ndf * 8),
             nn.LeakyReLU(0.2, inplace=True),
-            # state size. (ndf*8) x 4 x 4
+            # état de taille (ndf*8) x 4 x 4
             nn.Conv2d(ndf * 8, 1, 4, 1, 0, bias=False),
             nn.Sigmoid()
         )
@@ -281,28 +281,28 @@ These two classes are initialized as `netG` and `netD`.
 
 1. Il est important d'utiliser `nn.LeakyReLU` comme fonction d'activation pour éviter de tuer les gradients dans les régions négatives. Sans ces gradients, le générateur ne recevra pas de mises à jour.
 2. A la fin de la séquence, le discriminateur utilise `nn.Sigmoid()` pour classer l'entrée.
-
+3. 
 ```python
 class Discriminator(nn.Module):
     def __init__(self):
         super().__init__()
         self.main = nn.Sequential(
-            # input is (nc) x 64 x 64
+            # l'entrée est (nc) x 64 x 64
             nn.Conv2d(nc, ndf, 4, 2, 1, bias=False),
             nn.LeakyReLU(0.2, inplace=True),
-            # state size. (ndf) x 32 x 32
+            # état de taille (ndf) x 32 x 32
             nn.Conv2d(ndf, ndf * 2, 4, 2, 1, bias=False),
             nn.BatchNorm2d(ndf * 2),
             nn.LeakyReLU(0.2, inplace=True),
-            # state size. (ndf*2) x 16 x 16
+            # état de taille (ndf*2) x 16 x 16
             nn.Conv2d(ndf * 2, ndf * 4, 4, 2, 1, bias=False),
             nn.BatchNorm2d(ndf * 4),
             nn.LeakyReLU(0.2, inplace=True),
-            # state size. (ndf*4) x 8 x 8
+            # état de taille (ndf*4) x 8 x 8
             nn.Conv2d(ndf * 4, ndf * 8, 4, 2, 1, bias=False),
             nn.BatchNorm2d(ndf * 8),
             nn.LeakyReLU(0.2, inplace=True),
-            # state size. (ndf*8) x 4 x 4
+            # état de taille (ndf*8) x 4 x 4
             nn.Conv2d(ndf * 8, 1, 4, 1, 0, bias=False),
             nn.Sigmoid()
         )
@@ -423,7 +423,7 @@ Notez que nous détachons les fausses données pour empêcher les gradients de s
 Notez également que nous n'avons besoin d'appeler `zero_grad()` qu'une seule fois au début pour effacer les gradients afin que les gradients des données réelles et fausses puissent être utilisés pour la mise à jour. Les deux appels `.backward()` accumulent ces gradients. Nous n'avons finalement besoin que d'un seul appel de `optimizerD.step()` pour mettre à jour les paramètres.
 
 ```python
-# train with real
+# entraîner avec le vrai
 netD.zero_grad()
 real_cpu = data[0].to(device)
 batch_size = real_cpu.size(0)
@@ -434,7 +434,7 @@ errD_real = criterion(output, label)
 errD_real.backward()
 D_x = output.mean().item()
 
-# train with fake
+# entraîner avec le faux
 noise = torch.randn(batch_size, nz, 1, 1, device=device)
 fake = netG(noise)
 label.fill_(fake_label)
@@ -445,14 +445,13 @@ D_G_z1 = output.mean().item()
 errD = errD_real + errD_fake
 optimizerD.step()
 ```
-**L'étape 2** consiste à mettre à jour le réseau générateur. Cette fois, nous alimentons le discriminateur en fausses données, mais nous calculons la perte avec le `real_label` ! Le but de cette opération est d'entraîner le générateur à faire des ${\vect{\hat{x}}$ réalistes.
+**L'étape 2** consiste à mettre à jour le réseau générateur. Cette fois, nous alimentons le discriminateur en fausses données, mais nous calculons la perte avec le `real_label` ! Le but de cette opération est d'entraîner le générateur à faire des $\vect{\hat{x}}$ réalistes.
 ```python
 netG.zero_grad()
-label.fill_(real_label)  # fake labels are real for generator cost
+label.fill_(real_label)  # Les fausses étiquettes sont réelles pour la fonction de coût du générateur
 output = netD(fake)
 errG = criterion(output, label)
 errG.backward()
 D_G_z2 = output.mean().item()
 optimizerG.step()
 ```
-
diff --git a/docs/fr/week09/09.md b/docs/fr/week09/09.md
index bd4672120..5f9ba4689 100644
--- a/docs/fr/week09/09.md
+++ b/docs/fr/week09/09.md
@@ -13,7 +13,7 @@ We discussed discriminative recurrent sparse auto-encoders and group sparsity. T
 -->
 
 
-## Conférence partie A
+## Cours magistral partie A
 
 Nous discutons des auto-encodeurs discriminants récurrents épars et de l’éparsité de groupe. L'idée principale est de savoir comment combiner un codage épars avec un entraînement discriminant. Nous examinons comment structurer un réseau avec un auto-encodeur récurrent similaire à LISTA et un décodeur. Nous discutons ensuite de la manière d'utiliser la rareté des groupes pour extraire les caractéristiques invariantes.
 
@@ -23,9 +23,9 @@ Nous discutons des auto-encodeurs discriminants récurrents épars et de l’ép
 In this section, we talked about the World Models for autonomous control including the neural network architecture and training schema. Then, we discussed the difference between World Models and Reinforcement Learning (RL). Finally, we studied Generative Adversarial Networks (GANs) in terms of energy-based model with the contrastive method.
 -->
 
-## Conférence partie B
+## Cours magistral partie B
 
-Dans cette section, nous parlons des modèles du monde (world models) pour le contrôle autonome, y compris l'architecture du réseau neuronal et le schéma d’entraînement. Ensuite, nous discutons de la différence entre les modèles du monde et l'apprentissage par renforcement (RL). Enfin, nous étudions les Generative Adversarial Networks (GANs) en termes d’EBM avec la méthode contrastive.
+Dans cette section, nous parlons des modèles du monde (*world models*) pour le contrôle autonome, y compris l'architecture du réseau neuronal et le schéma d’entraînement. Ensuite, nous discutons de la différence entre les modèles du monde et l'apprentissage par renforcement (RL). Enfin, nous étudions les* Generative Adversarial Network*s (GANs) en termes d’EBM avec la méthode contrastive.
 
 <!--
 ## Practicum
@@ -34,9 +34,5 @@ Dans cette section, nous parlons des modèles du monde (world models) pour le co
 During this week's practicum, we explored Generative Adversarial Networks (GANs) and how they can produce realistic generative models. We then compared GANs with VAEs from week 8 to highlight key differences between two networks. Next, we discussed several model limitations of GANs. Finally, we looked at the source code for the PyTorch example Deep Convolutional Generative Adversarial Networks (DCGAN).
 -->
 
-## Pratique
-Nous explorons les Generative Adversarial Networks (GANs) et la manière dont ils peuvent produire des modèles générateurs réalistes. Nous comparons ensuite les GAN avec les VAE de la semaine 8 pour mettre en évidence les principales différences entre deux réseaux. Ensuite, nous discutons de plusieurs limites des GANs. Enfin, nous examinons le code source de l'exemple « PyTorch Deep Convolutional Generative Adversarial Networks (DCGAN) ».
-
-
-
-
+## Travaux dirigés
+Nous explorons les GANs et la manière dont ils peuvent produire des modèles générateurs réalistes. Nous comparons ensuite les GANs avec les VAE de la semaine 8 pour mettre en évidence les principales différences entre deux réseaux. Ensuite, nous discutons de plusieurs limites des GANs. Enfin, nous examinons le code source de l'exemple « *PyTorch Deep Convolutional Generative Adversarial Networks (DCGAN)* ».
diff --git a/docs/fr/week10/10-1.md b/docs/fr/week10/10-1.md
index 543c3dcff..8776a5b37 100644
--- a/docs/fr/week10/10-1.md
+++ b/docs/fr/week10/10-1.md
@@ -1,7 +1,7 @@
 ---
 lang: fr
 lang-ref: ch.10-1
-title: Apprentissage auto-supervisé - Tâches de prétexte
+title: Apprentissage autosupervisé et tâches de prétexte
 lecturer: Ishan Misra
 authors: Aniket Bhatnagar, Dhruv Goyal, Cole Smith, Nikhil Supekar
 date: 6 Apr 2020
@@ -50,40 +50,40 @@ This method of ImageNet pre-training and fine-tuning on downstream task gets eve
 
 ## [Succès de la supervision : le pré-entraînement](https://www.youtube.com/watch?v=0KeR6i1_56g&t=75s)
 
-Au cours de la dernière décennie, l'une des principales recettes ayant du succès pour de nombreux problèmes de vision par ordinateur a été l'apprentissage des représentations visuelles en effectuant un apprentissage supervisé pour la classification d'ImageNet. Les représentations et les poids de modèle appris ont pu être réutilisé comme initialisation pour d'autres tâches de vision par ordinateur où un grand nombre de données labellisées pouvaient ne pas être disponibles.
+Au cours de la dernière décennie, l'une des principales approches ayant du succès pour de nombreux problèmes de vision par ordinateur a été l'apprentissage des représentations visuelles en effectuant un apprentissage supervisé pour la classification d'ImageNet. Les représentations et les poids d'un modèle appris ont pu être réutilisé comme initialisation pour d'autres tâches de vision par ordinateur où un grand nombre de données étiquetées pouvaient ne pas être disponibles.
 
-Cependant, obtenir des annotations pour un ensemble de données de l'ampleur d'ImageNet est extrêmement long et coûteux. Exemple : L'étiquetage d'ImageNet avec 14 millions d'images a pris environ 22 années humaines.
+Cependant, obtenir des annotations pour un ensemble de données de l'ampleur d'ImageNet est extrêmement long et coûteux. Par exemple l'étiquetage d'ImageNet avec 14 millions d'images a pris environ 22 années humaines.
 
-C'est pourquoi la communauté a commencé à chercher d'autres procédés d'étiquetage, comme les mots-dièse pour les images des médias sociaux, les localisations GPS ou les approches auto-supervisées où le label est une propriété de l'échantillon de données lui-même.
+C'est pourquoi la communauté a commencé à chercher d'autres procédés d'étiquetage, comme les mots-dièse pour les images des médias sociaux, les localisations GPS ou les approches autosupervisées où le label est une propriété de l'échantillon de données lui-même.
 
 Mais une question importante se pose avant de chercher d'autres procédés d'étiquetage :
 
 **Combien de données étiquetées pouvons-nous obtenir ?**
 
-- Si nous recherchons toutes les images avec une catégorie au niveau de l'objet et des annotations dans les boîtes englobantes, nous obtenons environ un million d'images.
-- Maintenant, si la contrainte pour les coordonnées de la boîte englobante est assouplie, le nombre d'images disponibles passe à 14 millions (environ).
+- Si nous recherchons toutes les images avec une catégorie au niveau de l'objet et des annotations dans les boîtes de délimitation, nous obtenons environ un million d'images.
+- Maintenant, si la contrainte pour les coordonnées de la boîte de délimitation est assouplie, le nombre d'images disponibles passe à 14 millions (environ).
 - Cependant, si nous considérons toutes les images disponibles sur Internet, il y a un saut d’un facteur 5 dans la quantité de données disponibles.
 - Et puis, il y a les données autres que les images, qui nécessitent d'autres entrées sensorielles pour être saisies ou comprises.
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-1/img01.jpg" width="80%"/><br>
-<b>Figure 1:</b> Variation des données disponibles selon la complexité de l'annotation
+<b>Figure 1 :</b> Variation des données disponibles selon la complexité de l'annotation
 </center>
 
 Par conséquent, si l'on considère que l'annotation spécifique à ImageNet a pris à elle seule 22 années humaines, il est totalement impossible de mettre à l'échelle l’étiquetage de toutes les photos sur Internet ou au-delà.
 
-**Problème des concepts rares** (*Problème de la longue queue*)
+**Problème des concepts rares** (*problème de la longue queue*)
 
 En général, la distribution des labels pour les images Internet ressemble à une longue queue. C'est-à-dire que la plupart des images correspondent à très peu de labels, alors qu'il existe un grand nombre de labels pour lesquelles peu d'images sont présentes. Ainsi, pour obtenir des échantillons annotés pour les catégories vers la fin de la queue, il faut étiqueter d'énormes quantités de données en raison de la nature de la distribution des catégories.
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-1/img02.png" width="80%"/><br>
-<b>Figure 2:</b> Variation de la distribution des images disponibles avec les labels
+<b>Figure 2 :</b> Variation de la distribution des images disponibles avec les labels
 </center>
 
 **Problème des différents domaines**
 
-Cette méthode de pré-entraînement et de mise au point d'ImageNet sur les tâches en aval devient encore plus obscure lorsque les images des tâches en aval appartiennent à un domaine complètement différent, comme l'imagerie médicale.
+Cette méthode de pré-entraînement et de  d'ImageNet sur les tâches en aval devient encore plus obscure lorsque les images des tâches en aval appartiennent à un domaine complètement différent, comme l'imagerie médicale.
 
 
 <!--
@@ -101,24 +101,25 @@ Cette méthode de pré-entraînement et de mise au point d'ImageNet sur les tâc
 - Self-supervised learning derives its labels from a co-occurring modality for the given data sample or from a co-occurring part of the data sample itself.
 -->
 
-## Qu'est-ce que l'apprentissage auto-supervisé ?
+## Qu'est-ce que l'apprentissage autosupervisé ?
 
-**Deux façons de définir l'apprentissage auto-supervisé**
+**Deux façons de définir l'apprentissage autosupervisé** :
 
 - **En se basant sur la définition de l'apprentissage supervisé** c'est-à-dire que le réseau suit un apprentissage supervisé où les labels sont obtenus de manière semi-automatique, sans intervention humaine.
-- **Problème de prédiction**, où une partie des données est cachée, et le reste visible. L'objectif est donc soit de prédire les données cachées, soit de prédire certaines propriétés des données cachées.
+- **Problème de prédiction** où une partie des données est cachée et le reste visible. L'objectif est donc soit de prédire les données cachées, soit de prédire certaines propriétés des données cachées.
 
-**Comment l'apprentissage auto-supervisé diffère-t-il de l'apprentissage supervisé et de l'apprentissage non supervisé ?
+
+**Comment l'apprentissage autosupervisé diffère-t-il de l'apprentissage supervisé et de l'apprentissage non supervisé ?**
 
 - Les tâches d'apprentissage supervisé ont des labels prédéfinis (et généralement fournis par l'homme),
 - L'apprentissage non supervisé ne dispose que des échantillons de données sans aucune supervision, label ou sortie correcte.
-- L'apprentissage auto-supervisé tire ses labels d'une modalité concomitante pour l'échantillon de données donné ou d'une partie concomitante de l'échantillon de données lui-même.
+- L'apprentissage autosupervisé tire ses labels d'une modalité concomitante pour l'échantillon de données donné ou d'une partie concomitante de l'échantillon de données lui-même.
 
 <!--
 ### Self-Supervised Learning in Natural Language Processing
 -->
 
-### L'apprentissage auto-supervisé dans le traitement du langage naturel
+### L'apprentissage autosupervisé dans le traitement du langage naturel
 
 <!--
 #### Word2Vec
@@ -142,9 +143,9 @@ Cette méthode de pré-entraînement et de mise au point d'ImageNet sur les tâc
 - Additionally, enables to leverage multiple modalities that might be associated with a single data sample.
 -->
 
-### Pourquoi un apprentissage auto-supervisé ?
+### Pourquoi un apprentissage autosupervisé ?
 
-- L'apprentissage auto-supervisé permet d'apprendre des représentations de données en observant simplement comment différentes parties des données interagissent.
+- L'apprentissage autosupervisé permet d'apprendre des représentations de données en observant simplement comment différentes parties des données interagissent.
 - Cela permet de réduire le nombre de données annotées.
 - De plus, il permet de tirer parti des multiples modalités qui peuvent être associées à un seul échantillon de données.
 
@@ -158,12 +159,12 @@ Generally, computer vision pipelines that employ self-supervised learning involv
 - The pretext task is the self-supervised learning task solved to learn visual representations, with the aim of using the learned representations or model weights obtained in the process, for the downstream task.
 -->
 
-### Apprentissage auto-supervisé en vision par ordinateur
+### Apprentissage autosupervisé en vision par ordinateur
 
-En général, les filières de vision par ordinateur qui font appel à l'apprentissage auto-supervisé impliquent l'exécution de deux tâches, une tâche prétexte et une tâche réelle (en aval).
+En général, les pipelines de vision par ordinateur qui font appel à l'apprentissage autosupervisé impliquent l'exécution de deux tâches, une tâche prétexte et une tâche réelle (en aval).
 
 - La tâche réelle (en aval) peut être tout comme une tâche de classification ou de détection, avec des échantillons de données annotés insuffisants.
-- La tâche prétexte est la tâche d'apprentissage auto-supervisée résolue pour apprendre des représentations visuelles, dans le but d'utiliser les représentations apprises ou les poids de modèle obtenus dans le processus, pour la tâche en aval.
+- La tâche prétexte est la tâche d'apprentissage autosupervisée résolue pour apprendre des représentations visuelles, dans le but d'utiliser les représentations apprises ou les poids de modèle obtenus dans le processus, pour la tâche en aval.
 
 <!--
 #### Developing pretext tasks
@@ -193,14 +194,14 @@ En général, les filières de vision par ordinateur qui font appel à l'apprent
 
 #### [Exemple de tâches de prétexte : prédire la position relative des patchs d'image](https://www.youtube.com/watch?v=0KeR6i1_56g&t=759s)
 
-- Entrée : 2 patchs d'image, l'un est le patch d'image d'ancrage et l'autre est le patch d'image de requête.
-- Compte tenu des deux correctifs d'image, le réseau doit prévoir la position relative du correctif d'image de requête par rapport au correctif d'image d'ancrage.
-- Ainsi, ce problème peut être modélisé comme un problème de classification à 8 voies, puisqu'il y a 8 emplacements possibles pour une image de requête, avec une ancre.
+- Entrée : 2 patchs d'image, l'un est le patch d'image d'ancrage et l'autre est le patch d'image requête.
+- Compte tenu des deux correctifs d'image, le réseau doit prévoir la position relative du correctif d'image requête par rapport au correctif d'image d'ancrage.
+- Ainsi, ce problème peut être modélisé comme un problème de classification à 8 voies, puisqu'il y a 8 emplacements possibles pour une image requête, avec une ancre.
 - Et le label pour cette tâche peut être généré automatiquement en indiquant la position relative de la zone de recherche par rapport à l'ancre.
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-1/img03.jpg" width="70%"/><br>
-<b>Figure 3:</b> Tâche de position relative
+<b>Figure 3 :</b> Tâche de position relative
 </center>
 
 <!--
@@ -232,7 +233,7 @@ La tâche de position relative permet de trouver des zones d'image très similai
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-1/img04.jpg" width="100%"/><br>
-<b>Figure 4:</b> Position relative : Voisins les plus proches
+<b>Figure 4 :</b> Position relative : voisins les plus proches
 </center>
 
 <!--
@@ -248,7 +249,7 @@ La tâche de position relative permet de trouver des zones d'image très similai
 </center>
 -->
 
-#### Prévoir la rotation des images
+#### Prédire la rotation des images
 
 - La prévision des rotations est l'une des tâches prétextes les plus populaires, qui a une architecture simple et directe et nécessite un échantillonnage minimal.
 - Nous appliquons des rotations de 0, 90, 180, 270 degrés à l'image et nous envoyons ces images tournées au réseau pour prédire quel type de rotation a été appliqué à l'image et le réseau effectue simplement une classification à 4 voies pour prédire la rotation.
@@ -256,7 +257,7 @@ La tâche de position relative permet de trouver des zones d'image très similai
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-1/img05.png" width="80%"/><br>
-<b>Figure 5:</b> Rotations de l'image
+<b>Figure 5 :</b> Rotations de l'image
 </center>
 
 <!--
@@ -286,7 +287,7 @@ It is important to note that colour mapping is not deterministic, and several po
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-1/img06.png" width="65%"/><br>
-<b>Figure 6:</b> Coloration
+<b>Figure 6 :</b> Coloration
 </center>
 
 Dans cette tâche de prétexte, on prédit les couleurs d'une image grise. Elle peut être formulée pour n'importe quelle image, il suffit d'enlever la couleur et d'alimenter le réseau avec cette image en niveaux de gris pour prédire sa couleur. Cette tâche est utile à certains égards, comme pour coloriser les vieux films en niveaux de gris. L'intuition derrière cette tâche est que le réseau doit comprendre certaines informations significatives comme le fait que les arbres sont verts, le ciel est bleu, etc.
@@ -311,7 +312,7 @@ Videos are composed of sequences of frames and this notion is the idea behind se
 
 ### Tâches de prétexte pour les vidéos
 
-Les vidéos sont composées de séquences d'images et cette notion est l'idée qui sous-tend l'auto-supervision, qui peut être mise à profit pour certaines tâches de prétexte comme la prédiction de l'ordre des images, le remplissage des blancs et le suivi des objets.
+Les vidéos sont composées de séquences d'images et cette notion est l'idée qui sous-tend l'autosupervision, qui peut être mise à profit pour certaines tâches de prétexte comme la prédiction de l'ordre des images, le remplissage des blancs et le suivi des objets.
 
 <!--
 #### Shuffle & Learn
@@ -351,41 +352,41 @@ It was verified quantitatively by fine-tuning this representation to the task of
 In figure 10, we compare the results for supervised ImageNet and Self-Supervised Shuffle & Learn on FLIC and MPII datasets and we can see that Shuffle and Learn gives good results for key point estimation.
 -->
 
-#### Mélanger et apprendre (Shuffle & Learn)
+#### Mélanger et apprendre (*Shuffle & Learn*)
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-1/img07.png" width="70%"/><br>
-<b>Figure 7:</b> Interpolation
+<b>Figure 7 :</b> Interpolation
 </center>
 
 Lorsque nous avons plusieurs images, nous en extrayons trois et si elles sont extraites dans le bon ordre, nous les qualifions de positives. Dans le cas où elles sont mélangées, nous les qualifions de négatives. Cela devient alors un problème de classification binaire pour prédire si les trames sont dans le bon ordre ou non. Ainsi, en donnant un point de départ et un point d'arrivée, nous vérifions si le milieu est une interpolation valide des deux.
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-1/img08.png" width="70%"/><br>
-<b>Figure 8:</b> Architecture “Shuffle & Learn”
+<b>Figure 8 :</b> Architecture Shuffle & Learn
 </center>
 
 Nous pouvons utiliser un réseau siamois en triplet, où les trois trames sont transmises indépendamment, puis nous concaténons les caractéristiques générées et effectuons la classification binaire pour prédire si les trames sont mélangées ou non.
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-1/img09.png" width="100%"/><br>
-<b>Figure 9:</b> Représentation des voisins les plus proches
+<b>Figure 9 :</b> Représentation des voisins les plus proches
 </center>
 
 Là encore, nous pouvons utiliser l'algorithme des plus proches voisins pour visualiser ce que nos réseaux apprennent. Dans la figure 9 ci-dessus, nous avons d'abord un cadre d'interrogation que nous alimentons pour obtenir une représentation des caractéristiques, puis nous regardons les voisins les plus proches dans l'espace de représentation. En comparant, nous pouvons observer une différence marquée entre les voisins obtenus à partir d'ImageNet, de Shuffle & Learn et de Random.
 
 ImageNet est capable de réduire l'ensemble de la sémantique, car il pourrait comprendre qu'il s'agit d'une scène de gymnastique pour la première entrée. De même, il pourrait comprendre qu'il s'agit d'une scène de plein air avec de l'herbe, etc… pour la deuxième requête. En revanche, lorsque nous observons Random, nous pouvons voir qu'il accorde une grande importance à la couleur de l'arrière-plan.
 
-En observant Shuffle & Learn, il n'est pas immédiatement possible de savoir s'il se concentre sur la couleur ou sur le concept sémantique. Après une inspection plus poussée et l'observation de divers exemples, on a constaté qu'il s'agit de la pose de la personne. Par exemple, dans la première image, la personne est à l'envers et dans la seconde, les pieds sont dans une position particulière similaire à celle du cadre de la requête, ignorant la couleur de la scène ou de l'arrière-plan. Le raisonnement est que notre tâche de prétexte était de prédire si les images sont dans le bon ordre ou non, et pour ce faire, le réseau doit se concentrer sur ce qui bouge dans la scène, dans ce cas, la personne.
+En observant *Shuffle & Learn*, il n'est pas immédiatement possible de savoir s'il se concentre sur la couleur ou sur le concept sémantique. Après une inspection plus poussée et l'observation de divers exemples, on a constaté qu'il s'agit de la pose de la personne. Par exemple, dans la première image, la personne est à l'envers et dans la seconde, les pieds sont dans une position particulière similaire à celle du cadre de la requête, ignorant la couleur de la scène ou de l'arrière-plan. Le raisonnement est que notre tâche de prétexte était de prédire si les images sont dans le bon ordre ou non, et pour ce faire, le réseau doit se concentrer sur ce qui bouge dans la scène, dans ce cas, la personne.
 
 Cela a été vérifié quantitativement en ajustant cette représentation à la tâche d'estimation des points clés humains, où, étant donné une image humaine, nous prédisons où se trouvent certains points clés comme le nez, l'épaule gauche, l'épaule droite, le coude gauche, le coude droit, etc. Cette méthode est utile pour le suivi et l'estimation de la pose.
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-1/img10.png" width="80%"/><br>
-<b>Figure 10:</b> Point clé Comparaison des estimations
+<b>Figure 10 :</b> Comparaison des estimations des points clés
 </center>
 
-Dans la figure 10, nous comparons les résultats d'ImageNet supervisé et de Shuffle & Learn auto-supervisé sur des ensembles de données FLIC et MPII et nous pouvons voir que Shuffle and Learn donne de bons résultats pour l'estimation des points clés.
+Dans la figure 10, nous comparons les résultats d'ImageNet supervisé et de *Shuffle & Learn* autosupervisé sur des ensembles de données FLIC et MPII et nous pouvons voir que *Shuffle & Learn* donne de bons résultats pour l'estimation des points clés.
 
 <!--
 ### Pretext Tasks for videos and sound
@@ -415,17 +416,17 @@ La vidéo et le son sont multimodaux, c'est-à-dire que nous avons deux modalit
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-1/img11.png" width="100%"/><br>
-<b>Figure 11:</b> Echantillonnage vidéo et sonore
+<b>Figure 11 :</b> Echantillonnage vidéo et sonore
 </center>
 
 Dans le cas d'une vidéo avec le son d'un tambour, échantillonnez la trame vidéo avec le son correspondant et appelez cela un ensemble positif. Ensuite, prenez l'audio d'une batterie et la trame vidéo d'une guitare et marquez-les comme un ensemble négatif. Nous pouvons maintenant entraîner un réseau à résoudre ce problème de classification binaire.
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-1/img12.png" width="70%"/><br>
-<b>Figure 12:</b> Architecture
+<b>Figure 12 :</b> Architecture
 </center>
 
-**Architecture:** Passez les images vidéo au sous-réseau de vision et passez l'audio au sous-réseau audio, ce qui donne des caractéristiques et des enchâssements en 128 dimensions, nous les fusionnons ensuite ensemble et le résolvons comme un problème de classification binaire prédisant s'ils correspondent ou non entre eux.
+**Architecture :** passez les images vidéo au sous-réseau de vision et passez l'audio au sous-réseau audio, ce qui donne des caractéristiques et des enchâssements en 128 dimensions, nous les fusionnons ensuite ensemble et le résolvons comme un problème de classification binaire prédisant s'ils correspondent ou non entre eux.
 
 Il peut être utilisé pour prédire ce qui, dans l'image, pourrait produire un son. L'intuition est que s'il s'agit du son d'une guitare, le réseau doit en gros comprendre l'aspect de la guitare et il devrait en être de même pour la batterie.
 
@@ -460,7 +461,7 @@ Il peut être utilisé pour prédire ce qui, dans l'image, pourrait produire un
   * In practice, the pretext task is trained, and may not be re-trained. In development, it is trained as part of the entire pipeline.
 -->
 
-## [Comprendre ce que la tâche "prétexte" apprend](https://www.youtube.com/watch?v=0KeR6i1_56g&t=2426s)
+## [Comprendre ce que la tâche prétexte apprend](https://www.youtube.com/watch?v=0KeR6i1_56g&t=2426s)
 
 * Les tâches de prétexte doivent être **complémentaires**
 
@@ -468,10 +469,10 @@ Il peut être utilisé pour prédire ce qui, dans l'image, pourrait produire un
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-1/img13.png" width="80%"/><br>
-<b>Figure 13:</b> Comparaison de l'entraînement combiné disjoint versus la Position Relative et des tâches de prétexte de colorisation. ResNet101. (Misra)
+<b>Figure 13 :</b> Comparaison de l'entraînement combiné disjoint vs la Position Relative et des tâches de prétexte de colorisation sur un ResNet101
 </center>
 
-  * Un seul prétexte peut ne pas être la bonne réponse pour apprendre les représentations
+  * Une seule prétexte peut ne pas être la bonne réponse pour apprendre les représentations
 
 * Les tâches de prétexte varient beaucoup dans ce qu'elles essaient de prévoir (difficilement)
 
@@ -479,21 +480,21 @@ Il peut être utilisé pour prédire ce qui, dans l'image, pourrait produire un
   * Le masquage et le remplissage sont beaucoup plus difficiles => **meilleure représentation**
   * **Les méthodes contrastives** génèrent encore plus d'informations que les tâches prétexte
 
-* **Question:** Comment entraîner de multiples tâches de pré-entraînement ?
+* **Comment entraîner de multiples tâches de pré-entraînement ?**
 
-  * La sortie du prétexte dépendra de l'entrée. La dernière couche entièrement connectée du réseau peut être **intervertie** en fonction du type de lot.
-  * Par exemple : Un lot d'images en noir et blanc est envoyé au réseau dans lequel le modèle doit produire une image en couleur. Ensuite, la couche finale est permutée et reçoit un lot de patchs pour prédire la position relative.
+>  * La sortie du prétexte dépendra de l'entrée. La dernière couche entièrement connectée du réseau peut être **intervertie** en fonction du type de lot.
+>  * Par exemple : un lot d'images en noir et blanc est envoyé au réseau dans lequel le modèle doit produire une image en couleur. Ensuite, la couche finale est permutée et reçoit un lot de patchs pour prédire la position relative.
 
-* **Question:** En quelle quantité devons-nous entraîner une tâche prétexte ?
+* **En quelle quantité devons-nous entraîner une tâche prétexte ?**
 
-  * Règle empirique : avoir une tâche de prétexte très difficile telle qu'elle améliore la tâche en aval.
-  * En pratique, la tâche de prétexte est entraînée et ne peut pas être réentraînée. En développement, elle est entraînée dans le cadre de l'ensemble de la filière.
+>  * Règle empirique : avoir une tâche de prétexte très difficile telle qu'elle améliore la tâche en aval.
+>  * En pratique, la tâche de prétexte est entraînée et ne peut pas être réentraînée. En développement, elle est entraînée dans le cadre de l'ensemble du pipeline.
 
 
 <!--
 ## Scaling Self-Supervised Learning
 -->
-## Mise à l'échelle de l'apprentissage auto-supervisé
+## Mise à l'échelle de l'apprentissage autosupervisé
 
 <!--
 ### Jigsaw Puzzles
@@ -522,26 +523,26 @@ Il peut être utilisé pour prédire ce qui, dans l'image, pourrait produire un
 
 ### Puzzles Jigsaw
 
-* Partitionner une image en plusieurs tuiles et mélanger ces tuiles. Le modèle est ensuite chargé de rétablir la configuration d'origine des tuiles. (Noorozi & Favaro, 2016)
+* Partitionner une image en plusieurs tuiles et mélanger ces tuiles. Le modèle est ensuite chargé de rétablir la configuration d'origine des tuiles (Noorozi & Favaro, 2016).
 
   * Prédire quelle permutation a été appliquée à l'entrée
   * Cela se fait en créant des lots de tuiles de telle sorte que **chaque tuile d'une image soit évaluée indépendamment**. Les sorties de convolution sont ensuite concaténées et la permutation est prédite comme dans la figure ci-dessous
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-1/img14.png" width="80%"/><br>
-<b>Figure 14:</b> Architecture d’un réseau siamois pour une tâche de prétexte Jigsaw. Chaque tuile est traversée indépendamment, avec des codages concaténés pour prédire une permutation. (Misra)
+<b>Figure 14 :</b> Architecture d’un réseau siamois pour une tâche de prétexte Jigsaw. Chaque tuile est traversée indépendamment, avec des codages concaténés pour prédire une permutation
 </center>
 
   * Considérations :
-    1. Utiliser un sous-ensemble de permutations (* c'est-à-dire * De 9!, utiliser 100)
-    2. Le ConvNet n-way utilise des paramètres partagés
-    3. La complexité du problème réside dans la taille du sous-ensemble. La *quantité d'informations que vous prévoyez.*
+    1. Utiliser un sous-ensemble de permutations (c'est-à-dire de 9!, utiliser 100)
+    2. Le ConvNet *n-way* utilise des paramètres partagés
+    3. La complexité du problème réside dans la taille du sous-ensemble, la quantité d'informations que vous prévoyez.
 
 * Parfois, cette méthode peut être plus performante sur les tâches en aval que les méthodes supervisées, car le réseau est capable d'apprendre certains concepts sur la géométrie de son entrée.
 
 * Les lacunes : le few-shot learning (apprentissage avec un nombre limité d'exemples d'entraînement)
 
- * **Les représentations auto-supervisées ne sont pas aussi efficaces sur l'échantillon**
+ * **Les représentations autosupervisées ne sont pas aussi efficaces sur l'échantillon**
 
 <!--
 ### Evaluation: Fine-tuning *vs.* Linear Classifier
@@ -564,16 +565,16 @@ Il peut être utilisé pour prédire ce qui, dans l'image, pourrait produire un
     * This shows that the pretext task is **not well-aligned** to the downstream task.
 -->
 
-### Évaluation : Fine-tuning *vs.* Classifieur linéaire
+### Évaluation : Fine-tuning *vs* Classifieur linéaire
 Cette forme d'évaluation est une sorte de **transfert d'apprentissage**.
-* **Fine Tuning** :  nous utilisons l'ensemble de notre réseau comme **initialisation** pour laquelle nous entraînons un nouveau, en mettant à jour tous les poids.
-* **Linear Classifier** : En plus de notre réseau prétexte, nous entraînons un petit classifieur linéaire pour effectuer notre tâche en aval, en laissant le reste du réseau intact.
+* ***Finetuning*** :  nous utilisons l'ensemble de notre réseau comme **initialisation** pour laquelle nous entraînons un nouveau, en mettant à jour tous les poids.
+* **Classifieur linéaire** : en plus de notre réseau prétexte, nous entraînons un petit classifieur linéaire pour effectuer notre tâche en aval, en laissant le reste du réseau intact.
 
-> Une bonne représentation doit être transférée avec un **petit entraînement**.
+Une bonne représentation doit être transférée avec un **petit entraînement**.
 
 * Il est utile d'évaluer l'apprentissage du prétexte sur une **multitude de tâches différentes**. Nous pouvons le faire en extrayant la représentation créée par les différentes couches du réseau en tant que **fonctionnalités fixes** et en évaluant leur utilité à travers ces différentes tâches.
-  * Mesure : Précision moyenne (Mean Average Precision en anglais souvent siglée en mAP) => Précision moyenne de l'ensemble des différentes tâches que nous envisageons.
-  * Quelques exemples de ces tâches : Détection d'objets (en utilisant du fine-tuning), estimation de la normale de surface (voir l'ensemble de données NYU-v2)
+  * Mesure : la précision moyenne (*Mean Average Precision* en anglais souvent siglée en mAP) de l'ensemble des différentes tâches que nous envisageons.
+  * Quelques exemples de ces tâches : détection d'objets (en utilisant du *finetuning*), estimation de la surface (voir le jeu de données NYU-v2)
 * Qu'apprend chaque couche ?
   * En général, plus les couches sont profondes, plus la précision moyenne sur les tâches en aval utilisant leurs représentations augmente.
   * Cependant, la **couche finale** verra une forte baisse de la mAP en raison de la sur-spécialisation de la couche.
diff --git a/docs/fr/week10/10-2.md b/docs/fr/week10/10-2.md
index b3c56149d..6dff50de4 100644
--- a/docs/fr/week10/10-2.md
+++ b/docs/fr/week10/10-2.md
@@ -1,7 +1,7 @@
 ---
 lang: fr
 lang-ref: ch.10-2
-title: Apprentissage auto-supervisé, ClusterFit et PIRL
+title: Apprentissage autosupervisé, ClusterFit et PIRL
 lecturer: Ishan Misra
 authors: Zhonghui Hu, Yuqing Wang, Alfred Ajay Aureate Rajakumar, Param Shah
 date: 6 Apr 2020
@@ -32,24 +32,24 @@ Fig. 2 plots the Mean Average Precision at each layer for Linear Classifiers on
 </center>
 -->
 
-### [Que manque-t-il aux tâches de "prétexte" ? L'espoir de la généralisation](https://www.youtube.com/watch?v=0KeR6i1_56g&t=3710s)
+### [Que manque-t-il aux tâches de prétexte ? L'espoir de la généralisation](https://www.youtube.com/watch?v=0KeR6i1_56g&t=3710s)
 
-La tâche de prétexte comprend généralement des étapes de pré-entraînement qui sont auto-supervisées et ensuite nous avons nos tâches de transfert qui sont souvent de classification ou de détection. Nous *espérons* que la tâche de pré-entraînement et les tâches de transfert sont "alignées", ce qui signifie que la résolution de la tâche de prétexte aidera à résoudre les tâches de transfert. Donc, beaucoup de recherches sont nécessaires pour concevoir une tâche de prétexte et la mettre en œuvre de façon optimale.
+La tâche de prétexte comprend généralement des étapes de pré-entraînement qui sont autosupervisées et ensuite nous avons nos tâches de transfert qui sont souvent de classification ou de détection. Nous espérons que la tâche de pré-entraînement et les tâches de transfert sont alignées, ce qui signifie que la résolution de la tâche de prétexte aidera à résoudre les tâches de transfert. Donc, beaucoup de recherches sont nécessaires pour concevoir une tâche de prétexte et la mettre en œuvre de façon optimale.
 
-Cependant, il est très difficile de savoir pourquoi l'exécution d'une tâche non sémantique devrait produire de bonnes caractéristiques. Par exemple, pourquoi devrions-nous nous attendre à apprendre la "sémantique" tout en résolvant quelque chose comme un puzzle ? Ou pourquoi "prédire les mots-dièse" à partir d'images devrait-il aider à apprendre un classifieur sur des tâches de transfert ? La question reste donc posée. Comment concevoir de bonnes tâches de pré-entraînement qui soient bien alignées avec les tâches de transfert ?
+Cependant, il est très difficile de savoir pourquoi l'exécution d'une tâche non sémantique devrait produire de bonnes caractéristiques. Par exemple, pourquoi devrions-nous nous attendre à apprendre la « sémantique » tout en résolvant quelque chose comme un puzzle ? Ou pourquoi prédire les mots-dièse à partir d'images devrait-il aider à apprendre un classifieur sur des tâches de transfert ? La question reste donc posée. Comment concevoir de bonnes tâches de pré-entraînement qui soient bien alignées avec les tâches de transfert ?
 
-Une façon d'évaluer ce problème est d'examiner les représentations à chaque couche (voir Fig. 1). Si les représentations de la dernière couche ne sont pas bien alignées avec la tâche de transfert, alors la tâche de pré-entraînement peut ne pas être la bonne tâche à résoudre.
+Une façon d'évaluer ce problème est d'examiner les représentations à chaque couche (voir figure 1). Si les représentations de la dernière couche ne sont pas bien alignées avec la tâche de transfert, alors la tâche de pré-entraînement peut ne pas être la bonne tâche à résoudre.
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-2/fig01.png" height="75%" width="75%"/><br>
 <b>Figure 1</b> : Représentation des éléments à chaque couche
 </center>
 
-La Fig. 2 représente la précision moyenne à chaque couche pour les classifieurs linéaires sur VOC07 avec un pré-entraînement Jigsaw. Il est clair que la dernière couche est très spécialisée pour le problème du puzzle.
+La figure 2 représente la précision moyenne à chaque couche pour les classifieurs linéaires sur VOC07 avec un pré-entraînement Jigsaw. Il est clair que la dernière couche est très spécialisée pour le problème du puzzle.
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-2/fig02.png" height="70%" width="80%"/><br>
-<b>Figure 2</b> : Performance de Jigsaw en fonction de chaque couche
+<b>Figure 2 :</b> Performance de Jigsaw en fonction de chaque couche
 </center>
 
 
@@ -69,19 +69,17 @@ La Fig. 2 représente la précision moyenne à chaque couche pour les classifieu
 Two ways to achieve the above properties are **Clustering** and **Contrastive Learning**. They have started performing much better than whatever pretext tasks that were designed so far.  One method that belongs to clustering is **ClusterFit** and another falling into invariance is **PIRL**.
 -->
 
-### Qu'attendons-nous des fonctionnalités pré-entraînées ?
+### Qu'attendons-nous des caractéristiques pré-entraînées ?
 
 * Représenter la façon dont les images sont liées les unes aux autres
 
   * ClusterFit : améliorer la généralisation des représentations visuelles
 
-* Être robuste aux "facteurs de nuisance" : Invariance
+* Être robuste aux facteurs de nuisance, c'est à dire être invariant, par exemple à l'éclairage, l'emplacement exact des objets, la couleur.
 
-  *par exemple* emplacement exact des objets, éclairage, couleur exacte
+  * PIRL : apprentissage autosupervisé des représentations invariantes du prétexte
 
-  * PIRL : Apprentissage auto-supervisé des représentations invariantes du prétexte
-
-Deux moyens d'atteindre les propriétés ci-dessus sont le **Clustering** et l' **Apprentissage Contrastif**. Ils ont commencé à fonctionner bien mieux que les tâches prétextes qui ont été conçues jusqu'à présent. Une méthode qui appartient au clustering est **ClusterFit** et une autre qui tombe dans l'invariance est **PIRL**.
+Deux moyens d'atteindre les propriétés ci-dessus sont le *clustering* et l'*apprentissage contrastif*. Ils ont commencé à fonctionner bien mieux que les tâches prétextes qui ont été conçues jusqu'à présent. Une méthode qui appartient au clustering est **ClusterFit** et une autre qui tombe dans l'invariance est **PIRL**.
 
 
 <!--
@@ -90,7 +88,7 @@ Deux moyens d'atteindre les propriétés ci-dessus sont le **Clustering** et l'
 Clustering the feature space is a way to see what images relate to one another.
 -->
 
-## ClusterFit : Améliorer la généralisation des représentations visuelles
+## ClusterFit : améliorer la généralisation des représentations visuelles
 
 Le clustering de l'espace de présentation est un moyen de voir quelles images sont liées les unes aux autres.
 
@@ -116,14 +114,14 @@ height="75%" width="75%" /><br>
 </center>
 -->
 
-#### Cluster : Regroupement des caractéristiques
+#### Cluster : regroupement des caractéristiques
 
 Nous prenons un réseau pré-entraîné et l'utilisons pour extraire un ensemble de caractéristiques d'un ensemble d'images. Le réseau peut être n'importe quel type de réseau pré-entraîné. Le clustering K-means est alors effectué sur ces caractéristiques, de sorte que chaque image appartient à un cluster, qui devient son label.
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-2/fig03.png"
 height="75%" width="75%" /><br>
-<b>Figure 3</b> : Etape du cluster
+<b>Figure 3 :</b> Etape du cluster
 </center>
 
 
@@ -146,14 +144,14 @@ height="75%" width="75%"/><br>
 </center>
 -->
 
-#### Formation : Prévoir l'affectation des clusters
+#### Formation : prévoir l'affectation des clusters
 
 Pour cette étape, nous entraînons un réseau à partir de zéro afin de prévoir les pseudo labels des images. Ces pseudo labels sont ceux que nous avons obtenus lors de la première étape par le clustering.
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-2/fig04.png"
 height="75%" width="75%"/><br>
-<b>Fig. 4</b> : Etape de prédiction
+<b>Figure 4 :</b> Etape de prédiction
 </center>
 
 Une tâche standard de pré-entraînement et de transfert pré-entraîne d'abord un réseau et l'évalue ensuite sur des tâches en aval, comme le montre la première ligne de la figure 5. ClusterFit effectue le pré-entraînement sur un ensemble de données $D_{cf}$ pour obtenir le réseau pré-entraîné $N_{pre}$. Le pré-entraînement $N_{pre}$ est effectué sur un ensemble de données $D_{cf}$ pour générer des clusters. Nous apprenons ensuite un nouveau réseau $N_{cf}$ à partir de zéro sur ces données. Enfin, on utilise $N_{cf}$ pour toutes les tâches en aval.
@@ -161,7 +159,7 @@ Une tâche standard de pré-entraînement et de transfert pré-entraîne d'abord
 <center>
 <img src="{{site.baseurl}}/images/week10/10-2/fig05.png"
 height="75%" width="75%"/><br>
-<b>Fig. 5</b> : Pré entraînement "standard" + transfert *vs.* Pré entraînement "standard" + ClusterFit
+<b>Figure 5</b> Pré-entraînement standard + transfert vs Pré-entraînement standard + ClusterFit
 </center>
 
 <!--
@@ -188,19 +186,19 @@ In model distillation we take the pre-trained network and use the labels the net
 
 La raison pour laquelle ClusterFit fonctionne est que lors de l'étape de clustering, seules les informations essentielles sont saisies et les artefacts sont jetés, ce qui permet au second réseau d'apprendre quelque chose de légèrement plus générique.
 
-Pour comprendre ce point, une expérience assez simple est réalisée.  Nous ajoutons un bruit de label à ImageNet-1K, et entraînons un réseau basé sur cet ensemble de données. Ensuite, nous évaluons la représentation des caractéristiques de ce réseau sur une tâche en aval sur ImageNet-9K. Comme le montre la figure 6, nous ajoutons différentes quantités de bruit de label au réseau ImageNet-1K et nous évaluons les performances de transfert de différentes méthodes sur ImageNet-9K.
+Pour comprendre ce point, une expérience assez simple est réalisée. Nous ajoutons un bruit de label à ImageNet-1K, et entraînons un réseau basé sur cet ensemble de données. Ensuite, nous évaluons la représentation des caractéristiques de ce réseau sur une tâche en aval sur ImageNet-9K. Comme le montre la figure 6, nous ajoutons différentes quantités de bruit de label au réseau ImageNet-1K et nous évaluons les performances de transfert de différentes méthodes sur ImageNet-9K.
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-2/fig06.png"
 height="50%" width="50%"/>
-<br><b>Fig. 6</b> : Expérience de contrôle
+<br><b>Figure 6 :</b> Expérience de contrôle
 </center>
 
 La ligne rose indique les performances du réseau pré-entraîné, qui diminuent à mesure que le bruit du label augmente. La ligne bleue représente la distillation du modèle où nous prenons le réseau initial et l'utilisons pour générer des labels. La distillation est généralement plus performante que le réseau pré-entraîné.  La ligne verte, ClusterFit, est toujours meilleure que l'une ou l'autre de ces méthodes. Ce résultat valide notre hypothèse.
 
-* Question : Pourquoi utiliser la méthode de distillation pour comparer ? Quelle est la différence entre la distillation et ClusterFit ?
+**Pourquoi utiliser la méthode de distillation pour comparer ? Quelle est la différence entre la distillation et ClusterFit ?**
 
-Dans la distillation de modèle, nous prenons le réseau pré-entraîné et utilisons les labels que le réseau a prédits de manière plus douce pour générer des labels pour nos images. Par exemple, nous obtenons une répartition sur toutes les classes et utilisons cette répartition pour entraîner le second réseau. La distribution plus douce permet d'améliorer les classes initiales que nous avons. Dans ClusterFit, nous ne nous soucions pas de l'espace du label.
+> Dans la distillation de modèle, nous prenons le réseau pré-entraîné et utilisons les labels que le réseau a prédits de manière plus douce pour générer des labels pour nos images. Par exemple, nous obtenons une répartition sur toutes les classes et utilisons cette répartition pour entraîner le second réseau. La distribution plus douce permet d'améliorer les classes initiales que nous avons. Dans ClusterFit, nous ne nous soucions pas de l'espace du label.
 
 <!--
 ### Performance
@@ -222,25 +220,25 @@ height="70%" width="70%"/><br><b>Fig. 8</b>: Gains without extra data, labels or
 
 ### Performance
 
-Nous appliquons cette méthode à l'apprentissage auto-supervisé. Ici, Jigsaw est appliqué pour obtenir le réseau pré-entraîné $N_{pre}$ dans ClusterFit. La figure 7 montre que les performances de transfert sur différents ensembles de données montrent des gains surprenants par rapport à d'autres méthodes auto-supervisées.
+Nous appliquons cette méthode à l'apprentissage autosupervisé. Ici, Jigsaw est appliqué pour obtenir le réseau pré-entraîné $N_{pre}$ dans ClusterFit. La figure 7 montre que les performances de transfert sur différents ensembles de données montrent des gains surprenants par rapport à d'autres méthodes autosupervisées.
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-2/fig07.png"
-height="70%" width="70%"/><br><b>Fig. 7</b> : Performances de transfert sur différents jeux de données
+height="70%" width="70%"/><br><b>Figure 7 :</b> Performances de transfert sur différents jeux de données
 </center>
 
-ClusterFit fonctionne pour tout réseau ayant reçu un entraînement préalable. Les gains sans données supplémentaires, labels ou changements d'architecture sont visibles dans la figure 8. D'une certaine manière, on peut donc considérer le ClusterFit comme une étape de fine-tuning auto-supervisée, qui améliore la qualité de la représentation.
+ClusterFit fonctionne pour tout réseau ayant reçu un entraînement préalable. Les gains sans données supplémentaires, labels ou changements d'architecture sont visibles dans la figure 8. D'une certaine manière, on peut donc considérer le ClusterFit comme une étape de fine-tuning autosupervisée, qui améliore la qualité de la représentation.
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-2/fig08.png"
-height="70%" width="70%"/><br><b>Fig. 8</b> : Des gains sans données supplémentaires, sans labels ni changements d'architecture
+height="70%" width="70%"/><br><b>Figure 8 :</b> Des gains sans données supplémentaires, sans labels ni changements d'architecture
 </center>
 
 <!--
 ## [Self-supervised Learning of Pretext Invariant Representations (PIRL)](https://www.youtube.com/watch?v=0KeR6i1_56g&t=4748s)
 -->
 
-## [Apprentissage auto-supervisé des représentations invariantes du prétexte (Pretext Invariant Representations  - PIRL)](https://www.youtube.com/watch?v=0KeR6i1_56g&t=4748s)
+## [PIRL : apprentissage autosupervisé des représentations invariantes du prétexte](https://www.youtube.com/watch?v=0KeR6i1_56g&t=4748s)
 
 <!--
 ### Contrastive Learning
@@ -268,17 +266,17 @@ L'apprentissage contrastif est essentiellement un cadre général qui tente d'ap
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-2/fig09.png"
-height="20%" width="20%"/><br><b>Fig. 9</b> : Groupes d'images liées et non liées
+height="20%" width="20%"/><br><b>Figure 9 :</b> Groupes d'images liées et non liées
 </center>
 
 Dans ce cas, imaginez que les cases bleues sont les points liés, les verts sont liés et les violets sont les points liés.
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-2/fig10.png"
-height="100%" width="100%"/><br><b>Fig. 10</b> : Fonction d'apprentissage et de perte contrastive
+height="100%" width="100%"/><br><b>Figure 10 :</b> Fonction d'apprentissage et de perte contrastive
 </center>
 
-Les caractéristiques de chacun de ces points de données seraient extraites par le biais d'un réseau partagé, appelé "réseau siamois", afin d'obtenir un ensemble de caractéristiques d'images pour chacun de ces points de données. Ensuite, une fonction de perte contrastive est appliquée pour essayer de minimiser la distance entre les points bleus par opposition, par exemple, à la distance entre le point bleu et le point vert. Ou alors, la distance entre les points bleus devrait être inférieure à la distance entre le point bleu et le point vert ou le point bleu et le point violet. Ainsi, l'espace d'enchâssement des échantillons apparentés devrait être beaucoup plus proche que l'espace d'enchâssement des échantillons non apparentés. C'est donc l'idée générale de ce qu'est l'apprentissage contrastif et, bien sûr, Yann a été l'un des premiers à proposer cette méthode. L'apprentissage contrastif fait donc maintenant un retour en force dans l'apprentissage auto-supervisé ; une grande partie des méthodes de pointe auto-supervisées sont en fait basées sur l'apprentissage contrastif.
+Les caractéristiques de chacun de ces points de données seraient extraites par le biais d'un réseau partagé, appelé réseau siamois, afin d'obtenir un ensemble de caractéristiques d'images pour chacun de ces points de données. Ensuite, une fonction de perte contrastive est appliquée pour essayer de minimiser la distance entre les points bleus par opposition, par exemple, à la distance entre le point bleu et le point vert. Ou alors, la distance entre les points bleus devrait être inférieure à la distance entre le point bleu et le point vert ou le point bleu et le point violet. Ainsi, l'espace d'enchâssement des échantillons apparentés devrait être beaucoup plus proche que l'espace d'enchâssement des échantillons non apparentés. C'est donc l'idée générale de ce qu'est l'apprentissage contrastif dont Yann a été l'un des premiers à proposer cette méthode. L'apprentissage contrastif fait donc un retour en force dans l'apprentissage autosupervisé puisqu'une grande partie des méthodes de pointe dans le domaine son basées sur l'apprentissage contrastif.
 
 <!--
 ### How to define related or unrelated?
@@ -290,9 +288,9 @@ Similar techniques to what was discussed earlier could be used: frames of video
 
 ### Comment définir ce qui est lié ou non lié ?
 
-Et la question principale est de savoir comment définir ce qui est lié et ce qui ne l'est pas. Dans le cas de l'apprentissage supervisé, il est assez clair que toutes les images de chiens sont des images liées, et toute image qui n'est pas un chien est fondamentalement une image non liée. Mais il n'est pas aussi clair de définir ce qui est lié et ce qui ne l'est pas dans le cas d'apprentissage auto-supervisé. L'autre grande différence avec une tâche de prétexte est que l'apprentissage contrastif raisonne avec vraiment beaucoup de données à la fois.  Si vous regardez la fonction de perte, elle implique toujours plusieurs images. Dans la première ligne, il s'agit essentiellement d'images bleues et d'images vertes, et dans la deuxième ligne, d'images bleues et d'images violettes. Mais comme si vous regardiez une tâche comme par exemple Jigsaw ou une tâche comme la rotation, vous raisonnez toujours sur une seule image de manière indépendante. C'est donc une autre différence avec l'apprentissage contrastif : l'apprentissage contrastif raisonne sur plusieurs points de données à la fois.
+Et la question principale est de savoir comment définir ce qui est lié et ce qui ne l'est pas. Dans le cas de l'apprentissage supervisé, il est assez clair que toutes les images de chiens sont des images liées, et toute image qui n'est pas un chien est fondamentalement une image non liée. Mais il n'est pas aussi clair de définir ce qui est lié et ce qui ne l'est pas dans le cas d'apprentissage autosupervisé. L'autre grande différence avec une tâche de prétexte est que l'apprentissage contrastif raisonne avec vraiment beaucoup de données à la fois.  Si vous regardez la fonction de perte, elle implique toujours plusieurs images. Dans la première ligne, il s'agit essentiellement d'images bleues et d'images vertes, et dans la deuxième ligne, d'images bleues et d'images violettes. Mais comme si vous regardiez une tâche comme par exemple Jigsaw ou une tâche comme la rotation, vous raisonnez toujours sur une seule image de manière indépendante. C'est donc une autre différence avec l'apprentissage contrastif : l'apprentissage contrastif raisonne sur plusieurs points de données à la fois.
 
-On pourrait utiliser des techniques similaires à celles qui ont été évoquées précédemment : des images vidéo ou la nature séquentielle des données. Les images qui sont proches dans une vidéo sont liées et les images, par exemple, d'une autre vidéo ou qui sont plus éloignées dans le temps ne sont pas liées. Et cela a constitué la base de nombreuses méthodes d'apprentissage auto-supervisées dans ce domaine. Cette méthode est appelée CPC (codage prédictif contrastif) repose sur la nature séquentielle d'un signal et dit essentiellement que les échantillons qui sont proches, comme dans l'espace-temps, sont liés et que les échantillons qui sont plus éloignés dans l'espace-temps ne sont pas liés. Une quantité assez importante de travaux exploite essentiellement ce principe : il peut s'agir de la parole, de la vidéo, du texte ou d'images particulières. Et récemment, nous avons également travaillé sur la vidéo et l'audio, ce qui signifie qu'une vidéo et son audio correspondant sont des échantillons liés et que la vidéo et l'audio d'une autre vidéo sont des échantillons non liés.
+On pourrait utiliser des techniques similaires à celles qui ont été évoquées précédemment : des images vidéo ou la nature séquentielle des données. Les images qui sont proches dans une vidéo sont liées et les images, par exemple, d'une autre vidéo ou qui sont plus éloignées dans le temps ne sont pas liées. Et cela a constitué la base de nombreuses méthodes d'apprentissage autosupervisées dans ce domaine. Cette méthode est appelée CPC (codage prédictif contrastif) repose sur la nature séquentielle d'un signal et dit essentiellement que les échantillons qui sont proches, comme dans l'espace-temps, sont liés et que les échantillons qui sont plus éloignés dans l'espace-temps ne sont pas liés. Une quantité assez importante de travaux exploite essentiellement ce principe : il peut s'agir de la parole, de la vidéo, du texte ou d'images particulières. Et récemment, nous avons également travaillé sur la vidéo et l'audio, ce qui signifie qu'une vidéo et son audio correspondant sont des échantillons liés et que la vidéo et l'audio d'une autre vidéo sont des échantillons non liés.
 
 <!--
 ### Tracking Objects
@@ -305,14 +303,14 @@ height="80%" width="80%"/><br><b>Fig. 11</b>: Tracking the Objects
 Some of the early work, like self-supervised learning, also uses this contrastive learning method and they really defined related examples fairly interestingly. You run a tracked object tracker over a video and that gives you a moving patch and what you say is that any patch that was tracked by the tracker is related to the original patch. Whereas, any patch from a different video is not a related patch. So that basically gives out these bunch of related and unrelated samples. In figure 11(c), you have this like distance notation. What this network tries to learn is basically that patches that are coming from the same video are related and patches that are coming from different videos are not related. In some way, it automatically learns about different poses of an object. It tries to group together a cycle, viewed from different viewing angles or different poses of a dog.
 -->
 
-### Suivi des objets (tracking)
+### Suivi des objets (*tracking*)
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-2/fig11.png"
-height="80%" width="80%"/><br><b>Fig. 11</b> : Suivi des objets
+height="80%" width="80%"/><br><b>Figure 11 :</b> Suivi des objets
 </center>
 
-En passant un tracker d'objets sur une vidéo cela vous donne un patch mobile et ce que celui-ci vous dites est que tout patch qui a été suivi par le tracker est lié au patch original. En revanche, tout patch provenant d'une autre vidéo n'est pas un patch apparenté. Cela donne donc un ensemble d'échantillons liés et non liés. Dans la figure 11(c), vous avez cette notation de distance. Ce que ce réseau essaie d'apprendre, c'est que les patchs provenant d'une même vidéo sont liés et que les patchs provenant de vidéos différentes ne sont pas liés. D'une certaine manière, il apprend automatiquement les différentes poses d'un objet. Il essaie de regrouper un cycle, vu sous différents angles de vue ou différentes poses d'un chien.
+En passant un *tracker* d'objets sur une vidéo cela vous donne un patch mobile et ce que celui-ci vous dites est que tout patch qui a été suivi par le *tracker* est lié au patch original. En revanche, tout patch provenant d'une autre vidéo n'est pas un patch apparenté. Cela donne donc un ensemble d'échantillons liés et non liés. Dans la figure 11(c), vous avez cette notation de distance. Ce que ce réseau essaie d'apprendre, c'est que les patchs provenant d'une même vidéo sont liés et que les patchs provenant de vidéos différentes ne sont pas liés. D'une certaine manière, il apprend automatiquement les différentes poses d'un objet. Il essaie de regrouper un cycle, vu sous différents angles de vue ou différentes poses d'un chien.
 
 <!--
 ### Nearby patches *vs.* distant patches of an Image
@@ -329,10 +327,10 @@ In general, talking about images, a lot of work is done on looking at nearby ima
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-2/fig12.png"
-height="50%" width="50%"/><br><b>Fig. 12</b> : Patchs proches *vs.* patchs éloignés d'une image
+height="50%" width="50%"/><br><b>Figure 12 :</b> Patchs proches vs patchs éloignés
 </center>
 
-En général, en ce qui concerne les images, beaucoup de travail est fait sur l'examen des correctifs d'images proches par rapport aux correctifs éloignés, donc la plupart des méthodes CPC v1 et CPC v2 exploitent vraiment cette propriété des images. Ainsi, les plages d'images proches sont appelées positives et les plages d'images plus éloignées sont traduites en négatifs, et le but est de minimiser la perte de contraste en utilisant cette définition des positifs et des négatifs.
+En général, en ce qui concerne les images, beaucoup de travail est fait sur l'examen des correctifs d'images proches par rapport aux correctifs éloignés, donc la plupart des méthodes CPCv1 et CPCv2 exploitent vraiment cette propriété des images. Ainsi, les plages d'images proches sont appelées positives et les plages d'images plus éloignées sont traduites en négatifs, et le but est de minimiser la perte de contraste en utilisant cette définition des positifs et des négatifs.
 
 <!--
 ### Patches of an image *vs.* patches of other images
@@ -349,7 +347,7 @@ The more popular or performant way of doing this is to look at patches coming fr
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-2/fig13.png"
-height="60%" width="60%"/><br><b>Fig. 13</b> : Patchs d'une image *vs.* Patchs d'autres images
+height="60%" width="60%"/><br><b>Figure 13 :</b> Patchs d'une image *vs.* Patchs d'autres images
 </center>
 
 La façon la plus populaire ou la plus performante de procéder consiste à regarder les patchs provenant d'une image et à les mettre en contraste avec les patchs provenant d'une autre image. Ceci constitue la base de nombreuses méthodes populaires comme la discrimination d'instance, MoCo, PIRL, SimCLR. L'idée est essentiellement ce qui est montré dans l'image. Pour aller plus loin dans les détails, ces méthodes consistent à extraire d'une image des taches complètement aléatoires. Ces patchs peuvent se chevaucher, être contenus les uns dans les autres ou s'effondrer complètement, puis voir appliquer une augmentation des données. Prenons le cas, par exemple, d’une couleur qui se brouille ou qui s'efface. Ces deux taches sont alors définies comme des exemples positifs. Un autre patch est extrait d'une image différente. Il s'agit là encore d'une tache aléatoire qui devient en gros vos négatifs. Beaucoup de ces méthodes permettent d'extraire de nombreuses taches négatives et d'effectuer un apprentissage contrastif. Il y a donc deux échantillons positifs liés, mais il y a beaucoup d'échantillons négatifs contre lesquels on peut faire un apprentissage contrastif.
@@ -369,10 +367,10 @@ Now moving to PIRL a little bit, and that's trying to understand what the main d
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-2/fig14.png"
-height="50%" width="50%"/><br><b>Fig. 14</b> : Transformation des images du prétexte et apprentissage du prétexte standard
+height="50%" width="50%"/><br><b>Figure 14 :</b> Transformation des images du prétexte et apprentissage du prétexte standard
 </center>
 
-Passons maintenant un peu à PIRL, et essayons de comprendre quelle est la principale différence entre les tâches de prétexte et comment l'apprentissage contrastif est très différent des tâches de prétexte. Là encore, les tâches de prétexte raisonnent toujours à propos d'une seule image à la fois.  L'idée est donc qu'en donnant à une image votre transformation préalable (une transformation Jigsaw ici), puis en entrant cette image transformée dans un ConvNet et vous essayez de prédire la propriété de la transformation que vous avez appliquée (permutation, rotation, changement de couleur, etc…). Ainsi, les tâches de prétexte raisonnent toujours à propos d'une seule image. Et la deuxième chose est que la tâche que vous effectuez dans ce cas doit vraiment capturer une certaine propriété de la transformation. Elle doit donc capturer la nature exacte de la transformation, ce qui veut dire que les représentations de la dernière couche vont en fait passer très souvent au fur et à mesure que la transformation change. Mais malheureusement, cela signifie que les représentations de la dernière couche capturent une propriété de très bas niveau du signal. Elles capturent des choses comme la rotation, etc... Alors que ce qui est conçu ou ce que l'on attend de ces représentations, c'est qu'elles soient invariantes à ces choses qu'il devrait être capable de reconnaître un chat, peu importe si le chat est debout ou que le chat est tourné à 90 degrés. Alors que lorsque vous résolvez cette tâche de prétexte particulier, vous imposez la chose exactement inverse. Nous disons que nous devrions être capables de reconnaître si cette image est droite ou si elle est en fait en train de la tourner sur le côté. Il y a de nombreuses exceptions où l'on veut vraiment que ces représentations de bas niveau soient covariantes, et une grande partie de ces exceptions est liée aux tâches que vous effectuez. Vous voulez donc prédire les transformations de la caméra : deux vues du même objet, etc... Mais à moins d'avoir ce genre d'application spécifique pour de nombreuses tâches sémantiques, le souhait est d’être invariant aux transformations qui sont utilisées pour utiliser cette entrée.
+Passons maintenant un peu à PIRL, et essayons de comprendre quelle est la principale différence entre les tâches de prétexte et comment l'apprentissage contrastif est très différent des tâches de prétexte. Là encore, les tâches de prétexte raisonnent toujours à propos d'une seule image à la fois.  L'idée est donc qu'en donnant à une image votre transformation préalable (une transformation Jigsaw ici), puis en entrant cette image transformée dans un ConvNet et vous essayez de prédire la propriété de la transformation que vous avez appliquée (permutation, rotation, changement de couleur, etc…). Ainsi, les tâches de prétexte raisonnent toujours à propos d'une seule image. Et la deuxième chose est que la tâche que vous effectuez dans ce cas doit vraiment capturer une certaine propriété de la transformation. Elle doit donc capturer la nature exacte de la transformation, ce qui veut dire que les représentations de la dernière couche vont en fait passer très souvent au fur et à mesure que la transformation change. Mais malheureusement, cela signifie que les représentations de la dernière couche capturent une propriété de très bas niveau du signal. Elles capturent des choses comme la rotation, etc. Alors que ce qui est conçu ou ce que l'on attend de ces représentations, c'est qu'elles soient invariantes à ces choses qu'il devrait être capable de reconnaître un chat, peu importe si le chat est debout ou que le chat est tourné à 90 degrés. Alors que lorsque vous résolvez cette tâche de prétexte particulier, vous imposez la chose exactement inverse. Nous disons que nous devrions être capables de reconnaître si cette image est droite ou si elle est en fait en train de la tourner sur le côté. Il y a de nombreuses exceptions où l'on veut vraiment que ces représentations de bas niveau soient covariantes, et une grande partie de ces exceptions est liée aux tâches que vous effectuez. Vous voulez donc prédire les transformations de la caméra : deux vues du même objet, etc. Mais à moins d'avoir ce genre d'application spécifique pour de nombreuses tâches sémantiques, le souhait est d’être invariant aux transformations qui sont utilisées pour utiliser cette entrée.
 
 <!--
 ### How important has invariance been?
@@ -382,7 +380,7 @@ Invariance has been the word course for feature learning. Something like SIFT, w
 
 ### Quelle est l'importance de l'invariance ?
 
-L'invariance a été le mot d'ordre pour l'apprentissage des caractéristiques. SIFT qui est une fonctionnalité artisanale assez populaire est transféré invariant. Les réseaux de supervision, par exemple, les réseaux AlexNet, sont entraînés à être invariants pour l'augmentation des données. Vous voulez que ce réseau classifie différentes générations ou différentes rotations de cette image comme un arbre, plutôt que de lui demander de prédire quelle a été exactement la transformation appliquée pour l'entrée.
+L'invariance a été le mot d'ordre pour l'apprentissage des caractéristiques. SIFT qui est une caractéristique artisanale assez populaire est transféré invariant. Les réseaux de supervision, par exemple, les réseaux AlexNet, sont entraînés à être invariants pour l'augmentation des données. Vous voulez que ce réseau classifie différentes générations ou différentes rotations de cette image comme un arbre, plutôt que de lui demander de prédire quelle a été exactement la transformation appliquée pour l'entrée.
 
 
 <!--
@@ -400,7 +398,7 @@ This is what inspired PIRL. So PIRL stands for pretext invariant representation
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-2/fig15.png"
-height="70%" width="70%"/><br><b>Fig. 15</b> : PIRL
+height="70%" width="70%"/><br><b>Figure 15 :</b> PIRL
 </center>
 
 C'est ce qui a inspiré PIRL. PIRL est donc l'acronyme de pretext invariant representation learning, où l'idée est que vous voulez que la représentation soit invariante ou capture le moins d'informations possible de la transformation d'entrée. Ainsi, vous avez l'image, vous avez la version transformée de l'image, vous faites suivre ces deux images par un ConvNet, vous obtenez une représentation et ensuite vous encouragez essentiellement ces représentations à être similaires. En ce qui concerne la notation mentionnée plus haut, l'image $I$ et toute version transformée de cette image $I^t$ sont des échantillons apparentés et toute autre image est un échantillon sous-estimé. Ainsi, lorsque vous encadrez ce réseau, la représentation contient, espérons-le, très peu d'informations sur cette transformée $t$. 
@@ -414,7 +412,7 @@ The key thing that has made contrastive learning work well in the past, taking s
 
 ### Utilisation d'un grand nombre de négatifs
 
-L'élément clé qui a fait que l'apprentissage contrastif a bien fonctionné dans le passé est l'utilisation d'un grand nombre de négatifs. L'un des [bons papiers](https://arxiv.org/abs/1805.01978) qui a réussi, est le celui de 2018 qui a introduit le concept de banque de mémoire. C'est un outil puissant, la plupart des méthodes de recherche qui sont des techniques de pointe s'articulent autour de cette idée. La banque de mémoire est un bon moyen d'obtenir un grand nombre de négatifs sans vraiment augmenter le type de besoin informatique. Ce que vous faites, c'est que vous stockez un vecteur de caractéristiques par image dans la mémoire, puis vous utilisez ce vecteur de caractéristiques dans votre apprentissage contrastif.
+L'élément clé qui a fait que l'apprentissage contrastif a bien fonctionné dans le passé est l'utilisation d'un grand nombre de négatifs. L'un des [papiers](https://arxiv.org/abs/1805.01978) qui a réussi, est le celui de 2018 qui a introduit le concept de banque de mémoire. C'est un outil puissant, la plupart des méthodes de recherche qui sont des techniques de pointe s'articulent autour de cette idée. La banque de mémoire est un bon moyen d'obtenir un grand nombre de négatifs sans vraiment augmenter le type de besoin informatique. Ce que vous faites, c'est que vous stockez un vecteur de caractéristiques par image dans la mémoire, puis vous utilisez ce vecteur de caractéristiques dans votre apprentissage contrastif.
 
 <!--
 ### How it works
@@ -431,7 +429,7 @@ Let's first talk about how you would do this entire PIRL setup without using a m
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-2/fig16.png"
-height="75%" width="75%"/><br><b>Fig. 16</b> : Comment fonctionne la banque de mémoire
+height="75%" width="75%"/><br><b>Figure 16 :</b> Fonctionnement de la banque de mémoire
 </center>
 
 Parlons d'abord de la façon dont vous feriez toute cette installation PIRL sans utiliser une banque de mémoire. Vous avez donc une image $I$ et une image $I^t$, et vous faites suivre ces deux images. Vous obtenez un vecteur de caractéristique $f(v_I)$ de l'image originale $I$, vous obtenez une caractéristique $g(v_{I^t})$ des versions de transformation, les patches, dans ce cas. Ce que vous voulez, c'est que les caractéristiques $f$ et $g$ soient similaires. Et vous voulez que les caractéristiques de toute autre image sans rapport soient fondamentalement différentes. Ce que nous voudrions maintenant est que beaucoup d’images négatives soient alimentées en même temps, ce qui signifie que vous avez besoin d'une très grande taille de lot pour pouvoir faire cela. Bien sûr, une grande taille de lot n'est pas vraiment bonne pour la mémoire. Le moyen d'y parvenir est d'utiliser ce qu'on appelle une banque de mémoire. Ainsi, cette banque de mémoire stocke un vecteur de caractéristiques pour chacune des images de votre ensemble de données, et lorsque vous faites un apprentissage contrastif plutôt que d'utiliser des vecteurs de caractéristiques, par exemple, à partir d'une image différente d'une image négative ou d'une image différente de votre lot, vous pouvez simplement récupérer ces caractéristiques en mémoire. En divisant l'objectif en deux parties, un terme contrasté a été utilisé pour amener le vecteur de caractéristiques de l'image transformée $g(v_I)$, similaire à la représentation que nous avons en mémoire, donc $m_I$. Et de même, nous avons un second terme contrasté qui tente de rapprocher la caractéristique $f(v_I)$ de la représentation de la caractéristique que nous avons en mémoire. Essentiellement, $g$ est rapproché de $m_I$ et $f$ est rapproché de $m_I$. Par transitivité, $f$ et $g$ sont rapprochés l'un de l'autre. Et la raison de cette séparation est que cela stabilise l'entraînement et que nous ne pouvons pas nous entraîner sans cela. En gros, l'entraînement ne convergeait pas vraiment. En séparant les deux types de formation, plutôt que de faire un apprentissage direct et contrasté entre $f$ et $g$, nous avons pu stabiliser l'entraînement et le faire fonctionner.
@@ -454,7 +452,7 @@ Evaluation can be performed by full fine-tuning (initialisation evaluation) or t
 
 ### [Evaluation](https://www.youtube.com/watch?v=0KeR6i1_56g&t=5889s)
 
-L'évaluation peut être effectuée par un fine tuning complet (évaluation d'initialisation) ou par l'entraînement d'un classificateur linéaire (évaluation de caractéristiques). La robustesse du PIRL a été testée par l'utilisation d'images en distribution en l'entraînant sur des images en milieu naturel. Nous avons donc pris 1 million d'images au hasard sur Flickr, qui est l'ensemble de données du YFCC. Nous avons ensuite effectué un entraînement préalable sur ces images, puis nous avons effectué des greffes sur différents ensembles de données.
+L'évaluation peut être effectuée par un *finetuning* complet (évaluation d'initialisation) ou par l'entraînement d'un classificateur linéaire (évaluation de caractéristiques). La robustesse du PIRL a été testée par l'utilisation d'images en distribution en l'entraînant sur des images en milieu naturel. Nous avons donc pris 1 million d'images au hasard sur Flickr, qui est l'ensemble de données du YFCC. Nous avons ensuite effectué un entraînement préalable sur ces images, puis nous avons effectué des greffes sur différents ensembles de données.
 
 <!--
 #### Evaluating on Object Detection task
@@ -473,7 +471,7 @@ PIRL a d'abord été évalué sur la tâche de détection d'objets (une tâche s
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-2/fig17.png"
-height="70%" width="70%"/><br><b>Fig. 17</b> : Performances de détection d'objets sur différents jeux de données
+height="70%" width="70%"/><br><b>Figure 17 :</b> Performances de détection d'objets sur différents jeux de données
 </center>
 
 <!--
@@ -487,13 +485,13 @@ height="70%" width="70%"/><br><b>Fig. 18</b>: Semi-supervised learning on ImageN
 </center>
 -->
 
-#### Évaluation sur l'apprentissage semi-supervisé
+#### Évaluation sur l'apprentissage semisupervisé
 
-PIRL a ensuite été évalué sur une tâche d'apprentissage semi-supervisée. Là encore, il a obtenu d'assez bons résultats. En fait, il a même été meilleur que la tâche pré-texte de Jigsaw. La seule différence entre la première et la dernière rangée est que PIRL est une version invariante, alors que Jigsaw est une version covariante.
+PIRL a ensuite été évalué sur une tâche d'apprentissage semisupervisée. Là encore, il a obtenu d'assez bons résultats. En fait, il a même été meilleur que la tâche pré-texte de Jigsaw. La seule différence entre la première et la dernière rangée est que PIRL est une version invariante, alors que Jigsaw est une version covariante.
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-2/fig18.png"
-height="70%" width="70%"/><br><b>Fig. 18</b> : Apprentissage semi-supervisé sur ImageNet
+height="70%" width="70%"/><br><b>Figure 18 :</b> Apprentissage semisupervisé sur ImageNet
 </center>
 
 <!--
@@ -515,7 +513,7 @@ Lors de l'évaluation des Linear Classifiers, PIRL était au même niveau que le
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-2/fig19.png"
-height="75%" width="75%"/><br><b>Fig. 19</b> : Classification ImageNet avec modèles linéaires
+height="75%" width="75%"/><br><b>Figure 19 :</b> Classification ImageNet avec modèles linéaires
 </center>
 
 <!--
@@ -531,11 +529,11 @@ height="70%" width="70%"/><br><b>Fig. 20</b>: Pre-training on uncurated YFCC ima
 
 #### Evaluation sur les images du YFCC
 
-PIRL a été évalué sur des images Flickr "dans la nature" provenant de l'ensemble des données du YFCC. Il a été plus performant que Jigsaw, même avec un ensemble de données $100$ fois plus petit. Cela montre la puissance de la prise en compte de l'invariance pour la représentation dans les tâches de pré-texte, plutôt que de simplement prédire les tâches de pré-texte.
+PIRL a été évalué sur des images Flickr dans la nature provenant de l'ensemble des données du YFCC. Il a été plus performant que Jigsaw, même avec un ensemble de données $100$ fois plus petit. Cela montre la puissance de la prise en compte de l'invariance pour la représentation dans les tâches de pré-texte, plutôt que de simplement prédire les tâches de pré-texte.
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-2/fig20.png"
-height="70%" width="70%"/><br><b>Fig. 20</b> : Pré-entraînement sur les images non traitées du YFCC
+height="70%" width="70%"/><br><b>Figure 20 :</b> Pré-entraînement sur les images non traitées du YFCC
 </center>
 
 <!--
@@ -552,11 +550,11 @@ height="70%" width="70%"/><br><b>Fig. 21</b>: Quality of PIRL representations pe
 
 ### Caractéristiques sémantiques
 
-Maintenant, pour en revenir à la vérification des caractéristiques sémantiques, nous examinons la précision Top-1 pour PIRL et Jigsaw pour différentes couches de représentation de "conv1" à "res5". Il est intéressant de noter que la précision continue d'augmenter pour les différentes couches pour PIRL et Jigsaw, mais qu'elle diminue dans la 5e couche pour Jigsaw. En revanche, la précision continue à s'améliorer pour PIRL, *c'est-à-dire de plus en plus sémantique*.
+Maintenant, pour en revenir à la vérification des caractéristiques sémantiques, nous examinons la précision Top-1 pour PIRL et Jigsaw pour différentes couches de représentation de *conv1* à *res5*. Il est intéressant de noter que la précision continue d'augmenter pour les différentes couches pour PIRL et Jigsaw, mais qu'elle diminue dans la 5e couche pour Jigsaw. En revanche, la précision continue à s'améliorer pour PIRL, c'est-à-dire de plus en plus sémantique.
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-2/fig21.png"
-height="70%" width="70%"/><br><b>Fig. 21</b> : Qualité des représentations PIRL par couche
+height="70%" width="70%"/><br><b>Figure 21 :</b> Qualité des représentations PIRL par couche
 </center>
 
 <!--
@@ -583,14 +581,14 @@ Le PIRL est très efficace pour gérer la complexité des problèmes, car on ne
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-2/fig22.png"
-height="70%" width="70%"/><br><b>Fig. 22</b> : Effet de la variation du nombre de permutations de patchs
+height="70%" width="70%"/><br><b>Figure 22 :</b> Effet de la variation du nombre de permutations de patchs
 </center>
 
-Le document "*Misra & van der Maaten, 2019, PIRL*" montre également comment PIRL pourrait être facilement étendu à d'autres tâches prétextes comme le Jigsaw, les rotations, etc. En outre, elle pourrait même être étendue à des combinaisons de ces tâches comme Jigsaw+Rotation.
+Le papier de PIRL montre également comment PIRL pourrait être facilement étendu à d'autres tâches prétextes comme le Jigsaw, les rotations, etc. En outre, elle pourrait même être étendue à des combinaisons de ces tâches comme Jigsaw+Rotation.
 
 <center>
 <img src="{{site.baseurl}}/images/week10/10-2/fig23.png"
-height="70%" width="70%"/><br><b>Fig. 23</b> : Utilisation de PIRL avec (combinaisons de) différentes tâches de prétexte
+height="70%" width="70%"/><br><b>Figure 23 :</b> Utilisation de PIRL avec (combinaisons de) différentes tâches de prétexte
 </center>
 
 <!--
@@ -599,7 +597,7 @@ height="70%" width="70%"/><br><b>Fig. 23</b> : Utilisation de PIRL avec (combina
 In terms of invariance property, one could, in general, assert that the invariance of PIRL is more than that of the Clustering, which in turn has more invariance than that of the pretext tasks. And similarly, the performance to is higher for PIRL than Clustering, which in turn has higher performance than pretext tasks. This suggests that taking more invariance in your method could improve performance.
 -->
 
-### Invariance *vs.* performance
+### Invariance *vs* performance
 
 En termes de propriété d'invariance, on pourrait, en général, affirmer que l'invariance du PIRL est plus que celle du Clustering, qui à son tour a plus d'invariance que celle des tâches de prétexte. Et de même, la performance est plus élevée pour le PIRL que pour le Clustering, qui à son tour a une performance plus élevée que les tâches de prétexte. Cela suggère que le fait de prendre plus d'invariance dans votre méthode pourrait améliorer les performances.
 
@@ -617,7 +615,7 @@ So in general, we should try to predict more and more information and try to be
 
 1. Il n'est pas très clair de savoir quel ensemble de données transforme la matière. Bien que Jigsaw fonctionne, on ne sait pas très bien pourquoi il fonctionne.
 2. Saturation avec la taille du modèle et la taille des données.
-3. Quelles sont les invariances importantes ? (On pourrait penser aux invariances qui fonctionnent pour une tâche supervisée particulière en général comme un travail futur).
+3. Quelles sont les invariances importantes ? On pourrait penser aux invariances qui fonctionnent pour une tâche supervisée particulière en général comme un travail futur.
 
 Donc, en général, nous devrions essayer de prévoir de plus en plus d'informations et essayer d'être aussi invariants que possible.
 
@@ -625,7 +623,7 @@ Donc, en général, nous devrions essayer de prévoir de plus en plus d'informat
 ## Some important questions asked as doubts
 -->
 
-## Quelques questions importantes posées comme des doutes
+## Questions des étudiants sur plusieurs sujets
 
 <!--
 ### Contrastive learning and batch norms
@@ -647,23 +645,23 @@ Donc, en général, nous devrions essayer de prévoir de plus en plus d'informat
 **Ans**: *Generally frames are correlated in videos, and the performance of the batch norm degrades when there are correlations. Also, even the simplest implementation of AlexNet actually uses batch norm. Because, it's much more stable when trained with a batch norm. You could even use a higher learning rate and you could also use for other downstream tasks. You could use a variant of batch norm for example, group norm for video learning task, as it doesn't depend on the batch size*
 -->
 
-### Apprentissage contrastif et batch normalisation
+### L'apprentissage contrastif et la *batch normalisation*
 
-1) Le réseau n'apprendrait-il pas une façon très triviale de séparer les négatifs des positifs si le réseau utilise la couche de batch norm (car l'information passerait alors d'un échantillon à l'autre) ?
+**Le réseau n'apprendrait-il pas une façon très triviale de séparer les négatifs des positifs si le réseau utilise la couche de batch norm (car l'information passerait alors d'un échantillon à l'autre) ?**
 
-**Rep** : *Dans PIRL, aucun phénomène de ce type n'a été observé, donc seule la batch norm habituelle a été utilisée*
+> Dans PIRL, aucun phénomène de ce type n'a été observé, donc seule la batch norm habituelle a été utilisée.
 
-2) Est-il donc acceptable d'utiliser des batch norm pour des réseaux contrastifs ?
+**Est-il donc acceptable d'utiliser une normalisation par batch pour des réseaux contrastifs ?**
 
-**Rep** : *En général, oui. Dans SimCLR, une variante de la batch norm habituelle est utilisée pour émuler une grande taille de lot. Ainsi, la batch norm avec peut-être quelques modifications pourrait être utilisée pour faciliter l'entraînement*.
+> En général, oui. Dans SimCLR, une variante de la normalisation par batchhabituelle est utilisée pour émuler une grande taille de batch. Ainsi, la normalisation par batch avec peut-être quelques modifications pourrait être utilisée pour faciliter l'entraînement.
 
-3) La batch norm fonctionne-t-elle dans le papier PIRL uniquement parce qu'elle est mise en œuvre en tant que banque de mémoire - étant donné que toutes les représentations ne sont pas prises en même temps ? (Comme les batch norm ne sont pas spécifiquement utilisées dans le document MoCo par exemple)
+**La normalisation par batch fonctionne-t-elle dans le papier PIRL uniquement parce qu'elle est mise en œuvre en tant que banque de mémoire ? Etant donné que toutes les représentations ne sont pas prises en même temps**
 
-**Rep** : *Oui. Dans PIRL, le même lot n'a pas toutes les représentations et peut-être pourquoi la batch norm fonctionne ici, ce qui pourrait ne pas être le cas pour d'autres tâches où les représentations sont toutes corrélées dans le batch*
+> Oui. Dans PIRL, le même batch n'a pas toutes les représentations et est peut-être la raison pourquoi la normalisation par batch fonctionne ici. Cela pourrait ne pas être le cas pour d'autres tâches où les représentations sont toutes corrélées dans le batch.
 
-4) Outre la banque de mémoire, existe-t-il d'autres suggestions sur la manière de procéder en cas de perte de n-paires ? Devrions-nous utiliser AlexNet ou d'autres qui n'utilisent pas la batch norm ? Ou existe-t-il un moyen de désactiver la couche de batch norm ? (Ceci est pour une tâche d'apprentissage vidéo)
+**Outre la banque de mémoire, existe-t-il d'autres suggestions sur la manière de procéder en cas de perte n-paires ? Devrions-nous utiliser AlexNet qui n'utilise pas la noramlisation par batch ou existe-t-il un moyen de désactiver la couche de normalisation par batch ? Notamment dans le cadre d'une tâche d'apprentissage vidéo**
 
-**Rep** : *Généralement, les images sont corrélées dans les vidéos, et la performance de la batch norm se dégrade lorsqu'il y a des corrélations. De plus, même la plus simple des implémentations d'AlexNet utilise en fait la batch norm. En effet, il est beaucoup plus stable lorsqu'il est entraîné avec une batch norm. Vous pourriez même utiliser un taux d'apprentissage plus élevé et vous pourriez également l'utiliser pour d'autres tâches en aval. Vous pouvez utiliser une variante de la batch norm, par exemple, la groupe norm pour les tâches d'apprentissage vidéo, car elle ne dépend pas de la taille du batch*.
+> Généralement, les images sont corrélées dans les vidéos et la performance de la normalisation par batch se dégrade lorsqu'il y a des corrélations. De plus, même la plus simple des implémentations d'AlexNet utilise en fait la normalisation par batch. En effet, il est beaucoup plus stable lorsqu'il est entraîné avec. Vous pourriez même utiliser un taux d'apprentissage plus élevé et vous pourriez également l'utiliser pour d'autres tâches en aval. Vous pouvez utiliser une variante de la normalisation par batch, par exemple la normlisation apr groupe pour les tâches d'apprentissage vidéo, car elle ne dépend pas de la taille du batch.
 
 
 <!--
@@ -676,9 +674,9 @@ Donc, en général, nous devrions essayer de prévoir de plus en plus d'informat
 
 ### Fonctions de perte dans PIRL
 
-1. Dans PIRL, pourquoi utilise-t-on NCE (Noise Contrastive Estimator) pour minimiser les pertes et pas seulement la probabilité négative de la distribution des données : $h(v_{I},v_{I^{t}})$ ?
+**Dans PIRL, pourquoi utilise-t-on NCE (Noise Contrastive Estimator) pour minimiser les pertes et pas seulement la probabilité négative de la distribution des données : $h(v_{I},v_{I^{t}})$ ?**
 
-**Rep** : *En fait, les deux pourraient être utilisés. La raison de l'utilisation de NCE a plus à voir avec la façon dont le papier de la banque de données a été mis en place. Ainsi, avec $k+1$ négatifs, cela équivaut à résoudre $k+1$ problème binaire. Une autre façon de procéder est d'utiliser un softmax, où vous appliquez un softmax et minimisez la log-vraisemblance négative*
+> En fait, les deux pourraient être utilisés. La raison de l'utilisation de NCE a plus à voir avec la façon dont le papier de la banque de données a été mis en place. Ainsi, avec $k+1$ négatifs, cela équivaut à résoudre $k+1$ problème binaire. Une autre façon de procéder est d'utiliser un softmax, où vous appliquez un softmax et minimisez la log-vraisemblance négative.
 
 <!--
 ### Self-supervised learning project related tips
@@ -688,11 +686,11 @@ How do we get a simple self-supervised model working? How do we begin the implem
 **Ans**: *There are a certain class of techniques that are useful for the initial stages. For instance, you could look at the pretext tasks. Rotation is a very easy task to implement. The number of moving pieces are in general good indicator. If you're planning to implement an existing method, then you might have to take a closer look at the details mentioned by the authors, like - the exact learning rate used, the way batch norms were used, etc. The more number of these things, the harder the implementation. Next very critical thing to consider is data augmentation. If you get something working, then add more data augmentation to it.* 
 -->
 
-### Conseils relatifs aux projets d'apprentissage auto-supervisés
+### Conseils relatifs aux projets d'apprentissage autosupervisés
 
-Comment faire fonctionner un modèle simple et auto-supervisé ? Comment en amorcer la mise en œuvre ?
+**Comment faire fonctionner un modèle simple et autosupervisé ? Comment en amorcer la mise en œuvre ?**
 
-**Rep** : *Il existe une certaine classe de techniques qui sont utiles pour les étapes initiales. Par exemple, vous pouvez examiner les tâches de prétexte. La rotation est une tâche très facile à mettre en œuvre. Le nombre de pièces en mouvement est en général un bon indicateur. Si vous envisagez de mettre en œuvre une méthode existante, vous devrez peut-être examiner de plus près les détails mentionnés par les auteurs, comme le taux d'apprentissage exact utilisé, la manière dont les normes de lot ont été utilisées, etc. Plus ces éléments sont nombreux, plus la mise en œuvre est difficile. Le prochain point très important à prendre en compte est l'augmentation des données. Si quelque chose fonctionne, il faut y ajouter une augmentation des données*.
+> Il existe une certaine classe de techniques qui sont utiles pour les étapes initiales. Par exemple, vous pouvez examiner les tâches de prétexte. La rotation est une tâche très facile à mettre en œuvre. Le nombre de pièces en mouvement est en général un bon indicateur. Si vous envisagez de mettre en œuvre une méthode existante, vous devrez peut-être examiner de plus près les détails mentionnés par les auteurs, comme le taux d'apprentissage exact utilisé, la manière dont les normes de lot ont été utilisées, etc. Plus ces éléments sont nombreux, plus la mise en œuvre est difficile. Le prochain point très important à prendre en compte est l'augmentation des données. Si quelque chose fonctionne, il faut y ajouter une augmentation des données.
 
 <!--
 ### Generative models
@@ -704,9 +702,9 @@ Have you thought of combining generative models with contrasting networks?
 
 ### Modèles générateurs
 
-Avez-vous pensé à combiner des modèles générateurs avec des réseaux contrastifs ?
+**Avez-vous pensé à combiner des modèles générateurs avec des réseaux contrastifs ?**
 
-**Rep** : *Généralement, c'est une bonne idée. Mais, elle n'a pas été mise en œuvre en partie parce qu'il est délicat et non trivial d'entraîner de tels modèles. Les approches intégratives sont plus difficiles à mettre en œuvre, mais c'est peut-être la voie à suivre à l'avenir.*
+> Généralement, c'est une bonne idée. Mais, elle n'a pas été mise en œuvre en partie parce qu'il est délicat et non trivial d'entraîner de tels modèles. Les approches intégratives sont plus difficiles à mettre en œuvre, mais c'est peut-être la voie à suivre à l'avenir.
 
 <!--
 ### Distillation
@@ -718,8 +716,7 @@ Wouldn't the uncertainty of the model increase when richer targets are given by
 
 ### Distillation
 
-L'incertitude du modèle n'augmenterait-elle pas lorsque des cibles plus riches sont données par des distributions plus douces ? Aussi, pourquoi l'appelle-t-on distillation ?
-
-**Rep** : *Si vous vous entraînez sur un seul label, vos modèles ont tendance à être trop confiants. Des astuces comme le lissage des labels sont utilisées dans certaines méthodes. Le lissage de label est une simple version de la distillation où vous essayez de prédire un vecteur chaud unique. Maintenant, plutôt que d'essayer de prédire le vecteur one hot entier, vous en retirez une certaine masse de probabilité, où au lieu de prédire un 1 et un tas de 0, vous prédisez par exemple $0,97$ et vous ajoutez ensuite $0,01$, $0,01$ et $0,01$ au vecteur restant (uniformément). La distillation est simplement une façon plus éclairée de procéder. Au lieu d'augmenter de manière aléatoire la probabilité d'une tâche sans rapport, vous disposez d'un réseau pré entraîné pour le faire. En général, les distributions plus douces sont très utiles dans les méthodes d'entraînement préalable. Les modèles ont tendance à être trop confiants et les distributions plus douces sont plus faciles à entraîner. Elles convergent aussi plus rapidement. Ces avantages sont présents dans la distillation*.
+**L'incertitude du modèle n'augmenterait-elle pas lorsque des cibles plus riches sont données par des distributions plus douces ? Aussi, pourquoi l'appelle-t-on distillation ?**
 
+> Si vous vous entraînez sur un seul label, vos modèles ont tendance à être trop confiants. Des astuces comme le lissage des labels sont utilisées dans certaines méthodes. Le lissage de label est une simple version de la distillation où vous essayez de prédire un vecteur chaud unique. Maintenant, plutôt que d'essayer de prédire le vecteur one hot entier, vous en retirez une certaine masse de probabilité, où au lieu de prédire un 1 et un tas de 0, vous prédisez par exemple $0,97$ et vous ajoutez ensuite $0,01$, $0,01$ et $0,01$ au vecteur restant (uniformément). La distillation est simplement une façon plus éclairée de procéder. Au lieu d'augmenter de manière aléatoire la probabilité d'une tâche sans rapport, vous disposez d'un réseau pré entraîné pour le faire. En général, les distributions plus douces sont très utiles dans les méthodes d'entraînement préalable. Les modèles ont tendance à être trop confiants et les distributions plus douces sont plus faciles à entraîner. Elles convergent aussi plus rapidement. Ces avantages sont présents dans la distillation.
 
diff --git a/docs/fr/week10/10-3.md b/docs/fr/week10/10-3.md
index c3af34208..09c35d236 100644
--- a/docs/fr/week10/10-3.md
+++ b/docs/fr/week10/10-3.md
@@ -1,7 +1,7 @@
 ---
 lang: fr
 lang-ref: ch.10-3
-title: Le Camionneur-accompagnateur (Truck Backer-Upper)
+title: Le Truck Backer-Upper
 lecturer: Alfredo Canziani
 authors: Muyang Jin, Jianzhi Li, Jing Qian, Zeming Lin
 date: 7 Apr 2020
@@ -48,17 +48,17 @@ Le but de cette tâche est de construire un **contrôleur autodidacte** qui cont
 Notez que **seul le recul est autorisé**, comme le montre la figure 1 ci-dessous.
 
 | ![]({{site.baseurl}}/images/week10/10-3/fig1.png)|
-|<center><b>Fig. 1</b> : Le camion, la remorque et le quai de chargement</center>|
+|<center><b>Figure 1 : </b> Le camion, la remorque et le quai de chargement</center>|
 
-L'"état" du camion est représenté par six paramètres :
+L'état du camion est représenté par six paramètres :
 
- - $\tcab$ : Angle du camion
- -  $\xcab, \ycab$: Le cartésien de l'avant de la remorque.
- - $\ttrailer$ : Angle de la remorque
- - $\xtrailer, \ytrailer$: Le cartésien de la (arrière de la) remorque.
+ - $\tcab$ : angle du camion
+ -  $\xcab, \ycab$: le cartésien de l'avant de la remorque.
+ - $\ttrailer$ : angle de la remorque
+ - $\xtrailer, \ytrailer$: le cartésien de l'arrière de la remorque.
 
 Le **but** du contrôleur est de sélectionner un angle approprié $\phi$ à chaque fois $k$, où après le camion reculera sur une petite distance fixe. Le succès dépend de deux critères :
-1. L'arrière de la remorque est parallèle au quai de chargement mural, *par exemple* $\ttrailer = 0$.
+1. L'arrière de la remorque est parallèle au quai de chargement mural, par exemple $\ttrailer = 0$.
 2. L'arrière de la remorque ($\xtrailer, \ytrailer$) est aussi proche que possible du point ($x_{dock}, y_{dock}$) indiqué ci-dessus.
 
 
@@ -104,7 +104,7 @@ There are several situations where the sequence can end:
 ## Plus de paramètres et de visualisation
 
 | ![]({{site.baseurl}}/images/week10/10-3/fig2.png)|
-|<center><b>Fig. 2</b> : Paramètres de visualisation</center>|
+|<center><b>Figure 2 :</b> Paramètres de visualisation</center>|
 
 Dans cette section, nous examinons également quelques autres paramètres illustrés dans la figure 2.
 Étant donné la longueur de la voiture $L$, $d_1$ la distance entre la voiture et la remorque et $d_2$ la longueur de la remorque, nous pouvons calculer le changement d'angle et de positions :
@@ -122,12 +122,12 @@ Ici, $s$ indique la vitesse signée et $\phi$ l'angle de braquage négatif.
 Maintenant, nous pouvons représenter l'état par seulement quatre paramètres : $\xcab$, $\ycab$, $\theta_0$ et $\theta_1$.
 Cela s'explique par le fait que les paramètres de longueur sont connus et que $\xtrailer, \ytrailer$ est déterminé par $\xcab, \ycab, d_1, \theta_1$.
 
-Dans le notebook Jupyter de la base de données Deep Learning, nous avons quelques exemples d'environnements illustrés dans les figures 3 (1-4) :
+Les exemples d'environnements illustrés dans les figures 3 (1-4) peuvent être obtenus en exécutant le *notebook* Jupyter dont la version anglaise est disponible [ici](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/14-truck_backer-upper.ipynb) et la française [ici](https://github.com/lbourdois/pytorch-Deep-Learning-Notebooks-in-French/blob/master/14-truck_backer-upper.ipynb) :
 
 | <img src="{{site.baseurl}}/images/week10/10-3/fig3.png" height="150" width="300"/> |<img src="{{site.baseurl}}/images/week10/10-3/fig4.png" height="150" width="300"/>|
-| **Figure 3.1** : Représentation graphique de l'environnement | **Figure 3.2** : mise en portefeuille |
+| **Figure 3.1** : Représentation graphique de l'environnement | **Figure 3.2** : Mise en portefeuille |
 | <img src="{{site.baseurl}}/images/week10/10-3/fig5.png" height="150" width="300"/> |<img src="{{site.baseurl}}/images/week10/10-3/fig6.png" height="150" width="300"/>|
-| **Figure 3.3** : Dépassement de la limite |**Fig. 3.4** : Atteindre le quai |
+| **Figure 3.3** : Dépassement de la limite |**Figure 3.4** : Atteindre le quai |
 
 À chaque pas de temps $k$, un signal de direction allant de $-\frac{\pi}{4}$ à $\frac{\pi}{4}$ sera introduit et le camion reprendra la route en utilisant l'angle correspondant.
 
@@ -152,13 +152,15 @@ As shown above, in the abstract diagram, the two blocks are the two networks tha
 
 ## [Entraînement](https://www.youtube.com/watch?v=A3klBqEWR-I&t=1184s)
 
-Le processus d’entraînement comporte deux étapes : (1) entraînement d'un réseau de neurones pour devenir un émulateur de la cinématique du camion et de la remorque et (2) entraînement d'un réseau de neurones pour contrôler le camion.
+Le processus d’entraînement comporte deux étapes :
+- entraînement d'un réseau de neurones pour devenir un émulateur de la cinématique du camion et de la remorque 
+- entraînement d'un réseau de neurones pour contrôler le camion
 
 
 | ![]({{site.baseurl}}/images/week10/10-3/fig7.png) |
-| <center><b>Fig. 4</b> : Diagramme général </center> |
+| <center><b>Figure 4 :</b> Diagramme général </center> |
 
-Comme indiqué ci-dessus, dans le diagramme abstrait, les deux blocs sont les deux réseaux qui seront formés. À chaque pas de temps $k$, la "cinématique du camion-remorque", ou ce que nous avons appelé l'émulateur, prend en compte le vecteur d'état en 6 dimensions et le signal de direction généré par le contrôleur et génère un nouvel état en 6 dimensions au temps $k + 1$.
+Comme indiqué ci-dessus, dans le diagramme abstrait, les deux blocs sont les deux réseaux qui seront formés. À chaque pas de temps $k$, la cinématique du camion-remorque, ou ce que nous avons appelé l'émulateur, prend en compte le vecteur d'état en 6 dimensions et le signal de direction généré par le contrôleur et génère un nouvel état en 6 dimensions au temps $k + 1$.
 
 
 <!--
@@ -242,10 +244,10 @@ Here we use MSE to calculate the loss between the true next state and the next s
 
 ### Emulateur
 
-L'émulateur prend l'emplacement actuel ($\tcab^t$,$\xcab^t, \ycab^t$, $\ttrailer^t$, $\xtrailer^t$, $\ytrailer^t$) plus le sens de direction $\phi^t$ comme entrée et sort l'état au pas de temps suivant ($\tcab^{t+1}$,$\xcab^{t+1}, \ycab^{t+1}$, $\ttrailer^{t+1}$, $\xtrailer^{t+1}$, $\ytrailer^{t+1}$). Il se compose d'une couche cachée linéaire, avec fonction d'activation ReLu, et d'une couche de sortie linéaire. Nous utilisons la MSE comme fonction de perte et entraînons l'émulateur via une descente de gradient stochastique.
+L'émulateur prend l'emplacement actuel ($\tcab^t$,$\xcab^t, \ycab^t$, $\ttrailer^t$, $\xtrailer^t$, $\ytrailer^t$) plus le sens de direction $\phi^t$ comme entrée et sort l'état au pas de temps suivant ($\tcab^{t+1}$,$\xcab^{t+1}, \ycab^{t+1}$, $\ttrailer^{t+1}$, $\xtrailer^{t+1}$, $\ytrailer^{t+1}$). Il se compose d'une couche cachée linéaire, avec fonction d'activation *ReLU*, et d'une couche de sortie linéaire. Nous utilisons la MSE comme fonction de perte et entraînons l'émulateur via une descente de gradient stochastique.
 
 | ![]({{site.baseurl}}/images/week10/10-3/fig8.png)|
-| <center><b>Fig. 5</b> : Entraînement de l'émulateur du réseau neuronal</center>|
+| <center><b>Figure 5 :</b> Entraînement de l'émulateur du réseau neuronal</center>|
 
 Dans cette configuration, le simulateur peut nous indiquer l'emplacement de l'étape suivante, compte tenu de la position actuelle et de l'angle de braquage. Par conséquent, nous n'avons pas vraiment besoin d'un réseau neuronal qui émule le simulateur. Cependant, dans un système plus complexe, nous pouvons ne pas avoir accès aux équations sous-jacentes du système, c'est-à-dire que nous n'avons pas les lois de l'univers sous une forme calculable agréable. Nous ne pouvons observer que des données qui enregistrent des séquences de signaux de direction et leurs trajectoires correspondantes. Dans ce cas, nous voulons former un réseau de neurones pour émuler la dynamique de ce système complexe.
 
@@ -257,13 +259,13 @@ La première est la fonction `step` qui donne l'état de sortie du camion après
 ```python
 def step(self, ϕ=0, dt=1):
 
-    # Check for illegal conditions
+    # Vérifictions des conditions
     if self.is_jackknifed():
-        print('The truck is jackknifed!')
+        print('Le camion s'est mis en portefeuille !')
         return
 
     if self.is_offscreen():
-        print('The car or trailer is off screen')
+        print("Véhicule hors de l'écran")
         return
 
     self.ϕ = ϕ
@@ -334,10 +336,10 @@ We then find the gradients using backpropagation and update parameters of the co
 
 ### Contrôleur
 
-Voir la figure 5. Le bloc $\matr{C}$ représente le contrôleur. Il prend en compte l'état actuel et fournit un angle de braquage. Ensuite, le bloc $\matr{T}$ (émulateur) prend à la fois l'état et l'angle pour produire l'état suivant.
+Le bloc $\matr{C}$ représente le contrôleur. Il prend en compte l'état actuel et fournit un angle de braquage. Ensuite, le bloc $\matr{T}$ (émulateur) prend à la fois l'état et l'angle pour produire l'état suivant.
 
 | ![]({{site.baseurl}}/images/week10/10-3/fig13.png)|
-| <center><b>Fig. 5</b> : Diagramme de transition d'état</center>|
+| <center><b>Figure 6 :</b> Diagramme de transition d'état</center>|
 
 Pour entraîner le contrôleur, nous partons d'un état initial aléatoire et répétons la procédure ($\matr{C}$ et $\matr{T}$) jusqu'à ce que la remorque soit parallèle au quai. L'erreur est calculée en comparant l'emplacement de la remorque et l'emplacement du quai.
 Nous trouvons ensuite les gradients en utilisant la rétropropagation et mettons à jour les paramètres du contrôleur via SGD.
@@ -371,7 +373,9 @@ criterion = nn.MSELoss()
 
 Voici un graphique détaillé du processus ($\matr{C}$, $\matr{T}$). Nous commençons par un état (vecteur à 6 dimensions), le multiplions par une matrice de poids accordables et obtenons 25 unités cachées. Ensuite, nous le faisons passer par un autre vecteur de poids accordables pour obtenir la sortie (signal de direction). De même, nous introduisons l'état et l'angle $\phi$ (vecteur à 7 dimensions) à travers deux couches pour produire l'état de l'étape suivante.
 
-![]({{site.baseurl}}/images/week10/10-3/fig14.png)
+
+| ![]({{site.baseurl}}/images/week10/10-3/fig14.png)|
+| <center><b>Figure 7 :</b> Détails de l'émulateur et du contrôleur</center>|
 
 Pour y voir plus clair, nous montrons la mise en œuvre exacte de l'émulateur :
 
@@ -406,6 +410,7 @@ Voici quatre exemples de mouvements pour différents états initiaux. Notez que
 
 | ![]({{site.baseurl}}/images/week10/10-3/fig16.png) | ![]({{site.baseurl}}/images/week10/10-3/fig17.png) |
 | ![]({{site.baseurl}}/images/week10/10-3/fig18.png) | ![]({{site.baseurl}}/images/week10/10-3/fig19.png) |
+| <center><b>Figure 8 :</b> Exemples de mouvements pour quatre états initiaux différents</center>|
 
 
 <!--
@@ -417,4 +422,4 @@ Please check out the code as well, which can be found at [https://github.com/Tif
 
 ### Ressources supplémentaires :
 Une démo complète est disponible à l'adresse suivante [https://tifu.github.io/truck_backer_upper/](https://tifu.github.io/truck_backer_upper/).
-Veuillez également consulter le code, qui se trouve à l'adresse suivante : [https://github.com/Tifu/truck_backer_upper](https://github.com/Tifu/truck_backer_upper).
+Veuillez également consulter le code qui se trouve à l'adresse suivante : [https://github.com/Tifu/truck_backer_upper](https://github.com/Tifu/truck_backer_upper).
diff --git a/docs/fr/week10/10.md b/docs/fr/week10/10.md
index 0f5d923d7..a6660a0e8 100644
--- a/docs/fr/week10/10.md
+++ b/docs/fr/week10/10.md
@@ -13,9 +13,9 @@ In this section, we understand the motivation behind Self-Supervised Learning (S
 -->
 
 
-## Conférence partie A
+## Cours magistral partie A
 
-Dans cette section, nous voyons la motivation qui sous-tend l’autoapprentissage supervisé (SSL en anglais). Nous le définissons et voyons certaines de ses applications en NLP et en vision par ordinateur. Nous comprenons comment les tâches de prétexte en SSL et voyons quelques exemples de tâches de prétexte en images, vidéos et vidéos avec son. Enfin, nous essayons d'avoir une intuition derrière la représentation apprise par les tâches de prétexte.
+Dans cette section, nous voyons la motivation qui sous-tend l’apprentissage autosupervisé. Nous le définissons et voyons certaines de ses applications en traitement du langage naturel et en vision par ordinateur. Nous comprenons comment les tâches de prétexte en apprentissage autosupervisé et voyons quelques exemples de tâches de prétexte en images, vidéos et vidéos avec son. Enfin, nous essayons d'avoir une intuition derrière la représentation apprise par les tâches de prétexte.
 
 <!--
 ## Lecture part B
@@ -23,9 +23,9 @@ Dans cette section, nous voyons la motivation qui sous-tend l’autoapprentissag
 In this section, we discuss the shortcomings of pretext tasks, define characteristics that make a good pretrained feature, and how we can achieve this using Clustering and Contrastive Learning. We then learn about ClusterFit, its steps and performance. We further dive into a specific simple framework for Contrastive Learning known as PIRL. We discuss its working as well as its evaluation in different contexts.
 -->
 
-## Conférence partie B
+## Cours magistral partie B
 
-Dans cette section, nous discutons des lacunes des tâches de prétexte, nous définissons les éléments qui font une bonne caractéristique pré-entraînée, et comment nous pouvons y parvenir en utilisant le clustering et l'apprentissage contrastif. Nous en apprenons ensuite davantage sur le ClusterFit, ses étapes et ses performances. Nous nous plongeons ensuite dans un cadre simple et spécifique pour l'apprentissage contrastif, connu sous le nom de PIRL. Nous discutons de son fonctionnement ainsi que de son évaluation dans différents contextes.
+Dans cette section, nous discutons des lacunes des tâches de prétexte, nous définissons les éléments qui font une bonne caractéristique pré-entraînée et comment nous pouvons y parvenir en utilisant le clustering et l'apprentissage contrastif. Nous en apprenons ensuite davantage sur le ClusterFit, ses étapes et ses performances. Nous nous plongeons ensuite dans un cadre simple et spécifique pour l'apprentissage contrastif, connu sous le nom de PIRL. Nous discutons de son fonctionnement ainsi que de son évaluation dans différents contextes.
 
 <!--
 ## Practicum
@@ -36,12 +36,7 @@ This problem shows how to solve an non-linear control problem using neural netwo
 We learn a model of a truck's kinematics, and optimize a controller through this learned model, finding that the controller is able to learn complex behaviors through purely observational data.
 -->
 
-## Pratique
-Nous explorons le [Truck Backer-Upper](http://neuro.bstu.by/ai/To-dom/My_research/Papers-2.1-done/RL-sparce-reward/9/Ref/truckbackerupper.pdf) (Nguyen & Widrow, '90).
+## Travaux dirigés
+Nous explorons le [*Truck Backer-Upper*](http://neuro.bstu.by/ai/To-dom/My_research/Papers-2.1-done/RL-sparce-reward/9/Ref/truckbackerupper.pdf) de Nguyen & Widrow (1990).
 Ce problème montre comment résoudre un problème de contrôle non-linéaire en utilisant des réseaux de neurones.
 Nous apprenons un modèle de la cinématique d'un camion, et nous optimisons un contrôleur grâce à ce modèle appris, en constatant que le contrôleur est capable d'apprendre des comportements complexes grâce à des données purement observationnelles.
-
-
-
-
-
diff --git a/docs/fr/week11/11-1.md b/docs/fr/week11/11-1.md
index b0a1ad707..afb3a4859 100644
--- a/docs/fr/week11/11-1.md
+++ b/docs/fr/week11/11-1.md
@@ -19,7 +19,7 @@ In today's lecture, we will review some important activation functions and their
 
 ## [Fonctions d'activation](https://www.youtube.com/watch?v=bj1fh3BvqSU&t=15s)
 
-Dans la conférence d'aujourd'hui, nous passerons en revue certaines fonctions d'activation importantes et leurs mises en œuvre dans PyTorch. Elles sont issues de divers articles affirmant que ces fonctions fonctionnent mieux pour des problèmes spécifiques.
+Passons en revue certaines fonctions d'activation importantes et leurs mises en œuvre dans PyTorch. Elles sont issues de divers articles affirmant que ces fonctions fonctionnent mieux pour des problèmes spécifiques.
 
 <!--
 ### ReLU - `nn.ReLU()`
@@ -36,13 +36,15 @@ $$
 
 ### ReLU - `nn.ReLU()`
 
+La fonction ReLU (*Rectified Linear Unit*) est définie par :
+
 $$
 \text{ReLU}(x) = (x)^{+} = \max(0,x)
 $$
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-1/ReLU.png" height="400px" /><br>
-<b>Fig. 1</b>: ReLU
+<b>Figure 1 :</b> ReLU
 </center>
 
 
@@ -69,22 +71,22 @@ Note that for RReLU, $a$ is a random variable that keeps samplings in a given ra
 
 ### RReLU - `nn.RReLU()`
 
-Il y a des variations dans ReLU. Le ReLU aléatoire (RReLU) est défini comme suit.
+Il y a des variations de la ReLU. La ReLU aléatoire (RReLU pour *Random ReLU*) est définie comme suit :
 
 $$
 \text{RReLU}(x) = \begin{cases}
       x, & \text{if} x \geq 0\\
-      ax, & \text{otherwise}
+      ax, & \text{sinon}
     \end{cases}
 $$
 
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-1/RRelU.png" width="700" /><br>
-<b>Fig. 2</b>: ReLU, Leaky ReLU/PReLU, RReLU
+<b>Figure 2 :</b> ReLU, Leaky ReLU/PReLU, RReLU
 </center>
 
-Notez que pour RReLU, $a$ est une variable aléatoire qui maintient les prélèvements dans une fourchette donnée pendant l’entraînement, et reste fixe pendant le test. Pour PReLU, $a$ est également appris. Pour le Leaky ReLU, $a$ est fixe.
+Notez que pour la RReLU, $a$ est une variable aléatoire qui maintient les prélèvements dans une fourchette donnée pendant l’entraînement, et reste fixe pendant le test. Pour la PReLU, $a$ est également appris. Pour la Leaky ReLU, $a$ est fixe.
 
 
 
@@ -113,18 +115,18 @@ LeakyReLU is necessary for skinny network, which is almost impossible to get gra
 $$
 \text{LeakyReLU}(x) = \begin{cases}
       x, & \text{if} x \geq 0\\
-      a_\text{negative slope}x, & \text{otherwise}
+      a_\text{negative slope}x, & \text{sinon}
     \end{cases}
 $$
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-1/LeakyReLU.png" height="400px" /><br>
-<b>Fig. 3</b>: LeakyReLU
+<b>Figure 3 :</b> LeakyReLU
 </center>
 
-Ici, $a$ est un paramètre fixe. La partie inférieure de l'équation évite le problème de la mort de ReLU qui fait référence au problème lorsque les neurones ReLU deviennent inactifs et ne produisent que la sortie 0 pour toute entrée. Par conséquent, sa pente est de 0. En utilisant une pente négative, la fonction permet au réseau de se rétropropager et d'apprendre quelque chose d'utile.
+Ici, $a$ est un paramètre fixe. La partie inférieure de l'équation évite que les neurones ReLU deviennent inactifs et ne resortent à chaque fois 0 pour toute entrée donnée. Par conséquent, sa pente est de 0. En utilisant une pente négative, la fonction permet au réseau de se rétropropager et d'apprendre quelque chose d'utile.
 
-Avec LeakyReLU, le réseau peut toujours avoir des gradients même si nous sommes dans une région où tout est à zéro.
+Avec la LeakyReLU, le réseau peut toujours avoir des gradients même si nous sommes dans une région où tout est à zéro.
 
 <!--
 ### PReLU - `nn.PReLU()`
@@ -151,7 +153,7 @@ The above activation functions (*i.e.* ReLU, LeakyReLU, PReLU) are scale-invaria
 $$
 \text{PReLU}(x) = \begin{cases}
       x, & \text{if} x \geq 0\\
-      ax, & \text{otherwise}
+      ax, & \text{sinon}
     \end{cases}
 $$
 
@@ -159,10 +161,10 @@ Ici, $a$ est un paramètre qui peut être appris.
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-1/PReLU.png" height="400px" /><br>
-<b>Fig. 4</b>: PReLU
+<b>Figure 4 :</b> PReLU
 </center>
 
-Les fonctions d'activation ci-dessus (*c.-à-d.* ReLU, LeakyReLU, PReLU) sont invariables en fonction de l'échelle.
+Les fonctions d'activation ci-dessus (ReLU, LeakyReLU, PReLU) sont invariables au changement d'échelle.
 
 <!--
 ### Softplus - `Softplus()`
@@ -189,12 +191,12 @@ $$
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-1/Softplus.png" height="400px" /><br>
-<b>Fig. 5</b>: Softplus
+<b>Figure 5 :</b> Softplus
 </center>
 
-Softplus est une approximation lisse de la fonction ReLU et peut être utilisé pour contraindre la sortie d'une machine à être toujours positive.
+La softplus est une approximation lisse de la fonction ReLU et peut être utilisée pour contraindre la sortie d'une machine à être toujours positive.
 
-La fonction ressemblera davantage à la fonction ReLU, si le $\beta$ devient de plus en plus grand.
+La fonction ressemblera davantage à la fonction ReLU si le $\beta$ devient de plus en plus grand.
 
 
 <!--
@@ -220,10 +222,10 @@ $$
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-1/ELU.png" height="400px" /><br>
-<b>Fig. 6</b>: ELU
+<b>Figure 6 :</b> ELU
 </center>
 
-Contrairement à ReLU, cette fonction peut descendre en dessous de 0, ce qui permet au système d'avoir une production moyenne de zéro. Par conséquent, le modèle peut converger plus rapidement. Et ses variations (CELU, SELU) ne sont que des paramétrages différents.
+Contrairement à la ReLU, cette fonction peut descendre en dessous de 0, ce qui permet au système d'avoir une sortie moyenne de zéro. Par conséquent, le modèle peut converger plus rapidement. Et ses variations (CELU, SELU) ne sont que des paramétrages différents.
 
 
 <!--
@@ -247,7 +249,7 @@ $$
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-1/CELU.png" height="400px" /><br>
-<b>Fig. 7</b>: CELU
+<b>Figure 7 :</b> CELU
 </center>
 
 
@@ -272,7 +274,7 @@ $$
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-1/SELU.png" height="400px" /><br>
-<b>Fig. 8</b>: SELU
+<b>Figure 8 :</b> SELU
 </center>
 
 
@@ -301,7 +303,7 @@ où $\Phi(x)$ est la fonction de distribution cumulative pour la distribution ga
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-1/GELU.png" height="400px" /><br>
-<b>Fig. 9</b>: GELU
+<b>Figure 9 :</b> GELU
 </center>
 
 <!--
@@ -328,10 +330,10 @@ $$
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-1/ReLU6.png" height="400px" /><br>
-<b>Fig. 10</b>: ReLU6
+<b>Figure 10 :</b> ReLU6
 </center>
 
-C'est la saturation de ReLU à 6. Mais il n'y a pas de raison particulière de choisir 6 comme saturation, nous pouvons donc faire mieux en utilisant la fonction Sigmoïde ci-dessous.
+C'est la saturation de la ReLU à 6. Mais il n'y a pas de raison particulière de choisir 6 comme saturation, nous pouvons donc faire mieux en utilisant la fonction Sigmoïde ci-dessous.
 
 <!--
 ### Sigmoid - `nn.Sigmoid()`
@@ -356,10 +358,10 @@ $$
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-1/Sigmoid.png" height="400px" /><br>
-<b>Fig. 11</b>: Sigmoïde
+<b>Figure 11 :</b> Sigmoïde
 </center>
 
-Si nous empilons les sigmoïdes en plusieurs couches, cela peut être inefficace pour le système d'apprendre et nécessite une initialisation soigneuse. En effet, si l'entrée est très grande ou très petite, le gradient de la fonction sigmoïde est proche de 0. Dans ce cas, il n'y a pas de retour de gradient pour mettre à jour les paramètres, ce qu'on appelle le problème du gradient de saturation. C'est pourquoi, pour les réseaux neuronaux profonds, une seule fonction (comme ReLU) est préférable.
+Si nous empilons les sigmoïdes en plusieurs couches, cela peut être inefficace pour le système d'apprendre et nécessite une initialisation soigneuse. En effet, si l'entrée est très grande ou très petite, le gradient de la fonction sigmoïde est proche de 0. Dans ce cas, il n'y a pas de retour de gradient pour mettre à jour les paramètres, ce qu'on appelle le problème du gradient de saturation. C'est pourquoi, pour les réseaux neuronaux profonds, une seule fonction (comme la ReLU) est préférable.
 
 <!--
 ### Tanh - `nn.Tanh()`
@@ -384,10 +386,10 @@ $$
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-1/Tanh.png" height="400px" /><br>
-<b>Fig. 12</b>: Tanh
+<b>Figure 12 :</b> Tanh
 </center>
 
-Tanh est fondamentalement identique à la Sigmoïde sauf qu'elle est centrée et va de -1 à 1. La sortie de la fonction aura une moyenne à peu près nulle. Par conséquent, le modèle convergera plus rapidement.  Notez que la convergence est généralement plus rapide si la moyenne de chaque variable d'entrée est proche de zéro. Un exemple est la normalisation par batch.
+Tanh est fondamentalement identique à la Sigmoïde sauf qu'elle est centrée et va de -1 à 1. La sortie de la fonction a une moyenne à peu près nulle. Par conséquent, le modèle converge plus rapidement. Notez que la convergence est généralement plus rapide si la moyenne de chaque variable d'entrée est proche de zéro. Un exemple est la normalisation par batch.
 
 <!--
 ### Softsign - `nn.Softsign()`
@@ -412,7 +414,7 @@ $$
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-1/Softsign.png" height="400px" /><br>
-<b>Fig. 13</b>: Softsign
+<b>Figure 13 :</b> Softsign
 </center>
 
 Elle est similaire à la fonction Sigmoïde mais arrive lentement à l'asymptote et atténue le problème de la disparition du gradient (dans une certaine mesure).
@@ -444,7 +446,7 @@ $$
 \text{HardTanh}(x) = \begin{cases}
       1, & \text{if} x > 1\\
       -1, & \text{if} x < -1\\
-      x, & \text{otherwise}
+      x, & \text{sinon}
 \end{cases}
 $$
 
@@ -453,7 +455,7 @@ L'étendue de la région linéaire [-1, 1] peut être ajustée en utilisant `min
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-1/Hardtanh.png" height="400px" /><br>
-<b>Fig. 14</b>: Hardtanh
+<b>Figure 14 :</b> Hardtanh
 </center>
 
 Elle fonctionne étonnamment bien, surtout lorsque les poids sont maintenus dans une fourchette de petites valeurs.
@@ -478,7 +480,7 @@ It is rarely used because we cannot propagate the gradient back. And it is also
 $$
   y = \begin{cases}
       x, & \text{if} x > \text{threshold}\\
-      v, & \text{otherwise}
+      v, & \text{sinon}
     \end{cases}
 $$
 
@@ -508,7 +510,7 @@ $$
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-1/Tanhshrink.png" height="400px" /><br>
-<b>Fig. 15</b>: Tanhshrink
+<b>Figure 15 :</b> Tanhshrink
 </center>
 
 Elle est rarement utilisée sauf pour les codages épars afin de calculer la valeur de la variable latente.
@@ -539,16 +541,16 @@ $$
   \text{SoftShrinkage}(x) = \begin{cases}
       x - \lambda, & \text{if} x > \lambda\\
       x + \lambda, & \text{if} x < -\lambda\\
-      0, & \text{otherwise}
+      0, & \text{sinon}
     \end{cases}
 $$
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-1/Softshrink.png" height="400px" /><br>
-<b>Fig. 16</b>: Softshrink
+<b>Figure 16 :</b> Softshrink
 </center>
 
-Essentiellement, cela réduit la variable d'une constante vers 0 et la force à 0 si la variable est proche de 0. Vous pouvez considérer cela comme une étape de gradient pour le critère $\ell_1$. C'est également l'une des étapes de l'algorithme ISTA (Iterative Shrinkage-Thresholding Algorithm). Mais elle n'est pas couramment utilisée dans les réseaux de neurones standard comme activation.
+Grossièrement, cela réduit la variable d'une constante vers 0 et la force à 0 si la variable est proche de 0. Vous pouvez considérer cela comme une étape de gradient pour le critère $\ell_1$. C'est également l'une des étapes de l'algorithme ISTA (*Iterative Shrinkage-Thresholding Algorithm*). Mais elle n'est pas couramment utilisée dans les réseaux de neurones standard comme activation.
 
 
 <!--
@@ -576,13 +578,13 @@ $$
   \text{HardShrinkage}(x) = \begin{cases}
       x, & \text{if} x > \lambda\\
       x, & \text{if} x < -\lambda\\
-      0, & \text{otherwise}
+      0, & \text{sinon}
     \end{cases}
 $$
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-1/Hardshrink.png" height="400px" /><br>
-<b>Fig. 17</b>: Hardshrink
+<b>Figure 17 :</b> Hardshrink
 </center>
 
 Rarement utilisée sauf pour des codages épars.
@@ -610,7 +612,7 @@ $$
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-1/LogSigmoid.png" height="400px" /><br>
-<b>Fig. 18</b>: LogSigmoid
+<b>Figure 18 :</b> LogSigmoid
 </center>
 
 Principalement utilisée dans la fonction de perte mais n'est pas couramment comme activation.
@@ -673,7 +675,7 @@ Principalement utilisée dans la fonction de perte mais n'est pas couramment com
 --> 
 
 
-## [Questions/Réponses sur les fonctions d'activation](https://www.youtube.com/watch?v=bj1fh3BvqSU&t=861s)
+## [Questions des étudiants sur les fonctions d'activation](https://www.youtube.com/watch?v=bj1fh3BvqSU&t=861s)
 
 
 <!--
@@ -701,24 +703,17 @@ Principalement utilisée dans la fonction de perte mais n'est pas couramment com
 
 ### Questions relatives à `nn.PRELU()` 
 
-- Pourquoi voudrait-on la même valeur de $a$ pour toutes les canaux ?
-
-  > Différents canaux pourraient avoir des $a$ différents. Vous pourriez utiliser $a$ comme paramètre de chaque unité. Il pourrait également être partagé sous forme de carte de caractéristiques.
-
-- Est-ce qu'on apprend $a$ ? Est-il avantageux d'apprendre $a$ ?
-
-  > Vous pouvez apprendre $a$ ou le corriger.
-  > La raison de la correction est de s'assurer que la non-linéarité vous donne un gradient non nul même s'il est dans une région négative.
-  > Rendre $a$ apprenable permet au système de transformer la non-linéarité en une cartographie linéaire ou une rectification complète. Cela peut être utile pour certaines applications comme la mise en œuvre d'un détecteur de bord, quelle que soit la polarité du bord.
+**Pourquoi voudrait-on la même valeur de $a$ pour toutes les canaux ?**
+> Différents canaux pourraient avoir des $a$ différents. Vous pourriez utiliser $a$ comme paramètre de chaque unité. Il pourrait également être partagé sous forme de carte de caractéristiques.
 
-- Quelle complexité souhaitez-vous donner à votre non-linéarité ?
+**Est-ce qu'on apprend $a$ ? Est-il avantageux d'apprendre $a$ ?**
+> Vous pouvez apprendre $a$ ou le corriger. La raison de la correction est de s'assurer que la non-linéarité vous donne un gradient non nul même s'il est dans une région négative. Rendre $a$ apprenable permet au système de transformer la non-linéarité en une association linéaire ou une rectification complète. Cela peut être utile pour certaines applications comme la mise en œuvre d'un détecteur de bord, quelle que soit la polarité du bord.
 
-  > Théoriquement, nous pouvons paramétrer une fonction non linéaire entière de manière très compliquée, comme avec des paramètres de ressort, le polynôme de Tchebyshev, etc... Le paramétrage pourrait faire partie du processus d'apprentissage.
+**Quelle complexité souhaitez-vous donner à la non-linéarité ?**
+> Théoriquement, nous pouvons paramétrer une fonction non linéaire entière de manière très compliquée, comme avec des paramètres de ressort, le polynôme de Tchebyshev, etc. Le paramétrage pourrait faire partie du processus d'apprentissage.
 
-- Quel est l'avantage du paramétrage par rapport au fait d'avoir plus d'unités dans votre système ?
-
-  > Cela dépend vraiment de ce que vous voulez faire. Par exemple, lorsque vous faites une régression dans un espace de faible dimension, le paramétrage peut vous aider. Cependant, si votre tâche se situe dans un espace à haute dimension comme la reconnaissance d'images, une simple non-linéarité "a" est nécessaire et une non-linéarité monotone fonctionnera mieux.
-  > En bref, vous pouvez paramétrer toutes les fonctions que vous voulez, mais cela n'apporte pas un énorme avantage.
+**Quel est l'avantage du paramétrage par rapport au fait d'avoir plus d'unités dans votre système ?**
+> Cela dépend vraiment de ce que vous voulez faire. Par exemple, lorsque vous faites une régression dans un espace de faible dimension, le paramétrage peut vous aider. Cependant, si votre tâche se situe dans un espace à haute dimension comme la reconnaissance d'images, une simple non-linéarité « a » est nécessaire et une non-linéarité monotone fonctionnera mieux. En bref, vous pouvez paramétrer toutes les fonctions que vous voulez, mais cela n'apporte pas un énorme avantage.
 
 
 <!--
@@ -741,19 +736,14 @@ Principalement utilisée dans la fonction de perte mais n'est pas couramment com
 
 ### Questions relatives aux coudes
 
-- Un coude contre un double coude
-
-  > Le double coude a une échelle intégrée. Cela signifie que si la couche d'entrée est multipliée par deux (ou si l'amplitude du signal est multipliée par deux), les sorties seront complètement différentes. Le signal sera plus en non-linéarité, donc vous obtiendrez un comportement complètement différent de la sortie. Alors que si vous avez une fonction avec un seul coude, si vous multipliez l'entrée par deux, alors votre sortie sera également multipliée par deux.
-
-- Différences entre une activation non linéaire ayant des coudes et une activation non linéaire lisse. Pourquoi/quand l'une d'entre elles est préférée ?
+**Un coude contre un double coude**
+> Le double coude a une échelle intégrée. Cela signifie que si la couche d'entrée est multipliée par deux (ou si l'amplitude du signal est multipliée par deux), les sorties seront complètement différentes. Le signal sera plus en non-linéarité, donc vous obtiendrez un comportement complètement différent de la sortie. Alors que si vous avez une fonction avec un seul coude, si vous multipliez l'entrée par deux, alors votre sortie sera également multipliée par deux.
 
-  > C'est une question d'équivariance d'échelle. Si le coude est difficile, vous multipliez l'entrée par deux et la sortie est multipliée par deux. Si vous avez une transition en douceur, par exemple, si vous multipliez l'entrée par 100, la sortie semble avoir un coude dur parce que la partie lisse est réduite d'un facteur 100. Si vous divisez l'entrée par 100, le coude devient une fonction convexe très lisse. Ainsi, en changeant l'échelle de l'entrée, vous modifiez le comportement de l'unité d'activation.
-
-  > Parfois, cela peut poser un problème. Par exemple, lorsque vous entraînez un réseau neuronal multicouche et que vous avez deux couches qui se suivent l'une l'autre. Vous n'avez pas un bon contrôle sur la taille des poids d'une couche par rapport aux poids de l'autre couche. Si vous avez une non-linéarité qui se soucie des échelles, votre réseau n'a pas le choix de la taille de la matrice de poids qui peut être utilisée dans la première couche car cela changera complètement le comportement.
-
-  > Une façon de résoudre ce problème est de fixer une échelle dure sur les poids de chaque couche afin de pouvoir normaliser les poids des couches, comme la batch normalisation. Ainsi, la variance qui va dans une unité devient toujours constante. Si vous fixez l'échelle, alors le système n'a aucun moyen de choisir quelle partie de la non-linéarité sera utilisée dans deux systèmes de fonction de coude. Cela peut poser un problème si cette partie "fixe" devient trop "linéaire". Par exemple, Sigmoïde devient presque linéaire près de zéro, et donc les sorties de la batch normalisation (proches de 0) ne pourraient pas être activées "non linéairement".
-  >
-  > Il n'est pas tout à fait clair pourquoi les réseaux profonds fonctionnent mieux avec des fonctions de coude unique. C'est probablement dû à la propriété d'équivariance d'échelle.
+**Différences entre une activation non linéaire ayant des coudes et une activation non linéaire lisse. Pourquoi/quand l'une d'entre elles est préférée ?**
+> C'est une question d'équivariance d'échelle. Si le coude est difficile, vous multipliez l'entrée par deux et la sortie est multipliée par deux. Si vous avez une transition en douceur, par exemple si vous multipliez l'entrée par 100, la sortie semble avoir un coude dur parce que la partie lisse est réduite d'un facteur 100. Si vous divisez l'entrée par 100, le coude devient une fonction convexe très lisse. Ainsi, en changeant l'échelle de l'entrée, vous modifiez le comportement de l'unité d'activation.
+> Parfois, cela peut poser un problème. Par exemple, lorsque vous entraînez un réseau neuronal multicouche et que vous avez deux couches qui se suivent l'une l'autre. Vous n'avez pas un bon contrôle sur la taille des poids d'une couche par rapport aux poids de l'autre couche. Si vous avez une non-linéarité qui se soucie des échelles, votre réseau n'a pas le choix de la taille de la matrice de poids qui peut être utilisée dans la première couche car cela changera complètement le comportement.
+> Une façon de résoudre ce problème est de fixer une échelle dure sur les poids de chaque couche afin de pouvoir normaliser les poids des couches, comme la batch normalisation. Ainsi, la variance qui va dans une unité devient toujours constante. Si vous fixez l'échelle, alors le système n'a aucun moyen de choisir quelle partie de la non-linéarité sera utilisée dans deux systèmes de fonction de coude. Cela peut poser un problème si cette partie *fixe* devient trop *linéaire*. Par exemple, Sigmoïde devient presque linéaire près de zéro et donc les sorties de la batch normalisation (proches de 0) ne pourraient pas être activées *non linéairement*.
+> Il n'est pas tout à fait clair pourquoi les réseaux profonds fonctionnent mieux avec des fonctions de coude unique. C'est probablement dû à la propriété d'équivariance d'échelle.
 
 
 <!--
@@ -769,12 +759,10 @@ Principalement utilisée dans la fonction de perte mais n'est pas couramment com
 
 ### Coefficient de température dans une fonction soft(arg)max
 
-- Quand utilisons-nous le coefficient de température et pourquoi l'utilisons-nous ?
-
-  > Dans une certaine mesure, la température est redondante avec les poids entrants. Si vous avez des sommes pondérées qui arrivent dans votre softmax, le paramètre $\beta$ est redondant avec la taille des poids.
-
-  > La température contrôle le degré de difficulté de la distribution des sorties. Lorsque $\beta$ est très grand, il devient très proche de un ou de zéro. Lorsque $\beta$ est petit, il est plus doux. Lorsque la limite de $\beta$ est égale à zéro, c'est comme une moyenne. Lorsque $\beta$ va à l'infini, il se comporte comme argmax. Ce n'est plus sa version douce. Ainsi, si vous avez une sorte de normalisation avant le softmax, alors, le réglage de ce paramètre vous permet de contrôler la dureté.
-  > Parfois, vous pouvez commencer avec un petit $\beta$ afin d'avoir des descentes de gradient bien conduites et ensuite, au fur et à mesure que la course avance, si vous voulez une décision plus difficile dans votre mécanisme d'attention, vous augmentez $\beta$. Ainsi, vous pouvez affiner les décisions. Il peut être utile pour un mélange d'experts comme un mécanisme d'auto-attention.
+**Quand utilisons-nous le coefficient de température et pourquoi l'utilisons-nous ?**
+> Dans une certaine mesure, la température est redondante avec les poids entrants. Si vous avez des sommes pondérées qui arrivent dans votre softmax, le paramètre $\beta$ est redondant avec la taille des poids.
+ > La température contrôle le degré de difficulté de la distribution des sorties. Lorsque $\beta$ est très grand, il devient très proche de un ou de zéro. Lorsque $\beta$ est petit, il est plus doux. Lorsque la limite de $\beta$ est égale à zéro, c'est comme une moyenne. Lorsque $\beta$ va à l'infini, il se comporte comme argmax. Ce n'est plus sa version douce. Ainsi, si vous avez une sorte de normalisation avant le softmax, alors, le réglage de ce paramètre vous permet de contrôler la dureté.
+> Parfois, vous pouvez commencer avec un petit $\beta$ afin d'avoir des descentes de gradient bien conduites et ensuite, au fur et à mesure que la course avance, si vous voulez une décision plus difficile dans votre mécanisme d'attention, vous augmentez $\beta$. Ainsi, vous pouvez affiner les décisions. Il peut être utile pour un mélange d'experts comme un mécanisme d'auto-attention.
 
 
 <!--
@@ -817,7 +805,7 @@ Cette fonction donne l'erreur quadratique moyenne (norme L2 au carré) entre cha
 
 Si nous utilisons un mini lot d'échantillons $n$, alors il y a des pertes $n$, une pour chaque échantillon du lot. Nous pouvons dire à la fonction de perte de conserver cette perte comme vecteur ou de la réduire.
 
-Si elle n'est pas réduite (`reduction='none'`), la perte est
+Si elle n'est pas réduite (`reduction='none'`), la perte est :
 
 $$l(x,y) = L = \{l_1, \dots, l_N\}^\top, l_n = (x_n - y_n)^2$$
 
@@ -853,7 +841,7 @@ It also has `reduction` option of `'mean'` and `'sum'` similar to what `nn.MSELo
 
 ### `nn.L1Loss()`
 
-Elle mesure l'erreur moyenne absolue) entre chaque élément de l'entrée $x$ et de la cible $y$ (ou entre la sortie réelle et la sortie souhaitée).
+Elle mesure l'erreur moyenne absolue entre chaque élément de l'entrée $x$ et de la cible $y$ (ou entre la sortie réelle et la sortie souhaitée).
 
 Si elle n'est pas réduite (`reduction='none'`), la perte est
 
@@ -861,11 +849,11 @@ $$l(x,y) = L = \{l_1, \dots, l_N\}^\top, l_n = \vert x_n - y_n\vert$$
 
 où $N$ est la taille du lot, $x$ et $y$ sont des tenseurs de formes arbitraires avec un total de n éléments chacun.
 
-Il dispose également d'une option de réduction de la "moyenne" et de la "somme", similaire à celle de "n.MSELoss()".
+Il dispose également d'une option `reduction` de `'mean'` et `'sum'`, similaire à celle de `nn.MSELoss()`.
 
-**Cas d'utilisation :** La perte L1 est plus robuste contre les valeurs aberrantes et le bruit que la perte L2. En L2, les erreurs de ces points aberrants/bruits sont élevées au carré, de sorte que la fonction de coût devient très sensible aux aberrants.
+**Cas d'utilisation :** la perte L1 est plus robuste contre les valeurs aberrantes et le bruit que la perte L2. En L2, les erreurs de ces points aberrants/bruits sont élevées au carré, de sorte que la fonction de coût devient très sensible aux aberrants.
 
-**Problème:** La perte en L1 n'est pas différentiable dans la partie inférieure (0). Nous devons être prudents lorsque nous traitons ses gradients (à savoir le Softshrink). C'est ce qui motive la perte L1 lisse suivante.
+**Problème :** la perte en L1 n'est pas différentiable dans la partie inférieure (0). Nous devons être prudents lorsque nous traitons ses gradients (à savoir la Softshrink). C'est ce qui motive la perte L1 lisse suivante.
 
 
 <!--
@@ -897,16 +885,16 @@ $$\text{loss}(x, y) = \frac{1}{n} \sum_i z_i$$
 où $z_i$ est donné par
 
 $$z_i = \begin{cases}0.5(x_i-y_i)^2, \quad &\text{if } |x_i - y_i| < 1\\\\
-|x_i - y_i| - 0,5, \quad &\text{ else}
+|x_i - y_i| - 0,5, \quad &\text{sinon}
 \end{cases}$$
 
-Elle dispose également d'options de "réduction".
+Elle dispose également d'options de `reduction`.
 
-La publicité en est faite par Ross Girshick ([Fast R-CNN](https://arxiv.org/abs/1504.08083)). La perte L1 lisse est également connue sous le nom de perte de Huber ou de réseau élastique lorsqu'elle est utilisée comme fonction objective.
+Elle est utilisée par Ross Girshick dans [Fast R-CNN](https://arxiv.org/abs/1504.08083). La perte L1 lisse est également connue sous le nom de perte de Huber ou de réseau élastique lorsqu'elle est utilisée comme fonction objective.
 
-**Cas d'utilisation :** Elle est moins sensible aux valeurs aberrantes que la `MSELoss` et est lisse dans le bas. Cette fonction est souvent utilisée en vision par ordinateur pour se protéger contre les valeurs aberrantes.
+**Cas d'utilisation :** elle est moins sensible aux valeurs aberrantes que la `MSELoss` et est lisse dans le bas. Cette fonction est souvent utilisée en vision par ordinateur pour se protéger contre les valeurs aberrantes.
 
-**Problème:** Cette fonction a une échelle ($0,5$ dans la fonction ci-dessus).
+**Problème :** cette fonction a une échelle ($0,5$ dans la fonction ci-dessus).
 
 
 <!--
@@ -920,7 +908,7 @@ In making predictions when we have a lot of different $y$'s:
 Using L1 results in sharper image for prediction.
 --> 
 
-### L1 *vs.* L2 pour la vision par ordinateur
+### L1 vs L2 pour la vision par ordinateur
 
 En faisant des prédictions quand nous avons beaucoup de $y$ différents :
 
@@ -963,7 +951,7 @@ Il s'agit de la perte de probabilité logarithmique négative utilisée lors de
 
 Notez que, mathématiquement, l'entrée de `NLLLoss` devrait être la probabilité (log), mais PyTorch ne l'impose pas. L'effet est donc de rendre la composante désirée aussi grande que possible.
 
-La perte non réduite (avec :attr:`reduction` réglé sur ``'none'``) peut être décrite comme :
+La perte non réduite (avec :attr:`reduction` réglé sur `'none'`) peut être décrite comme :
 
 $$\ell(x, y) = L = \{l_1,\dots,l_N\}^\top, \quad
         l_n = - w_{y_n} x_{n,y_n}, \quad
@@ -971,7 +959,7 @@ $$\ell(x, y) = L = \{l_1,\dots,l_N\}^\top, \quad
 
 où $N$ est la taille du lot.
 
-Si la "réduction" n'est pas "none" (par défaut "mean"), alors
+Si la `reduction` n'est pas à `'none'` (par défaut `'mean'`), alors :
 
 $$\ell(x, y) = \begin{cases}
             \sum_{n=1}^N \frac{1}{\sum_{n=1}^N w_{y_n}} l_n, &
@@ -980,7 +968,7 @@ $$\ell(x, y) = \begin{cases}
             \text{if reduction} = \text{"sum".}
         \end{cases}$$
 
-Cette fonction de perte a un argument optionnel "poids" qui peut être transmis en utilisant un tenseur 1D qui assigne un poids à chacune des classes. Ceci est utile lorsqu'il s'agit d'un ensemble d'entraînement déséquilibré.
+Cette fonction de perte a un argument optionnel `weight` qui peut être transmis en utilisant un tenseur 1D qui assigne un poids à chacune des classes. Ceci est utile lorsqu'il s'agit d'un jeu d'entraînement déséquilibré.
 
 
 <!--
@@ -997,7 +985,7 @@ An obvious problem of the above method is that our NN model wouldn't know the re
 To get an intuition of this scheme, let's go back to the medical school example: students spend just as much time on rare disease as they do on frequent diseases (or maybe even more time, since the rare diseases are often the more complex ones). They learn to adapt to the features of all of them, then correct it to know which are rare.
 --> 
 
-#### Poids & Classes déséquilibrées :
+#### Poids et classes déséquilibrées :
 
 Le vecteur de poids est utile si la fréquence est différente pour chaque catégorie/classe. Par exemple, la fréquence de la grippe commune est beaucoup plus élevée que celle du cancer du poumon. Nous pouvons simplement augmenter le poids pour les catégories qui ont un petit nombre d'échantillons.
 
@@ -1053,7 +1041,7 @@ $$\text{loss}(x, c) = -\log\left(\frac{\exp(x[c])}{\sum_j \exp(x[j])}\right)
 = -x[c] + \log\left(\sum_j \exp(x[j])\right)$$
 
 
-ou dans le cas où l'argument "poids" est spécifié :
+ou dans le cas où l'argument `weight` est spécifié :
 
 $$\text{loss}(x, c) = w[c] \left(-x[c] + \log\left(\sum_j\exp(x[j])\right)\right)$$
 
@@ -1061,7 +1049,7 @@ La moyenne des pertes est calculée à partir des observations de chaque minibat
 
 Une interprétation physique de la perte d'entropie croisée est liée à la divergence de Kullback-Leibler (divergence KL), où nous mesurons la divergence entre deux distributions. Ici, les (quasi) distributions sont représentées par le vecteur x (prédictions) et la distribution cible (un vecteur one-hot avec 0 sur les mauvaises classes et 1 sur la bonne classe).
 
-Mathématiquement,
+Mathématiquement :
 
 $$H(p,q) = H(p) + \mathcal{D}_{KL} (p \mid\mid q)$$
 
diff --git a/docs/fr/week11/11-2.md b/docs/fr/week11/11-2.md
index 15d15a621..4ed88ee70 100644
--- a/docs/fr/week11/11-2.md
+++ b/docs/fr/week11/11-2.md
@@ -2,7 +2,7 @@
 lang: fr
 lang-ref: ch.11-2
 lecturer: Yann Le Cun
-title: Fonctions de perte (continues) et fonctions de perte pour les modèles à base d’énergie (EBM)
+title: Fonctions de perte (continues) et fonctions de perte pour les modèles à base d’énergie (EBMs)
 authors: Charles Brillo-Sonnino, Shizhan Gong, Natalie Frank, Yunan Hu
 date: 13 Apr 2020
 translation-date: 11 Aug 2020
@@ -19,7 +19,7 @@ $$
 This loss is a special case of cross entropy for when you have only two classes so it can be reduced to a simpler function. This is used for measuring the error of a reconstruction in, for example, an auto-encoder. This formula assume $x$ and $y$ are probabilities, so they are strictly between 0 and 1.
 -->
 
-### [Perte d'entropie croisée binaire (Binary Cross Entropy  - BCE) - `nn.BCELoss()`](https://www.youtube.com/watch?v=bj1fh3BvqSU&t=3207s)
+### [Perte d'entropie croisée binaire (Binary Cross Entropy : BCE) - `nn.BCELoss()`](https://www.youtube.com/watch?v=bj1fh3BvqSU&t=3207s)
 
 $$
 \ell(x,y) = L = \{l_1,...,l_N\}^T, \qquad l_n = -w_n[y_n\log x_n+(1-y_n)\log(1-x_n)]
@@ -43,7 +43,7 @@ $$
 \ell(x,y) = L = \{l_1,...,l_N\}^T, \qquad l_n = y_n(\log y_n-x_n)
 $$
 
-Il s'agit d'une fonction de perte simple pour les cas où votre cible est une distribution one-hot (*c'est-à-dire que * $y$ est une catégorie). Là encore, elle suppose que $x$ et $y$ sont des probabilités. Elle présente l'inconvénient de ne pas être fusionnée avec une softmax ou une log-softmax, ce qui peut poser des problèmes de stabilité numérique.
+Il s'agit d'une fonction de perte simple pour les cas où votre cible est une distribution *one-hot* (c'est-à-dire que $y$ est une catégorie). Là encore, elle suppose que $x$ et $y$ sont des probabilités. Elle présente l'inconvénient de ne pas être fusionnée avec une softmax ou une log-softmax, ce qui peut poser des problèmes de stabilité numérique.
 
 <!--
 ### BCE Loss with Logits - `nn.BCEWithLogitsLoss()`
@@ -55,7 +55,7 @@ $$
 This version of binary cross entropy loss takes scores that haven't gone though softmax so it does not assume x is between 0 and 1. It is then passed though a sigmoid to ensure it is in that range. The loss function is more likely to be numerically stable when combined like this.
 -->
 
-### BCE Loss with Logits - `nn.BCEWithLogitsLoss()`
+### *BCE Loss with Logits* - `nn.BCEWithLogitsLoss()`
 
 $$
 \ell(x,y) = L = \{l_1,...,l_N\}^T, \qquad l_n = -w_n[y_n\log \sigma(x_n)+(1-y_n)\log(1-\sigma(x_n))]
@@ -74,13 +74,13 @@ Margin losses are an important category of losses. If you have two inputs, this
 -->
 
 
-### Margin Ranking Loss - `nn.MarginRankingLoss()`
+### Perte *Margin Ranking* - `nn.MarginRankingLoss()`
 
 $$
 L(x,y) = \max(0, -y*(x_1-x_2)+\text{margin})
 $$
 
-Les pertes de marge constituent une catégorie importante de pertes. Si vous avez deux entrées, cette fonction de perte indique que vous voulez que l'une d'elles soit plus importante que l'autre d'au moins une marge. Dans ce cas, $y$ est une variable binaire $\in \{ -1, 1\}$. Imaginez que les deux entrées soient des scores de deux catégories. Vous voulez que le score de la catégorie correcte soit plus grand que le score des catégories incorrectes d'au moins une certaine marge. Comme pour la perte hinge, si $y*(x_1-x_2)$ est supérieur à la marge, le coût est de 0. S'il est inférieur, le coût augmente de façon linéaire. Si vous deviez l'utiliser pour la classification, vous auriez $x_1$ comme score de la bonne réponse et $x_2$ comme score de la réponse incorrecte la plus élevée du mini batch. Si elle est utilisée dans des modèles basés sur l'énergie (voir plus loin), cette fonction de perte pousse vers le bas la bonne réponse $x_1$ et vers le haut la mauvaise réponse $x_2$.
+Les pertes avec marge constituent une catégorie importante de pertes. Si vous avez deux entrées, cette fonction de perte indique que vous voulez que l'une d'elles soit plus importante que l'autre d'au moins une marge. Dans ce cas, $y$ est une variable binaire $\in \{ -1, 1\}$. Imaginez que les deux entrées soient des scores de deux catégories. Vous voulez que le score de la catégorie correcte soit plus grand que le score des catégories incorrectes d'au moins une certaine marge. Comme pour la perte *Hinge*, si $y*(x_1-x_2)$ est supérieur à la marge, le coût est de 0. S'il est inférieur, le coût augmente de façon linéaire. Si vous deviez l'utiliser pour la classification, vous auriez $x_1$ comme score de la bonne réponse et $x_2$ comme score de la réponse incorrecte la plus élevée du mini batch. Si elle est utilisée dans des modèles à base d'énergie (voir plus loin), cette fonction de perte pousse vers le bas la bonne réponse $x_1$ et vers le haut la mauvaise réponse $x_2$.
 
 
 <!--
@@ -100,7 +100,7 @@ This loss is used for measuring a relative similarity between samples.  For exam
 This was originally used to train an image search system for Google. At that time, you would type a query into Google and it would encode that query into a vector. It would then compare that vector to a bunch of vectors from images that were previously indexed. Google would then retrieve the images that were the closest to your vector.
 -->
 
-### Triplet Margin Loss - `nn.TripletMarginLoss()`
+### Perte *Triplet Margin* - `nn.TripletMarginLoss()`
 
 $$
 L(a,p,n) = \max\{d(a_i,p_i)-d(a_i,n_i)+\text{margin}, 0\}
@@ -110,7 +110,7 @@ Cette perte est utilisée pour mesurer une similarité relative entre les échan
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-2/tml.png" width="100%"/><br>
-<b>Fig. 1</b> : Triplet de perte de marge
+<b>Figure 1 :</b> Triplet de perte de marge
 </center>
 
 Elle a été utilisée à l'origine pour l'entraînement d'un système de recherche d'images pour Google. À l'époque, vous deviez taper une requête dans Google et celui-ci l'encodait dans un vecteur. Il comparait ensuite ce vecteur à un ensemble de vecteurs provenant d'images qui avaient été précédemment indexées. Google récupère alors les images qui sont les plus proches de votre vecteur.
@@ -128,7 +128,7 @@ Creates a criterion that optimizes a two-class classification logistic loss betw
 * This loss function wants to pull the positive values of $y[i]*x[i]$ closer together and push the negative values far apart but, as opposed to a hard margin, with some continuous, exponentially decaying effect on the loss .
 -->
 
-### Perte de marge douce - `nn.SoftMarginLoss()`
+### Perte *SoftMargin* - `nn.SoftMarginLoss()`
 
 $$
 L(x,y) = \sum_i\frac{\log(1+\exp(-y[i]*x[i]))}{x.\text{nelement()}}
@@ -150,9 +150,9 @@ $$
 This margin-base loss allows for different inputs to have variable amounts of targets. In this case you have several categories for which you want high scores and it sums the  hinge loss over all categories. For EBMs, this loss function pushes down on desired categories and pushes up on non-desired categories.
 -->
 
-### Multi-Class Hinge Loss - `nn.MultiLabelMarginLoss()`
+### Perte *Multi-Class Hinge* - `nn.MultiLabelMarginLoss()`
 
-Cette perte permet à différents intrants d'avoir des quantités variables d'objectifs. Dans ce cas, vous avez plusieurs catégories pour lesquelles vous souhaitez obtenir des scores élevés et elle additionne la perte sur toutes les catégories. Pour les EBM, cette fonction de perte pousse vers le bas les catégories souhaitées et vers le haut les catégories non souhaitées.
+Cette perte permet à différents intrants d'avoir des quantités variables d'objectifs. Dans ce cas, vous avez plusieurs catégories pour lesquelles vous souhaitez obtenir des scores élevés et elle additionne la perte sur toutes les catégories. Pour les EBMs, cette fonction de perte pousse vers le bas les catégories souhaitées et vers le haut les catégories non souhaitées.
 
 <!--
 ### Hinge Embedding Loss - `nn.HingeEmbeddingLoss()`
@@ -173,7 +173,7 @@ Hinge embedding loss used for semi-supervised learning by measuring whether two
 -->
 
 
-### Hinge Embedding Loss - `nn.HingeEmbeddingLoss()`
+### Perte *Hinge Embedding* - `nn.HingeEmbeddingLoss()`
 
 
 $$
@@ -186,7 +186,7 @@ l_n =
 \right.
 $$
 
-Cette perte est utilisée pour l'apprentissage semi-supervisé en mesurant si deux entrées sont similaires ou dissemblables. Elle rassemble les choses qui sont similaires et repousse celles qui sont dissemblables. La variable $y$ indique si la paire de notes doit aller dans une certaine direction. En utilisant une telle perte, le score est positif si $y$ est égal à 1 et une certaine marge $\Delta$ si $y$ est égal à -1.
+Cette perte est utilisée pour l'apprentissage semisupervisé en mesurant si deux entrées sont similaires ou dissemblables. Elle rassemble les choses qui sont similaires et repousse celles qui sont dissemblables. La variable $y$ indique si la paire de notes doit aller dans une certaine direction. En utilisant une telle perte, le score est positif si $y$ est égal à 1 et une certaine marge $\Delta$ si $y$ est égal à -1.
 
 <!--
 ### Cosine Embedding Loss - `nn.CosineEmbeddingLoss()`
@@ -211,7 +211,7 @@ This loss is used for measuring whether two inputs are similar or dissimilar, us
 * In a high dimensional space, there is a lot of area near the equator of the sphere. After normalisation, all your points are now normalised on the sphere. What you want is samples that are semantically similar to you to be close. The samples that are dissimilar should be orthogonal. You don't want them to be opposite each other because there is only one point at the opposite pole. Rather, on the equator, there is a very large amount of space so you want to make the margin some small positive value so you can take advantage of all this area.
 -->
 
-### Cosine Embedding Loss - `nn.CosineEmbeddingLoss()`
+### Perte *Cosine Embedding* - `nn.CosineEmbeddingLoss()`
 
 $$
 l_n =
@@ -224,7 +224,7 @@ l_n =
 $$
 
 
-Cette perte est utilisée pour mesurer si deux entrées sont similaires ou dissemblables, en utilisant la distance cosinusoïdale, et est généralement utilisée pour l'apprentissage d’enchâssements non linéaires ou pour l'apprentissage semi-supervisé.
+Cette perte est utilisée pour mesurer si deux entrées sont similaires ou dissemblables, en utilisant la distance cosinusoïdale et est généralement utilisée pour l'apprentissage d’enchâssements non linéaires ou pour l'apprentissage semisupervisé.
 
 * Pensée d'une autre manière, 1 moins le cosinus de l'angle entre les deux vecteurs est fondamentalement la distance euclidienne normalisée.
 * L'avantage de cette méthode est que lorsque vous avez deux vecteurs et que vous voulez rendre leur distance aussi grande que possible, il est très facile de faire en sorte que le réseau y parvienne en rendant les vecteurs très longs. Bien sûr, ce n'est pas optimal. Vous ne voulez pas que le système fabrique des vecteurs de grande taille, mais qu'il fasse tourner les vecteurs dans la bonne direction, de sorte que vous normalisiez les vecteurs et calculiez la distance euclidienne normalisée.
@@ -257,19 +257,19 @@ Application Example: Speech recognition system
 </center>
 -->
 
-### [Connectionist Temporal Classification (CTC) Loss - `nn.CTCLoss()`](https://www.youtube.com/watch?v=bj1fh3BvqSU&t=4103s)
+### [La perte Connectionist Temporal Classification (CTC) - `nn.CTCLoss()`](https://www.youtube.com/watch?v=bj1fh3BvqSU&t=4103s)
 
 Calcule la perte entre une série chronologique continue (non segmentée) et une séquence cible.
 * Les sommes des pertes CTC sur la probabilité des alignements possibles de l'entrée vers la cible, produisent une valeur de perte qui est différenciable par rapport à chaque nœud d'entrée.
-* L'alignement de l'entrée sur la cible est supposé être "plusieurs vers un", ce qui limite la longueur de la séquence cible de sorte qu'elle doit être inférieure ou égale à la longueur d'entrée.
+* L'alignement de l'entrée sur la cible est supposé être « plusieurs vers un », ce qui limite la longueur de la séquence cible de sorte qu'elle doit être inférieure ou égale à la longueur d'entrée.
 * Utile lorsque votre sortie est une séquence de vecteurs, qui correspond à un grand nombre de catégories.
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-2/Fig1.png" width="85%"/><br>
-<b>Figure 2</b> : Perte CTC pour la reconnaissance vocale
+<b>Figure 2 :</b> Perte CTC pour la reconnaissance vocale
 </center>
 
-Exemple de demande : Système de reconnaissance vocale
+Exemple d'un système de reconnaissance vocale :
 * Objectif : prédire quel mot est prononcé toutes les 10 millisecondes.
 * Chaque mot est représenté par une séquence de sons.
 * En fonction de la vitesse de la personne qui parle, des sons de différentes longueurs peuvent être associés au même mot.
@@ -277,14 +277,14 @@ Exemple de demande : Système de reconnaissance vocale
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-2/Fig2.png" width="85%" style="background-color:white ;"/><br>
-<b>Figure 3</b> : Mise en place d'un système de cartographie personnalisé
+<b>Figure 3 :</b> Configuration « plusieurs vers un »
 </center>
 
 <!--
 # Energy-Based Models (Part IV) - Loss Function
 -->
 
-# Modèles à base d'énergie (EBM)(Partie IV) - Fonction de perte
+# Modèles à base d'énergie (EBMs) - Fonction de perte
 
 <!--
 ## Architecture and Loss Functional
@@ -314,7 +314,7 @@ $$
 
 ## Architecture et perte fonctionnelle
 
-Famille de fonction énergie : $\mathcal{E} = \{E(W,Y, X) : W \in \mathcal{W}\}$.
+Famille de fonction d'énergie : $\mathcal{E} = \{E(W,Y, X) : W \in \mathcal{W}\}$.
 
 Ensemble d'entraînement : $S = \{(X^i, Y^i) : i = 1 \cdots P\}$.
 
@@ -390,7 +390,7 @@ A probabilistic model is an EBM in which:
 * The loss function is the negative log-likelihood
 -->
 
-### Negative Log-Likelihood Loss
+### Perte *Negative Log-Likelihood*
 
 $$
 L_{nll}(W, S) = \frac{1}{P} \sum_{i=1}^P (E(W, Y^i, X^i) + \frac{1}{\beta} \log \int_{y \in \mathcal{Y}} e^{\beta E(W, y, X^i)})
@@ -463,7 +463,7 @@ $$
 \bar Y^i=\text{argmin}_{Y\in \mathcal Y\text{ and }\|Y-Y^i\|>\epsilon} E(W,Y,X^i)
 $$
 
-Dans le cas discret, la *réponse incorrecte la plus offensante* est celle dont l'énergie est la plus faible et qui n'est pas la bonne réponse. Dans le cas continu, l'énergie pour $Y$ extrêmement proche de $Y^i$ devrait être proche de $E(W,Y^i,X^i)$. De plus, le $\text{argmin}$ évalué sur $Y$ non égal à $Y^i$ serait 0. En conséquence, nous choisissons une distance $\epsilon$ et décidons que seul $Y$ est au moins $\epsilon$ de $Y_i$ doit être considéré comme la "mauvaise réponse". C'est pourquoi l'optimisation ne porte que sur les $Y$ de distance au moins égale à $\epsilon$ de $Y^i$.
+Dans le cas discret, la *réponse incorrecte la plus offensante* est celle dont l'énergie est la plus faible et qui n'est pas la bonne réponse. Dans le cas continu, l'énergie pour $Y$ extrêmement proche de $Y^i$ devrait être proche de $E(W,Y^i,X^i)$. De plus, le $\text{argmin}$ évalué sur $Y$ non égal à $Y^i$ serait 0. En conséquence, nous choisissons une distance $\epsilon$ et décidons que seul $Y$ est au moins $\epsilon$ de $Y_i$ doit être considéré comme la mauvaise réponse. C'est pourquoi l'optimisation ne porte que sur les $Y$ de distance au moins égale à $\epsilon$ de $Y^i$.
 
 Si la fonction d'énergie est capable de garantir que l'énergie de la *réponse incorrecte la plus offensante* est supérieure à l'énergie de la bonne réponse d'une certaine marge, alors cette fonction d'énergie devrait bien fonctionner.
 
@@ -492,21 +492,20 @@ Q: How do you pick $m$?
 A: It's arbitrary, but it affects the weights of the last layer.
 -->
 
-### Hinge Loss
+### Perte *Hinge*
 
 $$
 L_{\text{hinge}}(W,Y^i,X^i)=\max(0,m+E(W,Y^i,X^i))-E(W,\bar Y^i,X^i)
 $$
 
-Où $\bar Y^i$ est la *réponse incorrecte la plus offensante*. Cette perte impose que la différence entre la bonne réponse et la réponse incorrecte la plus offensante soit d'au moins $m$.
+où $\bar Y^i$ est la *réponse incorrecte la plus offensante*. Cette perte impose que la différence entre la bonne réponse et la réponse incorrecte la plus offensante soit d'au moins $m$.
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-2/hinge.png" width="60%"/><br>
-<b>Fig. 4</b> : Hinge Loss </center>
-
-Q : Comment choisir $m$?
+<b>Figure 4 :</b> Perte Hinge</center>
 
-R : C'est arbitraire, mais cela affecte les poids de la dernière couche.
+**Comment choisir $m$?**
+> C'est arbitraire, mais cela affecte les poids de la dernière couche.
 
 <!--
 ### Log Loss
@@ -523,17 +522,17 @@ This can be thought of as a "soft" hinge loss. Instead of composing the differen
 </center>
 -->
 
-### Log Loss
+### *Log Loss*
 
 $$
 L_{\log}(W,Y^i,X^i)=\log(1+e^{E(W,Y^i,X^i)-E(W,\bar Y^i,X^i)})
 $$
 
-On peut considérer cela comme une Hinge Loss "douce. Cette perte tente d'imposer une "marge infinie", mais en raison de la décroissance exponentielle de la pente, elle ne se produit pas.
+On peut considérer cela comme une Hinge Loss douce. Cette perte tente d'imposer une marge infinie, mais en raison de la décroissance exponentielle de la pente, elle ne se produit pas.
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-2/log.png" width="60%"/><br>
-<b>Fig. 5</b>: Log Loss
+<b>Figure 5 :</b> Log Loss
 </center>
 
 
@@ -547,7 +546,7 @@ $$
 This loss combines the square of the energy with a square hinge. The combination tries to minimize the energy and but enforce margin at least $m$ on the most offending incorrect answer. This is very similar to the loss used in Siamese nets.
 -->
 
-### Square-Square Loss
+### *Square-Square Loss*
 
 $$
 L_{sq-sq}(W,Y^i,X^i)=E(W,Y^i,X^i)^2+(\max(0,m-E(W,\bar Y^i,X^i)))^2
@@ -585,11 +584,13 @@ We assume that $Y$ is discrete, but if it were continuous, the sum would be repl
 Il y en a tout un tas. Voici un résumé de bonnes et mauvaises fonctions de perte.
 <center>
 <img src="{{site.baseurl}}/images/week11/11-2/other.png" width="100%" style="background-color:white ;"/><br>
-<b>Fig. 6</b> : Sélection des fonctions de perte d’EBM
+<b>Figure 6 :</b> Sélection des fonctions de perte d’EBM
 </center>
-La colonne de droite indique si la fonction énergie impose une marge. La simple perte d'énergie ne pousse nulle part, donc elle n'a pas de marge. La perte d'énergie ne fonctionne pas pour tous les problèmes. La perte de perceptron fonctionne si vous avez une paramétrisation linéaire de votre énergie mais pas en général. Certaines ont une marge finie comme la perte de la charnière, et d'autres une marge infinie comme la charnière souple.
-Q : Comment la réponse incorrecte la plus offensante se trouve-t-elle dans le cas continu ?
-R : Vous voulez pousser sur un point qui est suffisamment éloigné de $Y^i$, car s'il est trop proche, les paramètres peuvent ne pas bouger beaucoup puisque la fonction définie par un réseau neuronal est "raide". Mais en général, c'est difficile et c'est le problème que les méthodes de sélection d'échantillons contrastifs tentent de résoudre. Il n'y a pas une seule façon correcte de le faire.
+
+La colonne de droite indique si la fonction d'énergie impose une marge. La simple perte d'énergie ne pousse nulle part, donc elle n'a pas de marge. La perte d'énergie ne fonctionne pas pour tous les problèmes. La perte de perceptron fonctionne si vous avez une paramétrisation linéaire de votre énergie mais pas en général. Certaines ont une marge finie comme la perte de la charnière et d'autres une marge infinie comme la charnière souple.
+
+**Comment la réponse incorrecte la plus offensante se trouve-t-elle dans le cas continu ?**
+> Vous voulez pousser sur un point qui est suffisamment éloigné de $Y^i$, car s'il est trop proche, les paramètres peuvent ne pas bouger beaucoup puisque la fonction définie par un réseau neuronal est « raide ». Mais en général, c'est difficile et c'est le problème que les méthodes de sélection d'échantillons contrastifs tentent de résoudre. Il n'y a pas une seule façon correcte de le faire.
 
 Une forme un peu plus générale pour les pertes contrastives de type charnière est :
 
diff --git a/docs/fr/week11/11-3.md b/docs/fr/week11/11-3.md
index 18e50a076..92cd2b645 100644
--- a/docs/fr/week11/11-3.md
+++ b/docs/fr/week11/11-3.md
@@ -1,7 +1,7 @@
 ---
 lang: fr
 lang-ref: ch.11-3
-title: “Prediction and Policy learning Under Uncertainty” (PPUU)
+title: Prediction et apprentissage d'une politique sous incertitude
 lecturer: Alfredo Canziani
 authors: Anuj Menta, Dipika Rajesh, Vikas Patidar, Mohith Damarapati
 date: 14 Apr 2020
@@ -44,16 +44,16 @@ Yes, we can! Let us find out in the "Learning world model" section.
 
 Disons que nous voulons apprendre à conduire dans un modèle d'apprentissage par renforcement (RL). Nous entraînons des modèles en RL en laissant le modèle faire des erreurs et en apprenant de celles-ci. Mais ce n'est pas la meilleure façon de procéder car les erreurs peuvent nous conduire au paradis ou en enfer où il est inutile d'apprendre.
 
-Parlons donc d'une méthode plus "humaine" pour apprendre à conduire une voiture. Prenons un exemple de changement de voie. En supposant que la voiture roule à 100 km/h, ce qui correspond à peu près à 30 m/s, si nous regardons à 30 m devant nous, nous regardons en gros 1 s dans le futur.
+Parlons donc d'une méthode plus « humaine » pour apprendre à conduire une voiture. Prenons un exemple de changement de voie. En supposant que la voiture roule à 100 km/h, ce qui correspond à peu près à 30 m/s, si nous regardons à 30 m devant nous, nous regardons en gros 1 s dans le futur.
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure1.png" style="zoom : 20% ; background-color:#DCDCDC ;" /><br>
-<b>Figure 1:</b> Regarder vers l'avenir en conduisant
+<b>Figure 1 :</b> Regarder vers l'avenir en conduisant
 </center>
 
 Si nous devions nous tourner, nous devons prendre une décision en fonction de l'avenir proche. Pour prendre un virage dans quelques mètres, nous prenons une mesure maintenant, qui dans ce contexte est de tourner le volant. Prendre une décision ne dépend pas seulement de votre conduite, mais aussi des véhicules environnants dans la circulation. Comme tout le monde autour de nous n'est pas aussi déterministe, il est très difficile de prendre en compte toutes les possibilités.
 
-Décomposons maintenant ce qui se passe dans ce scénario. Nous avons un agent (représenté ici par un cerveau) qui prend l'entrée $s_t$ (images de position, de vitesse et de contexte) et produit une action $a_t$ (contrôle de la direction, accélération et freinage).  L'environnement nous amène à un nouvel état et nous renvoie un coût $c_t$.
+Décomposons maintenant ce qui se passe dans ce scénario. Nous avons un agent (représenté ici par un cerveau) qui prend l'entrée $s_t$ (images de position, de vitesse et de contexte) et produit une action $a_t$ (contrôle de la direction, accélération et freinage). L'environnement nous amène à un nouvel état et nous renvoie un coût $c_t$.
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure2.png" style="zoom : 30% ; background-color:#DCDCDC;" /><br>
@@ -62,11 +62,10 @@ Décomposons maintenant ce qui se passe dans ce scénario. Nous avons un agent (
 
 C'est comme un simple réseau où vous prenez des mesures dans un état donné et où le monde nous donne l'état suivant et la conséquence suivante. Il n'y a pas de modèle, car chaque action nous fait interagir avec le monde réel. Mais pouvons-nous entraîner un agent sans interagir avec le monde réel ?
 
-Oui, c'est possible ! Découvrons-le dans la section "Apprentissage d’un modèle du monde".
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure3.png" style="zoom : 30% ; background-color:#DCDCDC;" /><br>
-<b>Figure 3:</b> Illustration d'un agent dans le modèle du monde
+<b>Figure 3 :</b> Illustration d'un agent dans le modèle du monde
 </center>
 
 
@@ -88,14 +87,13 @@ The illustration in blue is the feed and the illustration in green is what we ca
 
 ## Jeu de données
 
-Avant de discuter de la manière d'apprendre le modèle du monde, explorons l'ensemble des données dont nous disposons. Nous avons 7 caméras montées sur le toit d'un bâtiment de 30 étages qui fait face à l'autoroute. Nous ajustons les caméras pour obtenir une vue de haut en bas et extrayons ensuite des boîtes de délimitation pour chaque véhicule. A la fois $t$, nous pouvons déterminer $p_t$ représentant la position, $v_t$
-représentant la vitesse et $i_t$ représentant l'état actuel de la circulation autour du véhicule.
+Avant de discuter de la manière d'apprendre le modèle du monde, explorons le jeu de données dont nous disposons. Nous avons 7 caméras montées sur le toit d'un bâtiment de 30 étages qui fait face à l'autoroute. Nous ajustons les caméras pour obtenir une vue de haut en bas et extrayons ensuite des boîtes de délimitation pour chaque véhicule. A la fois $t$, nous pouvons déterminer $p_t$ représentant la position, $v_t$ représentant la vitesse et $i_t$ représentant l'état actuel de la circulation autour du véhicule.
 
-Comme nous connaissons la cinématique de la conduite, nous pouvons les inverser pour déterminer quelles sont les actions que le conducteur effectue. Par exemple, si la voiture se déplace dans un mouvement rectiligne uniforme, nous savons que l'accélération est nulle (ce qui signifie qu'il n'y a pas d'action)
+Comme nous connaissons la cinématique de la conduite, nous pouvons les inverser pour déterminer quelles sont les actions que le conducteur effectue. Par exemple, si la voiture se déplace dans un mouvement rectiligne uniforme, nous savons que l'accélération est nulle (ce qui signifie qu'il n'y a pas d'action).
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure4.png" style="zoom : 40% ; background-color:#DCDCDC;" /><br>
-<b>Figure 4:</b> Représentation mécanique d'une seule image
+<b>Figure 4 :</b> Représentation mécanique d'une seule image
 </center>
 
 L'illustration en bleu est le flux et l'illustration en vert est ce que l'on peut appeler la représentation de la machine. Pour mieux comprendre cela, nous avons isolé quelques véhicules (marqués dans l'illustration). Les vues que nous voyons ci-dessous sont les cases limitant le champ de vision de ces véhicules.
@@ -128,14 +126,14 @@ Il y a deux types de coûts différents ici : le coût de la voie et le coût de
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure5.png" style="zoom : 40% ; background-color:#DCDCDC;" /><br>
-<b>Figure 5:</b> Coût des voies
+<b>Figure 5 :</b> Coût des voies
 </center>
 
-Dans la figure ci-dessus, les lignes pointillées représentent les voies réelles et les lignes rouges nous aident à calculer le coût de la voie compte tenu de la position actuelle de notre voiture.  Les lignes rouges se déplacent en fonction de la position de notre voiture. La hauteur de l'intersection des lignes rouges avec la courbe potentielle (en cyan) nous donne le coût. Si la voiture est au centre de la voie, les deux lignes rouges se chevauchent avec les voies réelles, ce qui donne un coût nul. D'autre part, lorsque la voiture s'éloigne du centre, les lignes rouges se déplacent également, ce qui entraîne un coût non nul.
+Dans la figure ci-dessus, les lignes pointillées représentent les voies réelles et les lignes rouges nous aident à calculer le coût de la voie compte tenu de la position actuelle de notre voiture. Les lignes rouges se déplacent en fonction de la position de notre voiture. La hauteur de l'intersection des lignes rouges avec la courbe potentielle (en cyan) nous donne le coût. Si la voiture est au centre de la voie, les deux lignes rouges se chevauchent avec les voies réelles, ce qui donne un coût nul. D'autre part, lorsque la voiture s'éloigne du centre, les lignes rouges se déplacent également, ce qui entraîne un coût non nul.
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure6.png" style="zoom : 40% ; background-color:#DCDCDC;" /><br>
-<b>Figure 6:</b> Coût de proximité
+<b>Figure 6 :</b> Coût de proximité
 </center>
 
 Le coût de proximité a deux composantes ($\mathcal{L}_x$ et $\mathcal{L}_y$). $\mathcal{L}_y$ est similaire au coût de la voie et $\mathcal{L}_x$ dépend de la vitesse de notre voiture. La courbe orange de la figure 6 nous renseigne sur la distance de sécurité. Plus la vitesse de la voiture augmente, plus la courbe orange s'élargit. Plus la voiture roule vite, plus il faut regarder devant et derrière. La hauteur de l'intersection d'une voiture avec la courbe orange détermine $\mathcal{L}_x$.
@@ -157,10 +155,10 @@ The world model is fed with an action $a_t$ (steering, brake, and acceleration)
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure7.png" style="zoom : 30% ; background-color:#DCDCDC;" /><br>
-<b>Figure 7:</b> Illustration d’un modèle du monde
+<b>Figure 7 :</b> Illustration d’un modèle du monde
 </center>
 
-Le modèle du monde est alimenté par une action $a_t$ (direction, freinage et accélération) et $s_{1:t}$ (séquence d'états où chaque état est représenté par des images de position, de vitesse et de contexte à ce moment) et il prédit l'état suivant $\hat s_{t+1}$.  D'autre part, nous avons le monde réel qui nous dit ce qui s'est réellement passé ($s_{t+1}$). Nous optimisons la MSE (Mean Squared Error) entre la prédiction ($\hat s_{t+1}$) et la cible ($s_{t+1}$) pour entraîner notre modèle.
+Le modèle du monde est alimenté par une action $a_t$ (direction, freinage et accélération) et $s_{1:t}$ (séquence d'états où chaque état est représenté par des images de position, de vitesse et de contexte à ce moment) et il prédit l'état suivant $\hat s_{t+1}$.  D'autre part, nous avons le monde réel qui nous dit ce qui s'est réellement passé ($s_{t+1}$). Nous optimisons la MSE (*Mean Squared Error*) entre la prédiction ($\hat s_{t+1}$) et la cible ($s_{t+1}$) pour entraîner notre modèle.
 
 <!--
 ## Deterministic predictor-decoder
@@ -192,14 +190,14 @@ L'une des façons d'entraîner notre modèle du monde est d'utiliser un modèle
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure8.png" style="zoom : 20% ; background-color:#DCDCDC ;" /><br>
-<b>Figure 8:</b> Prédicteur-décodeur déterministe pour apprendre le modèle du monde
+<b>Figure 8 :</b> Prédicteur-décodeur déterministe pour apprendre le modèle du monde
 </center>
 
 Comme le montre la figure 8, nous avons une séquence d'états ($s_{1:t}$) et d'actions ($a_t$) qui sont fournies au module prédicteur. Le prédicteur produit une représentation cachée de l'avenir qui est transmise au décodeur. Le décodeur décode la représentation cachée du futur et émet une prédiction ($\hat s_{t+1}$). Nous entraînons ensuite notre modèle en minimisant le MSE entre la prédiction $\hat s_{t+1}$ et la cible $s_{t+1}$.
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure9.png" style="zoom : 20% ; background-color:#DCDCDC ;" /><br>
-<b>Figure 9:</b> Avenir réel *vs.* Avenir déterministe
+<b>Figure 9 :</b> Avenir réel vs Avenir déterministe
 </center>
 
 Malheureusement, cela ne fonctionne pas !
@@ -263,7 +261,7 @@ Pour résoudre le problème énoncé dans la section précédente, nous ajoutons
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure10.png" style="zoom : 40% ; background-color:#DCDCDC;" /><br>
-<b>Figure 10:</b> Réseau prédictif variationnel - entraînement
+<b>Figure 10 :</b> Réseau prédictif variationnel - entraînement
 </center>
 
 Le $z_t$ est choisi de telle sorte que la MSE soit minimisée pour une prévision spécifique. En réglant la variable latente, vous pouvez toujours ramener la MSE à zéro en effectuant une descente de gradient dans l'espace latent. Mais c'est très coûteux. Nous pouvons donc réellement prédire cette variable latente en utilisant un encodeur. L'encodeur prend l'état futur pour nous donner une distribution avec une moyenne et une variance à partir de laquelle nous pouvons échantillonner $z_t$.
@@ -272,37 +270,37 @@ Pendant l'entraînement, nous pouvons découvrir ce qui se passe en regardant da
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure11.png" style="zoom : 40% ; background-color:#DCDCDC;" /><br>
-<b>Figure 11:</b> Réseau prédictif variationnel - entraînement (avec distribution préalable)
+<b>Figure 11 :</b> Réseau prédictif variationnel - entraînement (avec distribution préalable)
 </center>
 
-Maintenant, examinons la conclusion - Comment conduisons-nous ?
+Maintenant, examinons la conclusion.Comment conduisons-nous ?
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure12.png" style="zoom : 32% ; background-color:#DCDCDC;" /><br>
-<b>Figure 12:</b> Réseau prédictif variationnel - inférence
+<b>Figure 12 :</b> Réseau prédictif variationnel - inférence
 </center>
 
 Nous échantillonnons la variable latente de faible dimension $z_t$ de la précédente en forçant l'encodeur à la tirer vers cette distribution. Après avoir obtenu la prédiction $\hat s_{t+1}$, nous la remettons (dans une étape auto-régressive) et obtenons la prédiction suivante $\hat s_{t+2}$ et continuons à alimenter le réseau de cette façon.
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure13.png" style="zoom : 22% ; background-color:#DCDCDC ;" /><br>
-<b>Figure 13:</b> Avenir réel *vs.* Déterministe
+<b>Figure 13 :</b> Avenir réel vs Déterministe
 </center>
 
 Dans la partie droite de la figure ci-dessus, on peut voir quatre tirages différents de la distribution normale. Nous partons du même état initial et fournissons 200 valeurs différentes à la variable latente.
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure14.png" style="zoom : 30% ; background-color:#DCDCDC;" /><br>
-<b>Figure 14:</b> Avenir réel *vs.* Déterministe - après mouvement
+<b>Figure 14 :</b> Avenir réel vs Déterministe - après mouvement
 </center>
 
-Nous pouvons remarquer que le fait de fournir différentes variables latentes génère différentes séquences d'états avec différents comportements. Ce qui signifie que nous disposons d'un réseau qui génère le futur. Tout à fait fascinant !
+Nous pouvons remarquer que le fait de fournir différentes variables latentes génère différentes séquences d'états avec différents comportements. Ce qui signifie que nous disposons d'un réseau qui génère le futur.
 
 Quelle est la prochaine étape ?
 
 Nous pouvons maintenant utiliser cette énorme quantité de données pour l'entraînement de notre politique en optimisant les coûts de voies et de proximité décrits ci-dessus.
 
-Ces futurs multiples proviennent de la séquence de variables latentes que vous alimentez au réseau. Si vous effectuez une montée en pente - dans l'espace latent, vous essayez d'augmenter le coût de proximité afin d'obtenir la séquence de variables latentes telle que les autres voitures vont vous foncer dessus.
+Ces futurs multiples proviennent de la séquence de variables latentes que vous alimentez au réseau. Si vous effectuez une montée en pente dans l'espace latent, vous essayez d'augmenter le coût de proximité afin d'obtenir la séquence de variables latentes telle que les autres voitures vont vous foncer dessus.
 
 <!--
 ## Action insensitivity & latent dropout
@@ -344,7 +342,7 @@ In the last two images on the right-hand side, we see two different sets of late
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure15.png" style="zoom : 40% ; background-color:#DCDCDC;" /><br>
-<b>Figure 15:</b> Questions - Insensibilité à l'action
+<b>Figure 15 :</b> Problème - Insensibilité à l'action
 </center>
 
 Étant donné que vous avez réellement accès à l'avenir, si vous tournez à gauche, même légèrement, tout va tourner à droite et cela va contribuer de façon énorme à la MSE. La perte MSE peut être minimisée si la variable latente peut informer la partie inférieure du réseau que tout va tourner à droite, ce qui n'est pas ce que nous voulons ! Nous pouvons dire quand tout tourne à droite puisque c'est une tâche déterministe.
@@ -353,7 +351,7 @@ La grande flèche de la figure 15 signifie une fuite d'informations et n'est don
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure16.png" style="zoom : 40% ; background-color:#DCDCDC;" /><br>
-<b>Figure 16:</b> Question - Insensibilité à l'action
+<b>Figure 16 :</b> Problème - Insensibilité à l'action
 </center>
 
 Dans la figure 16, dans le diagramme le plus à droite, nous avons la séquence réelle des variables latentes (les variables latentes qui nous permettent d'obtenir le futur le plus précis) et nous avons la séquence réelle des actions prises par l'expert. Les deux figures à gauche de celle-ci ont un échantillon aléatoire de variables latentes mais la séquence réelle d'actions, donc nous nous attendons à voir le pilotage. La dernière à gauche a la séquence réelle des variables latentes mais des actions arbitraires et nous pouvons clairement voir que la rotation provient principalement de la variable latente plutôt que de l'action, ce qui encode la rotation et l'action (qui sont échantillonnées à partir d'autres épisodes).
@@ -363,17 +361,17 @@ Comment résoudre ce problème ?
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure17.png" style="zoom : 40% ; background-color:#DCDCDC;" /><br>
-<b>Figure 17:</b> Correction - Dropout latent
+<b>Figure 17 :</b> Correction - Dropout latent
 </center>
 
 Le problème n'est pas une fuite de mémoire mais une fuite d'informations. Nous réglons ce problème en éliminant simplement cette latente et en la prélevant au hasard dans la distribution antérieure. Nous ne nous appuyons pas toujours sur la sortie de l'encodeur ($f_{enc}$) mais nous prélevons dans la distribution antérieure. De cette façon, vous ne pouvez plus encoder la rotation dans la variable latente. De cette façon, l'information est encodée dans l'action plutôt que dans la variable latente.
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure18.png" style="zoom : 40% ; background-color:#DCDCDC;" /><br>
-<b>Figure 18:</b> Performance avec dropout latent
+<b>Figure 18 :</b> Performance avec dropout latent
 </center>
 
-Sur les deux dernières images de droite, on voit deux ensembles différents de variables latentes ayant une séquence réelle d'actions et ces réseaux ont été entraînés avec l'astuce du dropout latent. Nous pouvons maintenant voir que la rotation est maintenant codée par l'action et non plus par les variables latentes.
+Sur les deux dernières images de droite, on voit deux ensembles différents de variables latentes ayant une séquence réelle d'actions et ces réseaux ont été entraînés avec l'astuce du *dropout* latent. Nous pouvons maintenant voir que la rotation est maintenant codée par l'action et non plus par les variables latentes.
 
 
 
@@ -417,14 +415,14 @@ Comme nous l'avons vu dans la section précédente, pour éviter des prédiction
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure19.png" style="zoom : 40% ; background-color:#DCDCDC;" /><br>
-<b>Figure 19:</b> Architecture du modèle spécifique à la tâche
+<b>Figure 19 :</b> Architecture du modèle spécifique à la tâche
 </center>
 
-Notre modèle est donc prêt.  Voyons voir de quoi il a l'air !
+Notre modèle est prêt, voyons de quoi il a l'air.
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure20.png" style="zoom : 40% ; background-color:#DCDCDC;" /><br>
-<b>Figure 20:</b> Politique apprise : L'agent entre en collision ou s'éloigne de la route
+<b>Figure 20 :</b> Politique apprise : l'agent entre en collision ou s'éloigne de la route
 </center>
 
 Malheureusement, cela ne fonctionne pas. La politique entraînée de cette façon n'est pas utile car elle apprend à prédire tout le noir puisqu'il en résulte un coût nul.
@@ -460,6 +458,7 @@ Did we just train the Variational Autoencoder to remove it in the end?
 
 It turns out we can still improve if we look to minimize the uncertainty of the forward model predictions.
 -->
+
 ## Imiter l'expert
 
 Comment imiter les experts ici ? Nous voulons que la prévision de notre modèle après une action particulière d'un état soit aussi proche que possible de l'avenir réel. Cela permet de régulariser les experts pour notre entraînement. Notre fonction de coût comprend maintenant à la fois le coût spécifique de la tâche (coût de proximité et coût de la voie) et ce terme d'expert régularisateur. Maintenant que nous calculons également la perte par rapport à l'avenir réel, nous devons supprimer la variable latente du modèle parce qu'elle nous donne une prédiction spécifique, mais ce paramètre fonctionne mieux si nous travaillons uniquement avec la prédiction moyenne.
@@ -470,14 +469,14 @@ $$
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure21.png" style="zoom : 40% ; background-color:#DCDCDC;" /><br>
-<b>Figure 21:</b> Architecture de modèle basée sur la régularisation experte
+<b>Figure 21 :</b> Architecture de modèle basée sur la régularisation experte
 </center>
 
-Alors, comment ce modèle fonctionne-t-il ?
+Comment ce modèle fonctionne-t-il ?
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure22.png" style="zoom : 40% ; background-color:#DCDCDC;" /><br>
-<b>Figure 22:</b> Politique apprise en imitant les experts
+<b>Figure 22 :</b> Politique apprise en imitant les experts
 </center>
 
 Comme nous pouvons le voir dans la figure ci-dessus, le modèle fonctionne en fait incroyablement bien et apprend à faire de très bonnes prévisions. C'était un apprentissage par imitation basé sur le modèle, nous avons essayé de modeler notre agent pour essayer d'imiter les autres.
@@ -530,12 +529,12 @@ Si nous entraînons plusieurs modèles sur les mêmes données, tous ces modèle
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure23.png" style="zoom : 50% ; background-color:#DCDCDC;" /><br>
-<b>Figure 23:</b> Visualisation des coûts sur l'ensemble de l'espace d'entrée
+<b>Figure 23 :</b> Visualisation des coûts sur l'ensemble de l'espace d'entrée
 </center>
 
 Pour en revenir à notre discussion, nous constatons que l'apprentissage d'une politique à l'aide de données d'observation uniquement est difficile car la distribution des états qu'elle produit au moment de l'exécution peut différer de ce qui a été observé pendant la phase d'entraînement. Le modèle du monde peut faire des prédictions arbitraires en dehors du domaine sur lequel il a été entraîné, ce qui peut entraîner des coûts peu élevés. Le réseau politique peut alors exploiter ces erreurs dans le modèle dynamique et produire des actions qui conduisent à des états faussement optimistes.
 
-Pour y remédier, nous proposons un coût supplémentaire qui mesure l'incertitude du modèle dynamique sur ses propres prédictions. Ce coût peut être calculé en faisant passer la même entrée et la même action par plusieurs masques de dropout différents, et en calculant la variance entre les différentes sorties. Cela encourage le réseau politique à ne produire que des actions pour lesquelles le modèle de prospective est confiant.
+Pour y remédier, nous proposons un coût supplémentaire qui mesure l'incertitude du modèle dynamique sur ses propres prédictions. Ce coût peut être calculé en faisant passer la même entrée et la même action par plusieurs masques de *dropout* différents, et en calculant la variance entre les différentes sorties. Cela encourage le réseau politique à ne produire que des actions pour lesquelles le modèle de prospective est confiant.
 
 $$
 \mathcal{L} = c_\text{task} + \lambda c_\text{uncertainty}
@@ -543,16 +542,15 @@ $$
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure24.png" style="zoom : 40% ; background-color:#DCDCDC;" /><br>
-<b>Figure 24:</b> Architecture de modèle basée sur la régularisation de l'incertitude
+<b>Figure 24 :</b> Architecture de modèle basée sur la régularisation de l'incertitude
 </center>
 
 Alors, la régularisation de l'incertitude nous aide-t-elle à apprendre une meilleure politique ?
-
-Oui, il le fait. La politique ainsi apprise est meilleure que les modèles précédents.
+Oui. La politique ainsi apprise est meilleure que les modèles précédents.
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure25.png" style="zoom : 40% ; background-color:#DCDCDC;" /><br>
-<b>Figure 25:</b> Politique apprise basée sur la régularisation de l'incertitude
+<b>Figure 25 :</b> Politique apprise basée sur la régularisation de l'incertitude
 </center>
 
 <!--
@@ -568,10 +566,10 @@ Figure 26 shows how well our agent learned to drive in dense traffic.  Yellow ca
 
 ## Évaluation
 
-La figure 26 montre à quel point notre agent a appris à conduire dans un trafic dense.  La voiture jaune est le conducteur d'origine, la voiture bleue est notre agent appris et toutes les voitures vertes sont aveugles pour nous (ne peuvent être contrôlées).
+La figure 26 montre à quel point notre agent a appris à conduire dans un trafic dense. La voiture jaune est le conducteur d'origine, la voiture bleue est notre agent appris et toutes les voitures vertes sont aveugles pour nous (ne peuvent être contrôlées).
 
 <center>
 <img src="{{site.baseurl}}/images/week11/11-3/figure26.gif" style="zoom : 60% ; background-color:#DCDCDC;" /><br>
-<b>Figure 26:</b> Performance du modèle avec régularisation de l'incertitude
+<b>Figure 26 :</b> Performance du modèle avec régularisation de l'incertitude
 </center>
 
diff --git a/docs/fr/week11/11.md b/docs/fr/week11/11.md
index 5997838cb..e963ee509 100644
--- a/docs/fr/week11/11.md
+++ b/docs/fr/week11/11.md
@@ -13,9 +13,9 @@ In this section, we discussed about the common activation functions in Pytorch.
 -->
 
 
-## Conférence partie A
+## Cours magistral partie A
 
-Dans cette section, nous discutons des fonctions d'activation communes à Pytorch. En particulier, nous comparons les activations avec coude(s) par rapport aux activations lisses. La première est préférée dans un réseau neuronal profond car la seconde pourrait souffrir d'un problème de disparition du gradient. Nous découvrons ensuite les fonctions de perte communes à Pytorch.
+Dans cette section, nous discutons des fonctions d'activation communes dans PyTorch. En particulier, nous comparons les activations avec coude(s) par rapport aux activations lisses. La première est préférée dans un réseau neuronal profond car la seconde pourrait souffrir d'un problème de disparition du gradient. Nous découvrons ensuite les fonctions de perte communes dans PyTorch.
 
 
 <!--
@@ -25,9 +25,9 @@ Dans cette section, nous discutons des fonctions d'activation communes à Pytorc
 In this section, we continued to learn about loss functions - in particular, margin-based losses and their applications. We then discussed how to design a good loss function for EBMs as well as examples of well-known EBM loss functions. We gave particular attention to margin-based loss function here, as well as explaining the idea of "most offending incorrect answer.
 -->
 
-## Conférence partie B
+## Cours magistral partie B
 
-Dans cette section, nous continuons de nous informer sur les fonctions de perte - en particulier, les pertes basées sur la marge et leurs applications. Nous discutons ensuite de la manière de concevoir une bonne fonction de perte pour les EBMs ainsi que des exemples de fonctions de perte bien connues des EBMs. Nous accordons une attention particulière à la fonction de perte basée sur la marge, tout en expliquant l'idée de "réponse incorrecte la plus offensante".
+Dans cette section, nous continuons de nous informer sur les fonctions de perte en particulier les pertes basées sur une marge et leurs applications. Nous discutons ensuite de la manière de concevoir une bonne fonction de perte pour les EBMs ainsi que des exemples de fonctions de perte bien connues des EBMs. Nous accordons une attention particulière à la fonction de perte basée sur une marge, tout en expliquant l'idée de réponse incorrecte la plus offensante.
 
 <!--
 ## Practicum
@@ -36,9 +36,6 @@ Dans cette section, nous continuons de nous informer sur les fonctions de perte
 This practicum proposed effective policy learning for driving in dense traffic. We trained multiple policies by unrolling a learned model of the real world dynamics by optimizing different cost functions. The idea is to minimize the uncertainty in the model's prediction by introducing a cost term that represents the model's divergence from the states it is trained on. 
 -->
 
-## Pratique
-Nous proposons un apprentissage efficace pour la conduite dans un trafic dense. Nous entraînons de multiples politiques en déroulant un modèle appris de la dynamique du monde réel en optimisant différentes fonctions de coût. L'idée est de minimiser l'incertitude dans les prévisions du modèle en introduisant un terme de coût qui représente la divergence du modèle par rapport aux états sur lesquels il est entraîné.
-
-
-
+## Travaux dirigés
+Nous proposons un apprentissage efficace pour la conduite dans un trafic dense. Nous entraînons de multiples politiques en déroulant un modèle appris de la dynamique du monde réel en optimisant différentes fonctions de coût. L'idée est de minimiser l'incertitude dans les prédictions du modèle en introduisant un terme de coût qui représente la divergence du modèle par rapport aux états sur lesquels il est entraîné.
 
diff --git a/docs/fr/week12/12-1.md b/docs/fr/week12/12-1.md
index a9a63da2f..ac8f7975b 100644
--- a/docs/fr/week12/12-1.md
+++ b/docs/fr/week12/12-1.md
@@ -1,7 +1,7 @@
 ---
 lang: fr
 lang-ref: ch.12-1
-title: Apprentissage profond pour le NLP
+title: Apprentissage profond pour le traitement du langage naturel
 lecturer: Mike Lewis
 authors: Jiayu Qiu, Yuhong Zhu, Lyuang Fu, Ian Leefmans
 date: 20 Apr 2020
@@ -20,12 +20,12 @@ translator: Loïck Bourdois
 *  Minimal specialist techniques needed per task, can achieve these things with fairly generic models
 -->
 
-## [Aperçu](https://www.youtube.com/watch?v=6D4EWKJgNn0&t=44s)
+## [Vue d'ensemble](https://www.youtube.com/watch?v=6D4EWKJgNn0&t=44s)
 
 * Progrès impressionnants au cours des dernières années :
   - Les humains préfèrent la traduction automatique aux traducteurs humains pour certaines langues
   - Des performances supérieures à l’humaine pour de nombreux ensembles de données de réponse aux questions
-  - Les modèles linguistiques génèrent des paragraphes fluides (par exemple Radford et al. 2019)
+  - Les modèles linguistiques génèrent des paragraphes fluides (par exemple [Radford et al. (2019)](https://openai.com/blog/better-language-models/))
 * Un minimum de techniques spécialisées nécessaires par tâche, peut être réalisé avec des modèles assez génériques
 
 
@@ -40,10 +40,9 @@ translator: Loïck Bourdois
 $$p(x_0,...x_n) = p(x_0)p(x_1 \mid x_0) \cdots p(x_n \mid x_{n-1})$$
 -->
 
-## Modèles linguistiques
+## Modèles de langue
 
-* Les modèles linguistiques attribuent une probabilité à un texte :
-  $p(x_0, \cdots, x_n)$
+* Les modèles linguistiques attribuent une probabilité à un texte : $p(x_0, \cdots, x_n)$
 * Beaucoup de phrases possibles donc on ne peut pas juste entraîner un classifieur
 * La méthode la plus populaire consiste à factoriser la distribution en utilisant la règle de la chaîne :
 
@@ -62,15 +61,15 @@ $$p(x_0 \mid x_{0, \cdots, n-1}) = \text{softmax}(E f(x_{0, \cdots, n-1}))$$
 </figure>
 -->
 
-## Modèles linguistiques neuronaux
+## Modèles de langue neuronaux
 
-Grossièrement, nous introduisons le texte dans un réseau de neurones, le réseau de neurones va cartographier tout ce contexte sur un vecteur. Ce vecteur représente le mot suivant et nous disposons d'une matrice d'enchâssement de mots importants. Cette matrice contient un vecteur pour chaque mot possible que le modèle peut produire. Nous calculons ensuite la similarité par le produit scalaire du vecteur de contexte et de chacun des vecteurs de mots. Nous obtiendrons une probabilité de prédire le mot suivant, puis nous entraînerons ce modèle par maximum de vraisemblance. Le détail clé ici est que nous ne traitons pas directement les mots, mais nous traitons des choses appelées sous-mots ou caractères.
+Grossièrement, nous entrons le texte dans un réseau de neurones, le réseau de neurones va associer tout ce contexte à un vecteur. Ce vecteur représente le mot suivant et nous disposons d'une matrice d'enchâssement de mots importants. Cette matrice contient un vecteur pour chaque mot possible que le modèle peut produire. Nous calculons ensuite la similarité par le produit scalaire du vecteur de contexte et de chacun des vecteurs de mots. Nous obtienenons une probabilité de prédire le mot suivant, puis nous entraînons ce modèle par maximum de vraisemblance. Le détail clé ici est que nous ne traitons pas directement les mots mais des choses des sous-mots ou des caractères.
 
 $$p(x_0 \mid x_{0, \cdots, n-1}) = \text{softmax}(E f(x_{0, \cdots, n-1}))$$
 
 <figure>
   <img src="{{site.baseurl}}/images/week12/12-1/fig1.jpg">
-  <center> Fig.1 : Modèle linguistique neuronal</center>
+  <center> <b>Figure 1 :</b> Modèle de langue neuronal</center>
 </figure>
 
 <!--
@@ -89,17 +88,16 @@ $$p(x_0 \mid x_{0, \cdots, n-1}) = \text{softmax}(E f(x_{0, \cdots, n-1}))$$
 -->
 
 
-### Modèles linguistiques convolutifs
+### Modèles de langue convolutifs
 
-* Le premier modèle linguistique neural
-* Intégrer chaque mot comme un vecteur, qui est une table de recherche de la matrice d'enchâssement, de sorte que le mot obtienne le même vecteur quel que soit le contexte dans lequel il apparaît
-* Appliquer le même réseau feed forward à chaque étape
-* Malheureusement, l'historique à durée fixe signifie qu'il ne peut être conditionné qu'à un contexte délimité
-* Ces modèles ont l'avantage d'être très rapides
+* Il s'agit du premier type de modèle linguistique neural.
+* Il consiste à enchâsser chaque mot comme un vecteur, qui est une table de recherche de la matrice d'enchâssement, de sorte que le mot obtienne le même vecteur quel que soit le contexte dans lequel il apparaît. On aoplique ensuite le même réseau *feed forward* à chaque pas de temps.
+* Malheureusement, la longueur fixe signifie qu'il ne peut être conditionné qu'à un contexte délimité
+* Ces types de modèles ont l'avantage d'être très rapides.
 
 <figure>
   <img src="{{site.baseurl}}/images/week12/12-1/fig2.jpg">
-  <center> Fig.2 : Modèle linguistique convolutif</center>
+  <center> <b>Figure 2 :</b> Modèle de langue convolutif</center>
 </figure>
 
 
@@ -120,7 +118,7 @@ $$p(x_0 \mid x_{0, \cdots, n-1}) = \text{softmax}(E f(x_{0, \cdots, n-1}))$$
 </figure>
 -->
 
-### Modèles linguistiques récurrents
+### Modèles de langue récurrents
 
 * L'approche la plus populaire jusqu'à il y a quelques années.
 * Conceptuellement simple : à chaque pas de temps, nous maintenons un certain état (reçu du pas de temps précédent, qui représente ce que nous avons lu jusqu'à présent). Ceci est combiné avec le mot courant qui est lu et utilisé à l'état ultérieur. Ensuite, nous répétons ce processus pour autant de pas de temps que nécessaire.
@@ -128,11 +126,11 @@ $$p(x_0 \mid x_{0, \cdots, n-1}) = \text{softmax}(E f(x_{0, \cdots, n-1}))$$
 * Inconvénients :
   - Toute l'histoire de la lecture du document est compressée en un vecteur de taille fixe à chaque étape temporelle, ce qui constitue le goulot d'étranglement de ce modèle
   - Les gradients ont tendance à disparaître avec des contextes longs
-  - Impossible à mettre en parallèle avec les étapes du temps, donc entraînement lent
+  - Impossible àde paralléliser les étapes temporelles donc l'entraînement est lent
 
 <figure>
   <img src="{{site.baseurl}}/images/week12/12-1/fig3.jpg">
-  <center> Fig.3 : Modèle linguistique récurrent</center>
+  <center> <b>Figure 3 :</b> Modèle de langue récurrent</center>
 </figure>
 
 <!--
@@ -161,26 +159,27 @@ Sub-layers are connected by the boxes labelled "Add&Norm". The "Add" part means
 It should be noted that transformers share weights across time-steps.
 -->
 
-### [Modèles linguistique basé sur un transformer](https://www.youtube.com/watch?v=6D4EWKJgNn0&t=828s)
+### [Modèles d elangue basé sur un transformer](https://www.youtube.com/watch?v=6D4EWKJgNn0&t=828s)
 
-* Modèle le plus récent utilisé en NLP
-* Pénalité révolutionnaire
-* Trois grandes étapes
+* Modèle le plus récent utilisé en traitement du langage naturel.
+* Pénalité révolutionnaire.
+* Trois grandes étapes :
     * Étape d'entrée
     * $n$ fois les blocs de transformer (couches d'encodage) avec différents paramètres
     * Etape de sortie
-* Exemple avec 6 modules de transformer (couches d'encodage) dans le papier original introduisant le transformer:
+    * 
+* Exemple avec 6 modules de transformer (couches d'encodage) dans le papier introduisant le transformer :
 
 <figure>
   <img src="{{site.baseurl}}/images/week12/12-1/fig4.jpg">
-  <center> Fig.4:Modèle linguistique de type transformer </center>
+  <center> <b> Figure 4 :</b> Modèle de langue de type transformer </center>
 </figure>
 
-Les sous-couches sont reliées par les cases intitulées "Add&Norm". La partie "Add" signifie qu'il s'agit d'une connexion résiduelle, qui contribue à empêcher la disparition du gradient. La norme désigne ici la normalisation des couches.
+Les sous-couches sont reliées par les cases intitulées *Add&Norm*. La partie *Add* signifie qu'il s'agit d'une connexion résiduelle, qui contribue à empêcher la disparition du gradient. La partie *Norm* désigne ici la normalisation des couches.
 
 <figure>
   <img src="{{site.baseurl}}/images/week12/12-1/fig5.jpg">
-  <center> Fig.5 : Couche de codage </center>
+  <center> <b> Figure 5 :</b> Couche encodeur </center>
 </figure>
 
 Il convient de noter que les transformers partagent les poids entre les étapes du temps.
@@ -224,11 +223,11 @@ One detail to make the transformer language model work is to add the positional
 -->
 
 
-# Attention à plusieurs têtes
+# Attention multi-têtes
 
 <figure>
 <img src="{{site.baseurl}}/images/week12/12-1/fig6.png">
-<center> Fig.6 : Attention multi-têtes </center>
+<center> <b> Figure 6 :</b> Attention multi-têtes </center>
 </figure>
 
 
@@ -242,29 +241,29 @@ Une fois que nous avons les valeurs (v), nous calculons les états cachés en ma
 
  $$h_i = \sum_{i}{p_i v_i}$$
 
-Nous calculons la même chose avec différentes requêtes, valeurs et clés plusieurs fois en parallèle. La raison en est que nous voulons prédire le mot suivant en utilisant différentes choses. Par exemple, lorsque nous prédisons le mot "licornes" en utilisant les trois mots précédents "Celles-ci", "cornues" et "blanc argenté". Nous savons que c'est une licorne par "cornu" "blanc argenté". Cependant, nous pouvons savoir qu'il s'agit du pluriel "licornes" par "Celles-ci". Par conséquent, nous voulons probablement utiliser ces trois mots pour savoir quel sera le prochain mot. L'attention à plusieurs têtes est une façon de laisser chaque mot regarder plusieurs mots précédents.
+Nous calculons la même chose avec différentes requêtes, valeurs et clés plusieurs fois en parallèle. La raison en est que nous voulons prédire le mot suivant en utilisant différentes choses. Par exemple, lorsque nous prédisons le mot « licornes » en utilisant les trois mots précédents « Celles-ci », « cornues » et « blanc argenté ». Nous savons que c'est une licorne par « cornue » et « blanc argenté » . Cependant, nous pouvons savoir qu'il s'agit du pluriel « licornes » par « Celles-ci » . Par conséquent, nous voulons probablement utiliser ces trois mots pour savoir quel sera le prochain mot. L'attention à plusieurs têtes est une façon de laisser chaque mot regarder plusieurs mots précédents.
 
-Un grand avantage de l'attention multi-têtes est qu'elle est très parallélisable. Contrairement aux RNN, le calcul de toutes les têtes des modules d'attention multi-têtes et toutes les étapes de temps peut se faire en même temps. Un des problèmes du calcul de tous les pas de temps en une fois est qu'il pourrait également examiner les mots futurs, alors que nous ne voulons que conditionner les mots précédents. Une solution à ce problème est ce que l'on appelle le **masquage de l'auto-attention**. Le masque est une matrice triangulaire supérieure qui comporte des zéros dans le triangle inférieur et une infinité négative dans le triangle supérieur. L'effet de l'ajout de ce masque à la sortie du module d'attention est que chaque mot à gauche a un score d'attention beaucoup plus élevé que les mots à droite, de sorte que le modèle en pratique se concenter uniquement sur les mots précédents. L'application du masque est cruciale dans le modèle linguistique car elle le rend mathématiquement correct, cependant, dans les encodeurs de texte, le contexte bidirectionnel peut être utile.
+Un grand avantage de l'attention multi-têtes est qu'elle est très parallélisable. Contrairement aux RNNs, le calcul de toutes les têtes des modules d'attention multi-têtes et toutes les étapes de temps peut se faire en même temps. Un des problèmes du calcul de tous les pas de temps en une fois est qu'il pourrait également examiner les mots futurs, alors que nous ne voulons que conditionner les mots précédents. Une solution à ce problème est ce que l'on appelle le **masquage de l'auto-attention**. Le masque est une matrice triangulaire supérieure qui comporte des zéros dans le triangle inférieur et une infinité négative dans le triangle supérieur. L'effet de l'ajout de ce masque à la sortie du module d'attention est que chaque mot à gauche a un score d'attention beaucoup plus élevé que les mots à droite, de sorte que le modèle en pratique se concenter uniquement sur les mots précédents. L'application du masque est cruciale dans le modèle linguistique car elle le rend mathématiquement correct, cependant, dans les encodeurs de texte, le contexte bidirectionnel peut être utile.
 
 Un détail pour faire fonctionner le transformer est d'ajouter l'enchâssement positionnel à l'entrée (l’ordre des mots dans un texte). Dans le langage, certaines propriétés comme l'ordre sont importantes à interpréter. La technique utilisée ici est l'apprentissage d’enchâssements séparés à différents moments et l'ajout de celles-ci à l'entrée, de sorte que l'entrée est maintenant la somme du vecteur mot et du vecteur positionnel. Cela donne des informations sur l'ordre.
 
 <figure>
 <img src="{{site.baseurl}}/images/week12/12-1/fig7.png">
-<center> Fig.7 : Architecture du transformer </center>
+  <center> <b>Figure 7 :</b> Architecture du transformer </center>
 </figure>
 
-**Pourquoi le modèle est si bon:**
+**Pourquoi le modèle est si bon :**
 
-1. Il donne des liens directs entre chaque paire de mots. Chaque mot peut accéder directement aux états cachés des mots précédents, ce qui atténue la disparition des gradients. Il apprend très facilement une fonction très coûteuse
-2. Toutes les étapes du temps sont calculées en parallèle
-3. L'auto-attention est quadratique (tous les pas de temps peuvent s'occuper de tous les autres), ce qui limite la longueur maximale des sequences
+1. Il donne des liens directs entre chaque paire de mots. Chaque mot peut accéder directement aux états cachés des mots précédents, ce qui atténue la disparition des gradients. Il apprend très facilement une fonction très coûteuse.
+2. Toutes les étapes du temps sont calculées en parallèle.
+3. L'auto-attention est quadratique (tous les pas de temps peuvent s'occuper de tous les autres), ce qui limite la longueur maximale des sequences.
 
 
 <!--
 ## [Some tricks (especially for multi-head attention and positional encoding) and decoding Language Models](https://www.youtube.com/watch?v=6D4EWKJgNn0&t=1975s)
 -->
 
-## [Quelques astuces (notamment pour l'attention multi-tête et le codage positionnel) et le décodage des modèles linguistiques](https://www.youtube.com/watch?v=6D4EWKJgNn0&t=1975s)
+## [Quelques astuces (notamment pour l'attention multi-tête et le codage positionnel) et le décodage des modèles de langue](https://www.youtube.com/watch?v=6D4EWKJgNn0&t=1975s)
 
 <!--
 ### Trick 1: Extensive use of layer normalization to stabilize training is really helpful
@@ -272,7 +271,7 @@ Un détail pour faire fonctionner le transformer est d'ajouter l'enchâssement p
 - Really important for transformers
 -->
 
-### Astuce 1 : L'utilisation extensive de la normalisation des couches pour stabiliser l'entraînement
+### Astuce 1 : l'utilisation de la normalisation des couches pour stabiliser l'entraînement
 
 -	Astuce très importante pour les transformers
 
@@ -281,9 +280,9 @@ Un détail pour faire fonctionner le transformer est d'ajouter l'enchâssement p
 
 - Make use of learning rate schedule: in order to make the transformers work well, you have to make your learning rate decay linearly from zero to thousandth steps.
 -->
-### Astuce 2 : Échauffement (Warm-up) + grille d'entraînement de la racine carrée inversée
+### Astuce 2 : échauffement (*warm-up*) et grille d'entraînement utilisant la racine carrée inverse
 
-- Utilisez une grille de taux d'apprentissage : pour que les transformers fonctionnent bien, vous devez faire décroître votre taux d'apprentissage de façon linéaire de zéro à des millièmes de pas.
+- Utilisez une grille de taux d'apprentissage fonctionnent bien pour que les transformers. Vous devez faire décroître votre taux d'apprentissage de façon linéaire de zéro à des millièmes de pas.
 
 <!--
 ### Trick 3: Careful initialization
@@ -291,7 +290,7 @@ Un détail pour faire fonctionner le transformer est d'ajouter l'enchâssement p
 - Really helpful for a task like machine translation
 -->
 
-### Truc 3 : Soigner l’initialisation 
+### Truc 3 : soigner l’initialisation 
 
 - Vraiment utile pour une tâche comme la traduction automatique
 
@@ -310,15 +309,15 @@ The following are the results from some methods mentioned above. In these tests,
 You could see that when transformers were introduced, the performance was greatly improved.
 -->
 
-### Astuce 4 : Lissage 
+### Astuce 4 : lissage 
 
 - Vraiment utile pour une tâche comme la traduction automatique
 
-Voici les résultats de certaines méthodes mentionnées ci-dessus. Dans ces tests, la métrique de droite appelée `ppl` était la perplexité (plus le `ppl` est bas, mieux c'est).
+Voici les résultats de certaines méthodes mentionnées ci-dessus. Dans ces tests, la métrique de droite appelée `ppl` était la perplexité (plus la `ppl` est basse, mieux c'est).
 
 <figure>
 <img src="{{site.baseurl}}/images/week12/12-1/fig8.png">
-<center> Fig.8 : Comparaison des performances des modèles </center>
+  <center> <b>Figure 8 :</b> Comparaison des performances des modèles </center>
 </figure>
 
 Vous avez pu constater que lorsque les transformers ont été introduits, la performance a été grandement améliorée.
@@ -345,16 +344,14 @@ Self attention is quadratic (all time-steps can attend to all others), limiting
 
  - Biais inductif minime
  - Tous les mots sont directement liés, ce qui atténue la disparition des gradients
- - Tous les pas de temps calculés en parallèle
-
+ - Tous les pas de temps sont calculés en parallèle
 
-L'auto-attention est quadratique (tous les pas de temps peuvent s'occuper de tous les autres), ce qui limite la longueur maximale de la séquence.
 
-- Comme l'auto-attention est quadratique, sa dépense augmente linéairement dans la pratique, ce qui pourrait poser un problème.
+L'auto-attention est quadratique (tous les pas de temps peuvent s'occuper de tous les autres), ce qui limite la longueur maximale de la séquence. La nature quadratique entraîne aussi que la dépense augmente linéairement ce qui pourrait poser un problème en pratique.
 
 <figure>
 <img src="{{site.baseurl}}/images/week12/12-1/fig9.png">
-<center> Fig.9 : Transformateurs *vs.* RNNs </center>
+<center> <b>Figure 9 :</b> Transformateurs vs RNNs </center>
 </figure>
 
 <!--
@@ -365,11 +362,11 @@ L'auto-attention est quadratique (tous les pas de temps peuvent s'occuper de tou
 3. Recent models use up to 17B parameters and in 2020
 -->
 
-### Les transformers s'adaptent très bien
+### Les transformers passent à l'échelle très bien
 
-1. Des données illimitées sur l'entraînement, bien plus que ce dont vous avez besoin
-2. Le GPT 2 a utilisé 2 milliards de paramètres en 2019
-3. Les modèles récents utilisent plusieurs milliards de paramètres : 17Mds pour le T5, 175Mds pour le GPT3.
+1. Des données illimitées pour l'entraînement (n'importe quel texte sur internet), bien plus que ce dont vous avez besoin.
+2. Le GPT-2 a utilisé 2 milliards de paramètres en 2019.
+3. Les modèles récents (lors de ce cours en 2020) utilisent plusieurs milliards de paramètres : 17Mds pour le T5, 175Mds pour le GPT3.
 
 <!--
 ## Decoding Language Models
@@ -378,10 +375,13 @@ We can now train a probability distribution over text - now essentially we could
 Thus, given that, the greedy decoding was introduced as follows.
 -->
 
-## Décodage des modèles linguistiques
+## Décodage des modèles de langue
+
+Cette section est détaillée netemment plus en détaille dans la partie 2 de la semaine 12 disponible [ici](https://atcold.github.io/pytorch-Deep-Learning/fr/week12/12-2/).  
+
 
-Nous pouvons maintenant entraîner une distribution de probabilité sur le texte. Grossièrement, nous pourrions obtenir un nombre exponentiel de sorties possibles, donc nous ne pouvons pas calculer le maximum. Le choix que vous ferez pour votre premier mot pourrait avoir une incidence sur toutes les autres décisions.
-Ainsi, étant donné cela, le décodage gourmand (greedy decoding) a été introduit comme suit.
+Nous pouvons maintenant entraîner une distribution de probabilité sur le texte. Grossièrement, nous pouvons obtenir un nombre exponentiel de sorties possibles donc nous ne pouvons pas calculer le maximum. Le choix effectué pour votre premier mot peut avoir une incidence sur toutes les autres décisions.
+Ainsi, étant donné cela, le décodage gourmand (*greedy decoding*) a été introduit comme suit.
 
 <!--
 ### Greedy Decoding does not work
@@ -391,7 +391,7 @@ We take most likely word at each time step. However, no guarantee this gives mos
 
 ### Le décodage gourmand ne fonctionne pas
 
-Nous prenons les mots les plus vraisemblables à chaque pas de temps. Cependant, rien ne garantit que cela donne la séquence la plus probable, car si vous devez franchir cette étape à un moment donné, vous n'avez aucun moyen de revenir en arrière pour annuler les sessions précédentes.
+Nous prenons les mots les plus vraisemblables à chaque pas de temps. Cependant, rien ne garantit que cela donne la séquence la plus probable car si vous devez franchir cette étape à un moment donné, vous n'avez aucun moyen de revenir en arrière pour annuler les sessions précédentes.
 
 <!--
 ### Exhaustive search also not possible
@@ -420,13 +420,13 @@ Il faut calculer toutes les séquences possibles et en raison de la complexité
     * The multi-headed attention modules in transformers are highly parallelisable whereas RNNs are not and therefore cannot take advantage of GPU technology. In fact transformers compute all time steps at once in single forward pass.
 -->
 
-## Questions / réponses 
-1. Quel est l'avantage d'un modèle d'attention à plusieurs têtes par rapport à un modèle d'attention à une seule tête ?
-    * Pour prédire le mot suivant, vous devez observer plusieurs choses séparées, en d'autres termes, l'attention peut être portée sur plusieurs mots précédents en essayant de comprendre le contexte nécessaire pour prédire le mot suivant.
+## Questions des étuidants
+**Quel est l'avantage d'un modèle d'attention à plusieurs têtes par rapport à un modèle d'attention à une seule tête ?**
+> Pour prédire le mot suivant, vous devez observer plusieurs choses séparées, en d'autres termes, l'attention peut être portée sur plusieurs mots précédents en essayant de comprendre le contexte nécessaire pour prédire le mot suivant.
 
-2. Comment les transformers résolvent-ils les goulots d'étranglement informationnels des ConvNets et des RNN ?
-    * Les modèles d'attention permettent une connexion directe entre tous les mots, ce qui permet de conditionner chaque mot à tous les mots précédents, éliminant ainsi efficacement ce goulot d'étranglement.
+**Comment les transformers résolvent-ils les goulots d'étranglement informationnels des ConvNets et des RNNs ?**
+> Les modèles d'attention permettent une connexion directe entre tous les mots, ce qui permet de conditionner chaque mot à tous les mots précédents, éliminant ainsi efficacement ce goulot d'étranglement.
 
-3. En quoi les transformers diffèrent-ils des RNN dans la manière dont ils exploitent la parallélisation des GPU ?
-    * Les modules d'attention multi-têtes des transformers sont hautement parallélisables alors que les RNN ne le sont pas et ne peuvent donc pas tirer profit de la technologie GPU. En fait, les transformers calculent tous les pas de temps en une seule passe vers l'avant.
+**En quoi les transformers diffèrent-ils des RNNs dans la manière dont ils exploitent la parallélisation des GPUs ?**
+> Les modules d'attention multi-têtes des transformers sont hautement parallélisables alors que les RNNs ne le sont pas et ne peuvent donc pas tirer profit de la technologie GPU. En fait, les transformers calculent tous les pas de temps en une seule passe vers l'avant.
 
diff --git a/docs/fr/week12/12-2.md b/docs/fr/week12/12-2.md
index 59c78462c..ab6ecfbbe 100644
--- a/docs/fr/week12/12-2.md
+++ b/docs/fr/week12/12-2.md
@@ -1,7 +1,7 @@
 ---
 lang: fr
 lang-ref: ch.12-2
-title: Décoder les modèles linguistiques
+title: Décoder les modèles de langue
 lecturer: Mike Lewis
 authors: Trevor Mitchell, Andrii Dobroshynskyi, Shreyas Chandrakaladharan, Ben Wolfson
 date: 20 Apr 2020
@@ -33,24 +33,25 @@ At training time, the algorithm often does not use a beam, because it is very ex
 Summary: Continue beam search until all $k$ hypotheses produce end token or until the maximum decoding limit T is reached.
 -->
 
-## [Recherche par faisceau](https://www.youtube.com/watch?v=6D4EWKJgNn0&t=2732s)
+## [Recherche en faisceau](https://www.youtube.com/watch?v=6D4EWKJgNn0&t=2732s)
 
-La recherche par faisceau est une autre technique pour décoder un modèle de langue et produire du texte. À chaque étape, l'algorithme garde une trace des $k$ plus probables (meilleures) traductions partielles (hypothèses). Le score de chaque hypothèse est égal à son logarithme de probabilité.
+La recherche en faisceau est une autre technique pour décoder un modèle de langue et produire du texte. À chaque étape, l'algorithme garde une trace des $k$ plus probables (meilleures) traductions partielles (hypothèses). Le score de chaque hypothèse est égal à son logarithme de probabilité.
 
-L'algorithme sélectionne la meilleure hypothèse de notation.
+L'algorithme sélectionne la meilleure hypothèse basée sur un score.
 
 <center>
 <img src="{{site.baseurl}}/images/week12/12-2/Beam_Decoding.png" width="60%"/><br>
-<b>Fig. 1</b> : Décodage par faisceau
+<b>Figure 1 : </b> : Décodage en faisceau
 </center>
 
-A quelle profondeur l'arbre des faisceaux se ramifie-t-il ?
+
+**A quelle profondeur l'arbre des faisceaux se ramifie-t-il ?**
 
 L'arbre des faisceaux continue jusqu'à ce qu'il atteigne le token de fin de phrase. Une fois le token de fin de phrase émis, l'hypothèse est terminée.
 
-Pourquoi les très grandes tailles de faisceau entraînent-elles souvent des traductions vides ?
+**Pourquoi les très grandes tailles de faisceau entraînent-elles souvent des traductions vides ?**
 
-Au moment de l'entraînement, l'algorithme n'utilise souvent pas de faisceau, car c’est très coûteux. Il utilise plutôt la factorisation auto-régressive (en fonction des sorties correctes précédentes, prédire les premiers mots $n+1$). Le modèle n'est pas exposé à ses propres erreurs pendant l'entraînement, il est donc possible que des "absurdités" apparaissent dans le faisceau.
+Au moment de l'entraînement, l'algorithme n'utilise souvent pas de faisceau, car c’est très coûteux. Il utilise plutôt la factorisation auto-régressive (en fonction des sorties correctes précédentes, prédire les premiers mots $n+1$). Le modèle n'est pas exposé à ses propres erreurs pendant l'entraînement, il est donc possible que des absurdités apparaissent dans le faisceau.
 
 Résumé : continuer la recherche de faisceau jusqu'à ce que toutes les hypothèses $k$ produisent un token de fin ou jusqu'à ce que la limite maximale de décodage T soit atteinte.
 
@@ -67,7 +68,7 @@ However, sampling from the model distribution poses its own problem. Once a "bad
 
 Nous ne voulons peut-être pas la séquence la plus probable. Nous pouvons plutôt prélever un échantillon à partir de la distribution du modèle.
 
-Cependant, l'échantillonnage à partir de la distribution du modèle pose son propre problème. Une fois qu'un "mauvais" choix est échantillonné, le modèle se trouve dans un état auquel il n'a jamais été confronté pendant l’entraînement, ce qui augmente la probabilité qu'une "mauvaise" évaluation continue. L'algorithme peut donc se retrouver coincé dans d'horribles boucles de rétroaction.
+Cependant, l'échantillonnage à partir de la distribution du modèle pose son propre problème. Une fois qu'un mauvais choix est échantillonné, le modèle se trouve dans un état auquel il n'a jamais été confronté pendant l’entraînement, ce qui augmente la probabilité qu'une mauvaise évaluation continue. L'algorithme peut donc se retrouver coincé dans d'horribles boucles de rétroaction.
 
 
 <!--
@@ -82,16 +83,16 @@ A pure sampling technique where you truncate the distribution to the $k$ best an
 -->
 
 
-<!--
-### Top-K Sampling
+
+### Echantillonage top-k
 
 Une technique d'échantillonnage où l'on tronque la distribution au meilleur $k$, puis on la renormalise et on prélève un échantillon de la distribution.
 
 <center>
 <img src="{{site.baseurl}}/images/week12/12-2/Top_K_Sampling.png" width="60%"/><br>
-<b>Fig. 2</b>: Top K Sampling
+<b>Figure 2 :</b> Echantillonage top-k
 </center>
--->
+
 
 
 <!--
@@ -100,7 +101,7 @@ Une technique d'échantillonnage où l'on tronque la distribution au meilleur $k
 This technique works well because it essentially tries to prevent falling off of the manifold of good language when we sample something bad by only using the head of the distribution and chopping off the tail.
 -->
 
-#### Question : Pourquoi l'échantillonnage Top-K fonctionne-t-il si bien ?
+#### Question : Pourquoi l'échantillonnage top-k fonctionne-t-il si bien ?
 
 Cette technique fonctionne bien parce qu'en utilisant seulement la tête de la distribution et en coupant la queue, elle essaie essentiellement d'éviter de tomber dans la multitude des bonnes langues lorsque nous échantillonnons quelque chose de mauvais.
 
@@ -133,12 +134,11 @@ Examples:
 - Given a question, generate the answer
 -->
 
-### Modèles linguistiques conditionnels
+### Modèles de langue conditionnels
 
 Les modèles linguistiques conditionnels ne sont pas utiles pour générer des échantillons d'anglais aléatoires, mais ils sont utiles pour générer un texte à partir d'une entrée.
 
 Exemples :
-
 - A partir d'une phrase française, générer la traduction anglaise
 - A partir d'un document, générer un résumé
 - Après un dialogue, générer la réponse suivante
@@ -159,11 +159,11 @@ Generally, the input text is encoded. This resulting embedding is known as a "th
 
 ### Modèles de séquence à séquence
 
-En général, le texte d'entrée est encodé. L’enchâssement résultant est connu sous le nom de "vecteur de pensée", qui est ensuite transmis au décodeur pour générer des tokens mot par mot.
+En général, le texte d'entrée est encodé. L’enchâssement résultant est connu sous le nom de « vecteur de pensée », qui est ensuite transmis au décodeur pour générer des tokens mot par mot.
 
 <center>
 <img src="{{site.baseurl}}/images/week12/12-2/s2s_Models.png" width="60%"/><br>
-<b>Fig. 3</b> : Vecteur de pensée
+<b>Figure 3 :</b> Vecteur de pensée
 </center>
 
 <!--
@@ -187,16 +187,16 @@ Every token in the output has direct connection to every previous token in the o
 
 La variation de séquence à séquence des Transformers a 2 piles :
 
-1. Pile d'encodeurs : L'auto-attention n'est pas masquée, de sorte que chaque token de l'entrée peut regarder tous les autres tokens de l'entrée
+1. Pile d'encodeurs : l'auto-attention n'est pas masquée, de sorte que chaque jeton de l'entrée peut regarder tous les autres jetons de l'entrée
 
-2. Pile de décodeurs : En plus d'utiliser l'auto-attention, l’attention est également appliquée sur toutes les entrées 
+2. Pile de décodeurs : en plus d'utiliser l'auto-attention, l’attention est également appliquée sur toutes les entrées 
 
 <center>
 <img src="{{site.baseurl}}/images/week12/12-2/s2s_transformers.png" width="60%"/><br>
-<b>Fig. 4</b> : Séquence à séquence du Transformer
+<b>Figure 4 :</b> Transformer séquence à séquence
 </center>
 
-Chaque token de la sortie a un lien direct avec chaque token précédent de la sortie, ainsi qu'avec chaque mot de l'entrée. Ces connexions rendent les modèles très expressifs et puissants. Les transformers ont permis d'améliorer le score de traduction par rapport aux modèles convolutifs et récurrents précédents.
+Chaque jeton de la sortie a un lien direct avec chaque jeton précédent de la sortie, ainsi qu'avec chaque mot de l'entrée. Ces connexions rendent les modèles très expressifs et puissants. Les transformers ont permis d'améliorer le score de traduction par rapport aux modèles convolutifs et récurrents précédents.
 
 
 <!--
@@ -207,7 +207,7 @@ When training these models, we typically rely on large amounts of labelled text.
 
 ## [Rétro-traduction](https://www.youtube.com/watch?v=6D4EWKJgNn0&t=3811s)
 
-Lorsque nous entraînons ces modèles, nous nous appuyons généralement sur de grandes quantités de texte labellisé. Une bonne source de données provient des procédures du Parlement européen - le texte est traduit manuellement dans différentes langues que nous pouvons ensuite utiliser comme entrées et sorties du modèle.
+Lorsque nous entraînons ces modèles, nous nous appuyons généralement sur de grandes quantités de texte labellisé. Une bonne source de données provient des procédures du Parlement européen où le texte est traduit manuellement dans différentes langues que nous pouvons ensuite utiliser comme entrées et sorties du modèle.
 
 <!--
 ### Issues
@@ -229,19 +229,16 @@ Finally, train the German to English model using the German words that have been
 ### Problèmes
 
 - Toutes les langues ne sont pas représentées au Parlement européen, ce qui signifie que nous n'obtiendrons pas de paire de traduction pour toutes les langues qui pourraient nous intéresser. Comment trouver un texte à entraîner dans une langue pour laquelle nous ne pouvons pas nécessairement obtenir les données ?
-- Puisque des modèles comme les transformers fonctionnent beaucoup mieux avec plus de données, comment utiliser efficacement un texte monolingue, c'est-à-dire sans paires d'entrée/sortie ?
 
-Supposons que nous voulions entraîner un modèle à traduire l'allemand en anglais. L'idée de la rétro-traduction est d'entraîner d'abord un modèle inverse de l'anglais vers l'allemand
+- Puisque des modèles comme les transformers fonctionnent beaucoup mieux avec plus de données, comment utiliser efficacement un texte monolingue, c'est-à-dire sans paires d'entrée/sortie ?
 
-- En utilisant quelques bi-textes limités, nous pouvons acquérir les mêmes phrases dans 2 langues différentes
-- Une fois que nous aurons un modèle anglais-allemand, traduisez beaucoup de mots monolingues de l'anglais vers l'allemand.
+Supposons que nous voulions entraîner un modèle à traduire de l'allemand en anglais. L'idée de la rétro-traduction est d'entraîner d'abord un modèle inverse de l'anglais vers l'allemand.
 
-Enfin, entraînez le modèle d'anglais-allemand en utilisant les mots allemands qui ont été "retro-traduits" lors de l'étape précédente.
+En utilisant quelques bi-textes limités, nous pouvons acquérir les mêmes phrases dans 2 langues différentes. Une fois que nous aurons un modèle anglais-allemand, on peut traduire beaucoup de mots monolingues de l'anglais vers l'allemand. Enfin, on peut entraîner le modèle anglais-allemand en utilisant les mots allemands qui ont été "retro-traduits" lors de l'étape précédente.
 
 Notez que :
-
 - Peu importe la qualité du modèle inverse nous pouvons avoir des traductions allemandes bruyantes mais nous finissons par traduire en anglais propre.
-- Nous devons apprendre à comprendre l'anglais bien au-delà des données des paires anglais/allemand (déjà traduites) / utiliser de grandes quantités d'anglais monolingue
+- Nous devons apprendre à comprendre l'anglais bien au-delà des données des paires anglais/allemand (déjà traduites) / utiliser de grandes quantités d'anglais monolingue.
 
 
 <!--
@@ -254,7 +251,7 @@ Notez que :
 ### Retro-traduction itérative
 
 - Nous pouvons itérer la procédure de rétro-traduction afin de générer encore plus de données bi-texte et d'atteindre de bien meilleures performances : il suffit de continuer à s'entraîner en utilisant des données monolingues.
-- Cela aide beaucoup quand il n'y a pas beaucoup de données parallèles
+- Cela aide beaucoup quand il n'y a pas beaucoup de données parallèles.
 
 <!--
 ## Massive multilingual MT
@@ -279,15 +276,15 @@ Great results especially if we want to train a model to translate to a language
 
 <center>
 <img src="{{site.baseurl}}/images/week12/12-2/multi-language-mt.png" width="60%"/><br>
-<b>Fig. 5</b> : Traducteur multilingue
+<b>Figure 5 :</b> Traducteur multilingue
 </center>
 
-- Au lieu d'essayer d'apprendre une traduction d'une langue à une autre, essayez de construire un réseau neuronal pour apprendre des traductions en plusieurs langues.
+- Au lieu d'essayer d'apprendre une traduction d'une langue à une autre, essayons de construire un réseau neuronal pour apprendre des traductions en plusieurs langues.
 - Le modèle permet d'apprendre des informations générales indépendantes de la langue.
 
 <center>
 <img src="{{site.baseurl}}/images/week12/12-2/multi-mt-results.gif" width="60%"/><br>
-<b>Fig. 6</b> : Résultats réseaux de neurones multilingues
+<b>Figure 6 :</b> Résultats réseaux de neurones multilingues
 </center>
 
 De bons résultats, surtout si nous voulons entraîner un modèle à traduire dans une langue qui n'a pas beaucoup de données disponibles pour nous (langue à faible ressource).
@@ -297,7 +294,7 @@ De bons résultats, surtout si nous voulons entraîner un modèle à traduire da
 
 There are huge amounts of text without any labels and little of supervised data. How much can we learn about the language by just reading unlabelled text?
 -->
-## Apprentissage non supervisé en NLP
+## Apprentissage non supervisé en traitement du langage naturel
 
 Il y a d'énormes quantités de texte sans aucun label et peu de données contrôlées. Que pouvons-nous apprendre sur la langue en lisant simplement un texte non étiqueté ?
 
@@ -345,29 +342,30 @@ Word embeddings hold some structure
 - Shows some meaningful differences between vectors
 -->
 
-### `word2vec`
+### *Word2vec*
 
 L'intuition est que si des mots apparaissent proches les uns des autres dans le texte, ils sont probablement liés. Nous espérons donc qu'en regardant simplement un texte anglais non labellisé, nous pouvons apprendre ce qu'ils signifient.
 
-- L'objectif est d'apprendre les représentations spatiales vectorielles des mots (apprendre les enchâssements)
+- L'objectif est d'apprendre les représentations spatiales vectorielles des mots (apprendre les enchâssements).
 
 Tâche de pré-entraînement : masquer un mot et utiliser les mots voisins pour remplir les blancs.
 
 <center>
 <img src="{{site.baseurl}}/images/week12/12-2/word2vec-masking.gif" width="60%"/><br>
-<b>Fig. 7</b> : word2vec masquant le visuel
+<b>Figure 7 :</b> Word2vec masquant le visuel
 </center>
 
-Par exemple, ici, l'idée est que les "cornes" et les "cheveux argentés" sont plus susceptibles d'apparaître dans le contexte de la "licorne" que d'autres animaux.
+Par exemple, ici, l'idée est que les « cornes » et les « cheveux argentés » sont plus susceptibles d'apparaître dans le contexte de la « licorne » que d'autres animaux.
+
 
-Prenez les mots et appliquez une projection linéaire
+En appliquant une projection linéaire sur les mots :
 
 <center>
 <img src="{{site.baseurl}}/images/week12/12-2/word2vec-embeddings.png" width="60%"/><br>
-<b>Fig. 8</b> : Enchâssement de word2vec
+<b>Figure 8 : </b> Enchâssements de Word2vec
 </center>
 
-Vous voulez savoir
+On veut savoir
 
 $$
 p(\texttt{licorne} \mid \texttt{Ces cheveux argentés étaient auparavant inconnus})
@@ -381,34 +379,32 @@ Les enchâssements de mots contiennent une certaine structure
 
 <center>
 <img src="{{site.baseurl}}/images/week12/12-2/embeddings-structure.png" width="60%"/><br>
-<b>Fig. 9</b> : Exemple de structure d’enchâssements
+<b>Figure 9 : </b> Exemple de structure d’enchâssements
 </center>
 
-- L'idée est que si nous prenons la représentation vectorielle de "roi" après l'entraînement et que nous ajoutons celle pour "femelle", nous obtiendrons une représentation très proche de celle de "reine"
-- Montre quelques différences significatives entre les vecteurs
+- L'idée est que si nous prenons la représentation vectorielle de « roi » après l'entraînement et que nous ajoutons celle pour « femelle », nous obtiendrons une représentation très proche de celle de « reine ».
+
 
 
 <!--
 #### Question: Are the word representation dependent or independent of context?
 
 Independent and have no idea how they relate to other words
--->
-
-#### Question : Le mot "représentation" dépend-il ou non du contexte ?
 
-Indépendant et n'a aucune idée des relations avec d'autres mots
-
-
-
-<!--
 #### Question: What would be an example of a situation that this model would struggle in?
 
 Interpretation of words depends strongly on context. So in the instance of ambiguous words - words that may have multiple meanings - the model will struggle since the embeddings vectors won't capture the context needed to correctly understand the word.
 -->
 
-#### Question : Quel serait un exemple de situation dans laquelle ce modèle se débattrait ?
+#### Questions d'étudiants
+
+**Le mot « représentation » dépend-il ou non du contexte ?**
+> Indépendant et n'a aucune idée des relations avec d'autres mots
+
+
+**Quel serait un exemple de situation dans laquelle ce modèle aurait du mal ?**
+> Les enchâssements de mots dépendent fortement du contexte. Ainsi, dans le cas de mots ambigus, des mots qui peuvent avoir des significations multiples, le modèle aura du mal car les vecteurs ne captureront pas le contexte nécessaire pour comprendre correctement le mot.
 
-Les enchâssements de mots dépendent fortement du contexte. Ainsi, dans le cas de mots ambigus - des mots qui peuvent avoir des significations multiples - le modèle aura du mal car les vecteurs ne captureront pas le contexte nécessaire pour comprendre correctement le mot.
 
 <!--
 ### GPT
@@ -426,12 +422,12 @@ This approach is good because we can reuse the model. We pretrain one large mode
 
 ### GPT
 
-Pour ajouter du contexte, nous pouvons entraîner un modèle linguistique conditionnel. Ensuite, étant donné ce modèle de langage, qui prédit un mot à chaque pas de temps, on remplace chaque sortie du modèle par une autre caractéristique.
+Pour ajouter du contexte, nous pouvons entraîner un modèle de langue conditionnel. Ensuite, étant donné ce modèle qui prédit un mot à chaque pas de temps, on remplace chaque sortie du modèle par une autre caractéristique.
 
 - Pré-entraînement : prédire le mot suivant
-- Fine-tuning : modification d'une tâche spécifique. Exemples :
-  - Prédire si un nom ou un adjectif
-  - Compte tenu d'un texte comprenant une critique d'Amazon, prévoyez le score de sentiment pour la critique
+- *Finetuning* : modification d'une tâche spécifique comme par exemple
+  - Prédire si un mot est un nom ou un adjectif
+  - Prédire le score de sentiment pour une critique de film
 
 Cette approche est bonne car nous pouvons réutiliser le modèle. Nous pré-entraînons un grand modèle et pouvons l'adapter à d'autres tâches.
 
@@ -452,15 +448,14 @@ This is still a "shallow" combination, and we want some more complex interaction
 
 ### ELMo
 
-Le GPT ne tient compte que du contexte à gauche, ce qui signifie que le modèle ne peut pas dépendre de mots futurs, ce qui limite beaucoup ce que le modèle peut faire.
-
-L'approche consiste ici à entraîner _deux_ modèles linguistiques
+Le GPT ne tient compte que du contexte à gauche (du mot qu'il est en train de traiter), ce qui signifie que le modèle ne peut pas dépendre de mots futurs, ce qui limite beaucoup ce que le modèle peut faire.
 
-- Un sur le texte de gauche à droite
-- Un sur le texte de droite à gauche
-- Concaténer les résultats des deux modèles afin d'obtenir la représentation des mots. On peut maintenant conditionner le contexte à droite et à gauche.
+L'approche consiste ici à entraîner _deux_ modèles de langue :
+- un sur le texte de gauche à droite
+- un sur le texte de droite à gauche
+On peut alors concaténer les résultats des deux modèles afin d'obtenir la représentation des mots. On peut maintenant conditionner le contexte à droite et à gauche.
 
-Il s'agit toujours d'une combinaison "superficielle", et nous voulons une interaction plus complexe entre les contextes gauche et droit.
+Il s'agit toujours d'une combinaison superficielle et nous voulons une interaction plus complexe entre les contextes gauche et droit.
 
 
 <!--
@@ -480,15 +475,15 @@ Even larger improvements on top of BERT performance - on question answering task
 
 ### BERT
 
-BERT est similaire à word2vec dans le sens où nous avons également une tâche de remplissage. Cependant, dans word2vec, nous avions des projections linéaires, alors que dans BERT, il y a un grand transformer qui est capable de regarder plus de contexte. Pour nous entraîner, nous masquons 15 % des tokens et nous essayons de prédire le blanc.
+BERT est similaire à Word2vec dans le sens où nous avons également une tâche de remplissage. Cependant, dans Word2vec, nous avions des projections linéaires, alors que dans BERT, il y a un grand transformer qui est capable de regarder plus de contexte. Pour entraîner, nous masquons 15 % des jetons et nous essayons de prédire ce qui a été masqué.
 
-On peut mettre à l'échelle BERT (RoBERTa) :
-- Simplifier l'objectif de pré-entraînement de BERT
-- Augmenter la taille des batchs
-- Entraîner sur de grandes quantités de GPU
-- Entraîner encore plus de texte
+Il est possible de passer à l'échelle BERT (RoBERTa) en :
+- simplifiant l'objectif de pré-entraînement de BERT
+- augmentant la taille des batchs
+- entraînant sur de grandes quantités de GPU
+- entraînant sur encore plus de texte
 
-La performance des tâches de réponse aux questions est maintenant supérieure à l’humaine.
+On obtient alors par exemple une performance supérieure à l'humaine sur la tâche de réponse aux questions.
 
 <!--
 ## [Pre-training for NLP](https://www.youtube.com/watch?v=6D4EWKJgNn0&t=4963s)
@@ -527,40 +522,32 @@ The key takeaways from the different models mentioned above are
 Most of the models discussed above are engineered towards solving the text classification problem. However, in order to solve text generation problem, where we generate output sequentially much like the `seq2seq` model, we need a slightly different approach to pre training.
 -->
 
-## [Pré-entraînement en NLP](https://www.youtube.com/watch?v=6D4EWKJgNn0&t=4963s)
+## [Pré-entraînement en traitement du langage naturel](https://www.youtube.com/watch?v=6D4EWKJgNn0&t=4963s)
 
-Examinons rapidement les différentes approches de pré-entraînement auto-supervisé qui ont été étudiées en NLP.
+Examinons rapidement les différentes approches de pré-entraînement autosupervisé qui ont été étudiées en en traitement du langage naturel :
 
 - XLNet :
-
   Au lieu de prédire tous les tokens masqués de façon conditionnelle et indépendante, XLNet prédit les tokens masqués de façon auto-régressive et dans un ordre aléatoire
 
 - SpanBERT
-
-   Les masques s'étendent (séquence de mots consécutifs) au lieu des tokens
+   Les masques s'étendent (séquence de mots consécutifs) au lieu des jetons
 
 - ELECTRA :
+  Plutôt que de masquer les mots, nous remplaçons les jetons par des mots similaires. Ensuite, nous résolvons un problème de classification binaire en essayant de prédire si les jetons ont été substitués ou non.
 
-  Plutôt que de masquer les mots, nous remplaçons les tokens par des mots similaires. Ensuite, nous résolvons un problème de classification binaire en essayant de prédire si les tokens ont été substitués ou non.
-
-- ALBERT :
-
-  A Lite Bert : Nous modifions BERT et le rendons plus léger en liant les poids entre les couches. Cela réduit les paramètres du modèle et les calculs impliqués. Il est intéressant de noter que les auteurs d'ALBERT n'ont pas eu à faire beaucoup de compromis sur la précision.
+- ALBERT (*A Lite Bert*) :
+  Nous modifions BERT et le rendons plus léger en liant les poids entre les couches. Cela réduit les paramètres du modèle et les calculs impliqués. Il est intéressant de noter que les auteurs d'ALBERT n'ont pas eu à faire beaucoup de compromis sur la précision.
 
 - XLM :
-
-  BERT multilingue : Au lieu d'alimenter un texte en anglais, nous alimentons un texte en plusieurs langues. Comme prévu, il a mieux appris les connexions interlinguistiques.
+  Il s'agit d'un BERT multilingue. Au lieu d'alimenter un texte en anglais, nous alimentons un texte en plusieurs langues. Comme prévu, il a mieux appris les connexions interlinguistiques.
 
 
 Les principaux enseignements tirés des différents modèles mentionnés ci-dessus sont les suivants :
 - De nombreux objectifs de pré-entraînement différents fonctionnent bien !
-
 - Il est essentiel de modéliser les interactions profondes et bidirectionnelles entre les mots
-
 - Des gains importants grâce à l'intensification du pré-entraînement, sans encore de limites claires
 
-
-La plupart des modèles évoqués ci-dessus sont conçus pour résoudre le problème de la classification de textes. Cependant, pour résoudre le problème de la génération de texte, où nous générons les résultats de manière séquentielle comme le modèle "seq2seq", nous avons besoin d'une approche légèrement différente du pré-entraînement.
+La plupart des modèles évoqués ci-dessus sont conçus pour résoudre le problème de la classification de textes. Cependant, pour résoudre le problème de la génération de texte, où nous générons les résultats de manière séquentielle comme le modèle *`seq2seq`, nous avons besoin d'une approche légèrement différente du pré-entraînement.
 
 
 <!--
@@ -577,13 +564,12 @@ BART was able to match RoBERTa on SQUAD and GLUE tasks. However, it was the new
 
 #### Pré-entraînement pour la génération conditionnelle : BART et T5
 
-BART : pré-entraînement des modèles `seq2seq` par le dé-bruitage du texte
+BART : pré-entraînement des modèles `seq2seq` par le débruitage de texte.  
+Dans BART, pour le pré-entraînement, nous prenons une phrase et la corrompons en masquant des jetons au hasard. Au lieu de prédire les jetons masqués (comme dans l'objectif de BERT), nous donnons toute la séquence corrompue et essayons de prédire toute la séquence correcte.
 
-Dans BART, pour le pré-entraînement, nous prenons une phrase et la corrompons en masquant des tokens au hasard. Au lieu de prédire les tokens masqués (comme dans l'objectif de BERT), nous alimentons toute la séquence corrompue et essayons de prédire toute la séquence correcte.
+Cette approche de pré-entraînement `seq2seq` nous donne une certaine flexibilité dans la conception de nos schémas de corruption. Nous pouvons mélanger les phrases, supprimer des expressions, en introduire de nouvelles, etc.
 
-Cette approche de pré-entraînement "seq2seq" nous donne une certaine flexibilité dans la conception de nos schémas de corruption. Nous pouvons mélanger les phrases, supprimer des expressions, en introduire de nouvelles, etc…
-
-BART a pu faire aussi bien que RoBERTa sur les tâches SQUAD et GLUE. Cependant, il établit le nouvel état de l’art sur les ensembles de données de résumé, de dialogue et les questions/réponses. Ces résultats renforcent notre motivation pour BART, étant meilleur que BERT/RoBERTa dans les tâches de génération de texte.
+BART a pu faire aussi bien que RoBERTa sur les tâches SQUAD et GLUE. Il établit le nouvel état de l’art sur les jeux de données de résumé, de dialogue et les questions/réponses. BART étant ainsi meilleur que BERT/RoBERTa dans les tâches de génération de texte.
 
 
 <!--
@@ -596,12 +582,12 @@ BART a pu faire aussi bien que RoBERTa sur les tâches SQUAD et GLUE. Cependant,
 - Are these models really understanding language?
 -->
 
-### Quelques questions ouvertes en PNL
+### Quelques questions ouvertes en traitement du langage naturel
 
-- Comment intégrer la connaissance du monde
-- Comment modéliser les longs documents ?  (Les modèles basés BERT utilisent généralement 512 tokens)
-- Quelle est la meilleure façon de procéder pour l'apprentissage multitâche ?
-- Pouvons-nous procéder à du fine-tuning avec moins de données ?
+- Comment intégrer la connaissance du monde ?
+- Comment modéliser de longs documents étant donné que les modèles basés sur BERT utilisent généralement seulement 512 jetons ?
+- Quelle est la meilleure façon de procéder pour l'apprentissage multitâches ?
+- Pouvons-nous procéder à du *finetuning* avec moins de données ?
 - Ces modèles comprennent-ils vraiment le langage ?
 
 <!--
@@ -620,11 +606,11 @@ From a bias variance perspective, Transformers are low bias (very expressive) mo
 
 - Entraîner des modèles sur de nombreuses données bat explicitement la modélisation de la structure linguistique.
 
-Du point de vue de la variance de biais, les Transformers sont des modèles à faible biais (très expressifs). Il est préférable d'alimenter ces modèles avec beaucoup de texte plutôt que de modéliser explicitement la structure linguistique (biais élevé). Les architectures doivent comprimer les séquences à travers les goulots d'étranglement
+Du point de vue de la variance de biais, les transformers sont des modèles à faible biais (très expressifs). Il est préférable de nourrir ces modèles avec beaucoup de texte plutôt que de modéliser explicitement la structure linguistique (biais élevé). Les architectures doivent comprimer les séquences à travers les goulots d'étranglement.
 
-- Les modèles peuvent apprendre beaucoup sur le langage en prédisant des mots dans un texte non étiqueté. Cela s'avère être un excellent objectif d'apprentissage non supervisé. Il est alors facile de fine-tuner des tâches spécifiques
+- Les modèles peuvent apprendre beaucoup sur le langage en prédisant des mots dans un texte non étiqueté. Cela s'avère être un excellent objectif d'apprentissage non supervisé. Il est alors facile de *finetuner* des tâches spécifiques.
 
-- Le contexte bidirectionnel est crucial
+- Le contexte bidirectionnel est crucial.
 
 
 <!--
@@ -637,29 +623,28 @@ What are some ways to quantify 'understanding language’? How do we know that t
 Moreover, BERT and RoBERTa achieve superhuman performance on SQUAD and Glue. The textual summaries generated by BART look very real to humans (high BLEU scores). These facts are evidence that the models do understand language in some way.
 -->
 
-### Aperçu supplémentaire à partir des questions posées après le cours :
+### Questions possées après le cours par des étudiants
 
-Quels sont les moyens de quantifier la "compréhension du langage" ? Comment savons-nous que ces modèles sont réellement des modèles de compréhension du langage ?
+**Quels sont les moyens de quantifier la compréhension du langage ? Comment savons-nous que ces modèles sont réellement des modèles de compréhension du langage ?**
 
-"Le trophée ne rentrait pas dans la valise parce qu'il était trop grand" : Il est difficile pour les machines de résoudre le problème de la référence à "il" dans cette phrase. L'homme est doué pour cette tâche. Il existe un ensemble de données constitué d'exemples aussi difficiles et les humains ont atteint 95 % de performance sur cet ensemble de données. Les programmes informatiques n'atteignaient que 60% environ avant la révolution provoquée par les Transformers. Les modèles modernes de transformers sont capables d'atteindre plus de 90% sur cet ensemble de données. Cela suggère que ces modèles ne se contentent pas de mémoriser/exploiter les données, mais qu'ils apprennent des concepts et des objets grâce aux modèles statistiques des données.
+> La phrase « mon trophée ne rentre pas dans mon bagage car il est trop grand » est difficile pour les modèles car ont des problèmes pour résoudre le problème de la référence à « il » dans cette phrase. L'homme est doué pour cette tâche. Il existe un jeu de données constitué d'exemples aussi difficiles et les humains atteigent 95 % de performance sur ce jeu de données. Les programmes informatiques n'atteignaient que 60% environ avant la révolution provoquée par les transformers. Les modèles modernes de transformers sont capables d'atteindre plus de 90%. Cela suggère que ces modèles ne se contentent pas de mémoriser/exploiter les données, mais qu'ils apprennent des concepts et des objets grâce aux modèles statistiques des données.
+> En outre, BERT et RoBERTa atteignent des performances supérieures à celle humaine sur les jeux de donénes SQUAD et GLUE. Les résumés textuels générés par BART semblent très réels pour les humains (scores BLEU élevés). Ces faits sont la preuve que les modèles comprennent le langage d'une certaine manière.
 
-En outre, BERT et RoBERTa atteignent des performances supérieures à l’humaine sur SQUAD et Glue. Les résumés textuels générés par BART semblent très réels pour les humains (scores BLEU élevés). Ces faits sont la preuve que les modèles comprennent le langage d'une certaine manière.
 
 <!--
-#### Grounded Language
+#### Can we evaluate whether the model already has world knowledge?
 
-Interestingly, the lecturer (Mike Lewis, Research Scientist, FAIR) is working on a concept called ‘Grounded Language’. The aim of that field of research is to build conversational agents that are able to chit-chat or negotiate. Chit-chatting and negotiating are abstract tasks with unclear objectives as compared to text classification or text summarization.
+‘World Knowledge’ is an abstract concept. We can test models, at the very basic level, for their world knowledge by asking them simple questions about the concepts we are interested in.  Models like BERT, RoBERTa and T5 have billions of parameters. Considering these models are trained on a huge corpus of informational text like Wikipedia, they would have memorized facts using their parameters and would be able to answer our questions. Additionally, we can also think of conducting the same knowledge test before and after fine-tuning a model on some task. This would give us a sense of how much information the model has ‘forgotten’.
 -->
 
-#### Langue de base
-
-Il est intéressant de noter que le conférencier (Mike Lewis, chercheur au FAIR) travaille sur un concept appelé "Grounded Language". L'objectif de ce domaine de recherche est de créer des agents conversationnels capables de bavarder ou de négocier. Le bavardage et la négociation sont des tâches abstraites dont les objectifs ne sont pas clairs par rapport à la classification ou au résumé de texte.
+**Peut-on évaluer si le modèle a déjà une connaissance du monde ?**
+> La connaissance du monde est un concept abstrait. Nous pouvons tester les modèles, au niveau le plus élémentaire en leur posant des questions simples sur les concepts qui nous intéressent. Des modèles comme BERT, RoBERTa et T5 ont des milliards de paramètres. Si l'on considère que ces modèles sont entraînés sur un énorme corpus de textes informationnels comme Wikipédia, ils mémorisent des faits en utilisant leurs paramètres et sont capables de répondre à nos questions. En outre, nous pouvons également envisager de réaliser le même test de connaissances avant et après le *finetuning* d'un modèle sur une tâche donnée. Cela nous donnerait une idée de la quantité d'informations que le modèle a « oubliées ».
 
 <!--
-#### Can we evaluate whether the model already has world knowledge?
+#### Grounded Language
 
-‘World Knowledge’ is an abstract concept. We can test models, at the very basic level, for their world knowledge by asking them simple questions about the concepts we are interested in.  Models like BERT, RoBERTa and T5 have billions of parameters. Considering these models are trained on a huge corpus of informational text like Wikipedia, they would have memorized facts using their parameters and would be able to answer our questions. Additionally, we can also think of conducting the same knowledge test before and after fine-tuning a model on some task. This would give us a sense of how much information the model has ‘forgotten’.
+Interestingly, the lecturer (Mike Lewis, Research Scientist, FAIR) is working on a concept called ‘Grounded Language’. The aim of that field of research is to build conversational agents that are able to chit-chat or negotiate. Chit-chatting and negotiating are abstract tasks with unclear objectives as compared to text classification or text summarization.
 -->
 
-#### Peut-on évaluer si le modèle a déjà une connaissance du monde ?
-La "connaissance du monde" est un concept abstrait. Nous pouvons tester les modèles, au niveau le plus élémentaire en leur posant des questions simples sur les concepts qui nous intéressent.  Des modèles comme BERT, RoBERTa et T5 ont des milliards de paramètres. Si l'on considère que ces modèles sont entraînés sur un énorme corpus de textes informationnels comme Wikipédia, ils auraient mémorisé des faits en utilisant leurs paramètres et seraient capables de répondre à nos questions. En outre, nous pouvons également envisager de réaliser le même test de connaissances avant et après la mise au point d'un modèle sur une tâche donnée. Cela nous donnerait une idée de la quantité d'informations que le modèle a "oubliées".
+**Qu'est que le langage fondé sur la réalité (*grounded Language*) ?**
+> L'objectif de ce domaine de recherche est de créer des agents conversationnels capables de bavarder ou de négocier. Le bavardage et la négociation sont des tâches abstraites dont les objectifs ne sont pas clairs par rapport à la classification ou au résumé de texte.
diff --git a/docs/fr/week12/12-3.md b/docs/fr/week12/12-3.md
index 418bfd33a..6a44c299c 100644
--- a/docs/fr/week12/12-3.md
+++ b/docs/fr/week12/12-3.md
@@ -20,9 +20,9 @@ As we will later see, transformers are made up of attention modules, which are m
 
 ## [Attention](https://www.youtube.com/watch?v=f01J0Dri-6k&t=69s)
 
-Nous introduisons le concept d'attention avant de parler de l'architecture du Transformer. Il existe deux types principaux d'attention : l'auto-attention *vs.* l'attention croisée. Dans ces catégories, nous pouvons avoir une attention dure *vs.* une attention douce.
+Nous introduisons le concept d'attention avant de parler de l'architecture du Transformer. Il existe deux types principaux d'attention : l'auto-attention vs l'attention croisée. Dans ces catégories, nous pouvons avoir une attention dure vs une attention douce.
 
-Comme nous le verrons plus tard, les transformers sont constitués de modules d'attention, qui sont des mappages entre des ensembles (plutôt que des séquences), ce qui signifie que nous n'imposons pas d'ordre à nos entrées/sorties.
+Comme nous le verrons plus tard, les transformers sont constitués de modules d'attention, qui sont des associations entre des ensembles (plutôt que des séquences), ce qui signifie que nous n'imposons pas d'ordre à nos entrées/sorties.
 
 
 
@@ -93,7 +93,7 @@ With hard-attention, we impose the following constraint on the alphas: $\Vert\ve
 
 #### Attention dure
 
-Avec beaucoup d'attention, nous imposons aux alphas la contrainte suivante : $\Vert\vect{a}\Vert_0 = 1$. Cela signifie que $\vect{a}$ est un vecteur one-hot. Par conséquent, tous les coefficients de la combinaison linéaire des entrées sauf un sont égaux à zéro, et la représentation cachée se réduit à l'entrée $\boldsymbol{x}_i$ correspondant à l'élément $\alpha_i=1$.
+Avec beaucoup d'attention, nous imposons aux alphas la contrainte suivante : $\Vert\vect{a}\Vert_0 = 1$. Cela signifie que $\vect{a}$ est un vecteur *one-hot*. Par conséquent, tous les coefficients de la combinaison linéaire des entrées sauf un sont égaux à zéro, et la représentation cachée se réduit à l'entrée $\boldsymbol{x}_i$ correspondant à l'élément $\alpha_i=1$.
 
 <!--
 #### Soft Attention
@@ -143,9 +143,9 @@ $$
 
 Où $\beta$ représente le paramètre de température inverse du $\text{soft(arg)max}(\cdot)$. $\boldsymbol{X}^{\top}\in\mathbb{R}^{t \times n}$ est la représentation matricielle transposée de l'ensemble $\lbrace\boldsymbol{x}_i \rbrace\_{i=1}^t$, et $\boldsymbol{x}$ représente un $\boldsymbol{x}_i$ générique de l'ensemble. Notez que la ligne $j$ème de $X^{\top}$ correspond à un élément $\boldsymbol{x}_j\in\mathbb{R}^n$, Ainsi, la $j$ème rangée de $\boldsymbol{X}^{\top}\boldsymbol{x}$ est le produit scalaire de $\boldsymbol{x}_j$ avec chaque $\boldsymbol{x}_i$ dans $\lbrace \boldsymbol{x}_i \rbrace\_{i=1}^t$.
 
-Les composantes du vecteur $\vect{a}$ sont également appelées "scores" car le produit scalaire entre deux vecteurs nous indique dans quelle mesure deux vecteurs sont alignés ou similaires. Par conséquent, les éléments de $\vect{a}$ fournissent des informations sur la similarité de l'ensemble global avec un symbole particulier $\boldsymbol{x}_i$.
+Les composantes du vecteur $\vect{a}$ sont également appelées *scores* car le produit scalaire entre deux vecteurs nous indique dans quelle mesure deux vecteurs sont alignés ou similaires. Par conséquent, les éléments de $\vect{a}$ fournissent des informations sur la similarité de l'ensemble global avec un symbole particulier $\boldsymbol{x}_i$.
 
-Les crochets représentent un argument facultatif. Notez que si $\arg\max(\cdot)$ est utilisé, nous obtenons un vecteur d'alphas one-hot, ce qui entraîne une attention soutenue. En revanche, $\text{soft(arg)max}(\cdot)$ conduit à une attention douce. Dans chaque cas, les composantes du vecteur résultant $\vect{a}$ s'additionnent à 1.
+Les crochets représentent un argument facultatif. Notez que si $\arg\max(\cdot)$ est utilisé, nous obtenons un vecteur 9one-hot* d'alphas, ce qui entraîne une attention soutenue. En revanche, $\text{soft(arg)max}(\cdot)$ conduit à une attention douce. Dans chaque cas, les composantes du vecteur résultant $\vect{a}$ s'additionnent à 1.
 
 En générant $\vect{a}$ de cette façon, on obtient un ensemble d'entre elles, une pour chaque symbole $\boldsymbol{x}_i$. De plus, chaque $\vect{a}_i \in \mathbb{R}^t$ permet d'empiler les alphas dans une matrice $\boldsymbol{A}\in \mathbb{R}^{t \times t}$.
 
@@ -167,9 +167,9 @@ Basically, the query is the question. Given one query, we check this query again
 
 ## [Key-value store](https://www.youtube.com/watch?v=f01J0Dri-6k&t=1056s)
 
-Un key-value store est un paradigme conçu pour le stockage (sauvegarde), la récupération (interrogation) et la gestion de tableaux associatifs (dictionnaires / tables de hachage).
+Un *key-value store* est un paradigme conçu pour le stockage (sauvegarde), la récupération (interrogation) et la gestion de tableaux associatifs (dictionnaires / tables de hachage).
 
-Par exemple, disons que nous voulons trouver une recette pour faire des lasagnes. Nous avons un livre de recettes et nous cherchons "lasagne" : c'est la requête. Cette requête est comparée à toutes les clés possibles de votre ensemble de données : dans ce cas, il peut s'agir des titres de toutes les recettes du livre. Nous vérifions l'alignement de la requête avec chaque titre pour trouver le score maximum de correspondance entre la requête et toutes les clés respectives. Si notre résultat est la fonction argmax, nous récupérons la recette unique ayant obtenu le score le plus élevé. Sinon, si nous utilisons une fonction argmax souple, nous obtenons une distribution de probabilité et pouvons récupérer dans l'ordre, à partir du contenu le plus similaire, les recettes de moins en moins pertinentes qui correspondent à la requête.
+Par exemple, disons que nous voulons trouver une recette pour faire des lasagnes. Nous avons un livre de recettes et nous cherchons « lasagne » : c'est la requête. Cette requête est comparée à toutes les clés possibles de votre ensemble de données : dans ce cas, il peut s'agir des titres de toutes les recettes du livre. Nous vérifions l'alignement de la requête avec chaque titre pour trouver le score maximum de correspondance entre la requête et toutes les clés respectives. Si notre résultat est la fonction argmax, nous récupérons la recette unique ayant obtenu le score le plus élevé. Sinon, si nous utilisons une fonction argmax souple, nous obtenons une distribution de probabilité et pouvons récupérer dans l'ordre, à partir du contenu le plus similaire, les recettes de moins en moins pertinentes qui correspondent à la requête.
 
 Fondamentalement, la requête est la question. Pour une même question, nous comparons cette requête à chaque clé et nous récupérons tout le contenu correspondant.
 
@@ -295,11 +295,11 @@ $$
 \end{aligned}
 $$
 
-Chacun des vecteurs $\vect{q}, \vect{k}, \vect{v}$ peut être simplement considéré comme une rotation de l'entrée spécifique $\vect{x}$. Où $\vect{q}$ est juste $\vect{x}$ tourné par $\vect{W_q}$, $\vect{k}$ est juste $\vect{x}$ tourné par $\vect{W_k}$ et de même pour $\vect{v}$. Notez que c'est la première fois que nous introduisons des paramètres "apprenables". Nous n'incluons pas non plus de non-linéarités puisque l'attention est entièrement basée sur l'orientation.
+Chacun des vecteurs $\vect{q}, \vect{k}, \vect{v}$ peut être simplement considéré comme une rotation de l'entrée spécifique $\vect{x}$. Où $\vect{q}$ est juste $\vect{x}$ tourné par $\vect{W_q}$, $\vect{k}$ est juste $\vect{x}$ tourné par $\vect{W_k}$ et de même pour $\vect{v}$. Notez que c'est la première fois que nous introduisons des paramètres apprenables. Nous n'incluons pas non plus de non-linéarités puisque l'attention est entièrement basée sur l'orientation.
 
 Afin de comparer la requête à toutes les clés possibles, $\vect{q}$ et $\vect{k}$ doivent avoir la même dimensionnalité, c'est-à-dire $\vect{q}, \vect{k} \in \mathbb{R}^{d'}$.
 
-Cependant, $\vect{v}$ peut être de n'importe quelle dimension. Si nous continuons avec notre exemple de recette de lasagnes - nous avons besoin que la requête ait la dimension comme clés, c'est-à-dire les titres des différentes recettes que nous recherchons. La dimension de la recette correspondante retrouvée, $\vect{v}$, peut cependant être arbitrairement longue. Nous avons donc ce $\vect{v} \in \mathbb{R}^{d''}$.
+Cependant, $\vect{v}$ peut être de n'importe quelle dimension. Si nous continuons avec notre exemple de recette de lasagnes, nous avons besoin que la requête ait la dimension comme clés, c'est-à-dire les titres des différentes recettes que nous recherchons. La dimension de la recette correspondante retrouvée, $\vect{v}$, peut cependant être arbitrairement longue. Nous avons donc ce $\vect{v} \in \mathbb{R}^{d''}$.
 
 Par souci de simplicité, nous supposerons ici que tout a la dimension $d$, c'est-à-dire
 
@@ -344,7 +344,7 @@ $$
 \beta = \frac{1}{\sqrt{d}}
 $$
 
-Ceci est fait pour maintenir la température constante parmi les différents choix de dimension $d$ et nous divisons donc par la racine carrée du nombre de dimensions $d$. (Pensez à la longueur du vecteur $\vect{1} \in ^d$).
+Ceci est fait pour maintenir la température constante parmi les différents choix de dimension $d$ et nous divisons donc par la racine carrée du nombre de dimensions $d$.
 
 Pour l'implémentation, nous pouvons accélérer le calcul en empilant tous les $\vect{W}$ en un seul grand $\vect{W}$ et calculer ensuite $\vect{q}, \vect{k}, \vect{v}$ en une seule fois :
 
@@ -361,7 +361,7 @@ $$
 \end{bmatrix} \vect{x} \in \mathbb{R}^{3d}
 $$
 
-Il y a aussi le concept de "têtes". Nous avons vu ci-dessus un exemple avec une seule tête, mais nous pourrions en avoir plusieurs. Par exemple, disons que nous avons des têtes $h$, puis nous avons des $h$ $\vect{q}$, $h$ $\vect{k}$ et $h$ $\vect{v}$ et nous nous retrouvons avec un vecteur en $\mathbb{R}^{3hd}$ :
+Il y a aussi le concept de *têtes*. Nous avons vu ci-dessus un exemple avec une seule tête, mais nous pourrions en avoir plusieurs. Par exemple, disons que nous avons des têtes $h$, puis nous avons des $h$ $\vect{q}$, $h$ $\vect{k}$ et $h$ $\vect{v}$ et nous nous retrouvons avec un vecteur en $\mathbb{R}^{3hd}$ :
 
 $$
 \begin{bmatrix}
@@ -404,7 +404,7 @@ Expanding on our knowledge of attention in particular, we now interpret the fund
 
 ## [Le Transformer](https://www.youtube.com/watch?v=f01J0Dri-6k&t=2114s)
 
-En élargissant notre connaissance de l'attention, nous interprétons maintenant les éléments fondamentaux du transformer. En particulier, nous allons faire un passage en avant à travers un transformer de base, et voir comment l'attention est utilisée dans le paradigme standard de l'encodeur-décodeur et effectuer une comparaison avec les architectures séquentielles des RNN.
+En élargissant notre connaissance de l'attention, nous interprétons maintenant les éléments fondamentaux du transformer. En particulier, nous allons faire un passage en avant à travers un transformer de base, et voir comment l'attention est utilisée dans le paradigme standard de l'encodeur-décodeur et effectuer une comparaison avec les architectures séquentielles des RNNs.
 
 <!--
 ### Encoder-Decoder Architecture
@@ -425,10 +425,10 @@ Nous devons nous familiariser avec cette terminologie. Elle est surtout mise en
 
 <center>
 <img src="{{site.baseurl}}/images/week12/12-3/figure1.png" style="zoom : 60% ; background-color:#DCDCDC;" /><br>
-<b>Figure 1:</b> Deux exemples de diagrammes d'un auto-encodeur. Le modèle de gauche montre comment un auto-encodeur peut être conçu avec deux transformations affines + activations, où l'image de droite remplace cette "couche" unique par un module d'opérations arbitraire.
+<b>Figure 1 :</b> Deux exemples de diagrammes d'un auto-encodeur. Le modèle de gauche montre comment un auto-encodeur peut être conçu avec deux transformations affines + activations, où l'image de droite remplace cette couche unique par un module d'opérations arbitraire.
 </center>
 
-Notre "attention" est attirée sur la disposition de l'auto-encodeur comme indiqué dans le modèle de droite et nous allons maintenant jeter un coup d'œil à l'intérieur, dans le contexte des transformers.
+Notre attention est attirée sur la disposition de l'auto-encodeur comme indiqué dans le modèle de droite et nous allons maintenant jeter un coup d'œil à l'intérieur, dans le contexte des transformers.
 
 <!--
 ### Encoder Module
@@ -445,7 +445,7 @@ The encoder module accepts a set of inputs, which are simultaneously fed through
 
 <center>
 <img src="{{site.baseurl}}/images/week12/12-3/figure2.png" style="zoom : 60% ; background-color:#DCDCDC;" /><br>
-<b>Figure 2:</b> L’encodeur du transformer qui accepte un ensemble d'entrées $\vect{x}$, et qui sort un ensemble de représentations cachées $\vect{h}^\text{Enc}$.
+<b>Figure 2 :</b> L’encodeur du transformer qui accepte un ensemble d'entrées $\vect{x}$, et qui sort un ensemble de représentations cachées $\vect{h}^\text{Enc}$
 </center>
 
 Le module d'encodage accepte un ensemble d'entrées, qui sont simultanément alimentées par le bloc d'auto-attention et le contourne pour atteindre le bloc `Add, Norm`. À ce stade, elles sont à nouveau passées simultanément par la convolution 1D et un autre bloc `Add, Norm`, et sont donc sorties comme l'ensemble de la représentation cachée. Cet ensemble de représentation cachée est alors envoyé soit par un nombre arbitraire de modules d'encodage (c'est-à-dire plus de couches), soit au décodeur. Nous allons maintenant examiner ces blocs plus en détail.
@@ -467,7 +467,7 @@ Le modèle d'auto-attention est un modèle d'attention normale. La requête, la
 
 <center>
 <img src="{{site.baseurl}}/images/week12/12-3/figure3.png" style="zoom : 60% ; background-color:#DCDCDC;" /><br>
-<b>Figure 3:</b> Le bloc auto-attention. La séquence d'entrées est représentée comme un ensemble le long de la 3ème dimension, et concaténée.
+<b>Figure 3 :</b> Le bloc auto-attention. La séquence d'entrées est représentée comme un ensemble le long de la 3ème dimension, et concaténée
 </center>
 
 
@@ -479,7 +479,7 @@ The add norm block has two components. First is the add block, which is a residu
 
 #### Add, Norm
 
-Le bloc add norm a deux composantes. Le premier est le bloc add, qui est une connexion résiduelle, et le deuxième est la normalisation des couches.
+Le bloc Add&Norm a deux composantes. Le premier est le bloc *Add*, qui est une connexion résiduelle et le deuxième *Norm* qui est la normalisation des couches.
 
 <!--
 #### 1D-convolution
@@ -503,13 +503,13 @@ The transformer decoder follows a similar procedure as the encoder. However, the
 </center>
 -->
 
-### Module Décodeur
+### Module décodeur
 
 Le transformer-décodeur suit une procédure similaire à celle de l'encodeur. Cependant, il y a un sous-bloc supplémentaire à prendre en compte. De plus, les entrées de ce module sont différentes.
 
 <center>
 <img src="{{site.baseurl}}/images/week12/12-3/figure5.png" style="zoom : 60% ; background-color:#DCDCDC;" /><br>
-<b>Figure 4:</b> Une explication plus amicale du décodeur.
+<b>Figure 4 :</b> Une explication plus amicale du décodeur
 </center>
 
 
@@ -541,7 +541,7 @@ Un ensemble, $\vect{x}\_1$ à $\vect{x}\_{t}$ est transmis par l'encodeur. En ut
 There are a few important facts we left out before to explain the most important modules of a transformer, but will need to discuss them now to understand how transformers can achieve state-of-art results in language tasks.
 -->
 
-### Word Language Models
+### Modèles du monde en linguistique
 
 Nous avons laissé de côté quelques faits importants pour expliquer les modules les plus importants d'un transformer, mais il faudra en discuter maintenant pour comprendre comment ils peuvent obtenir des résultats de pointe dans les tâches linguistiques.
 
@@ -712,7 +712,7 @@ class Encoder(nn.Module):
 
 Nous allons maintenant voir les blocs du transformer dont nous avons parlé plus haut dans un format beaucoup plus compréhensible, le code !
 
-Dans le premier module, nous examinerons le bloc d'attention à plusieurs têtes. En fonction de la requête, de la clé et des valeurs entrées dans ce bloc, il peut être utilisé pour l'auto-attention ou l'attention croisée.
+Dans le premier module, nous examinons le bloc d'attention à plusieurs têtes. En fonction de la requête, de la clé et des valeurs entrées dans ce bloc, il peut être utilisé pour l'auto-attention ou l'attention croisée.
 
 ```python
 class MultiHeadAttention(nn.Module):
@@ -724,14 +724,14 @@ class MultiHeadAttention(nn.Module):
             d_xq = d_xk = d_xv = d_model
         else:
             d_xq, d_xk, d_xv = d_input
-        # Embedding dimension of model is a multiple of number of heads
+        # L'enchâssement de la dimension du model est un multiple du nombre de têtes
         assert d_model % self.num_heads == 0
         self.d_k = d_model // self.num_heads
-        # These are still of dimension d_model. To split into number of heads
+        # Ceux-ci sont toujours de dimension d_model. Pour diviser en nombre de têtes
         self.W_q = nn.Linear(d_xq, d_model, bias=False)
         self.W_k = nn.Linear(d_xk, d_model, bias=False)
         self.W_v = nn.Linear(d_xv, d_model, bias=False)
-        # Outputs of all sub-layers need to be of dimension d_model
+        # Les sorties de tous les sous-couches doivent être de dimension d_model.
         self.W_h = nn.Linear(d_model, d_model)
 ```
 
@@ -742,13 +742,13 @@ def scaled_dot_product_attention(self, Q, K, V):
     batch_size = Q.size(0)
     k_length = K.size(-2)
 
-    # Scaling by d_k so that the soft(arg)max doesnt saturate
+     Mise à l'échelle par d_k pour que le soft(arg)max ne sature pas
     Q = Q / np.sqrt(self.d_k)  # (bs, n_heads, q_length, dim_per_head)
     scores = torch.matmul(Q, K.transpose(2,3))  # (bs, n_heads, q_length, k_length)
 
     A = nn_Softargmax(dim=-1)(scores)  # (bs, n_heads, q_length, k_length)
 
-    # Get the weighted average of the values
+    # Donne la moyenne pondérée des valeurs
     H = torch.matmul(A, V)  # (bs, n_heads, q_length, dim_per_head)
 
     return H, A
@@ -774,15 +774,15 @@ Combine les têtes d'attention ensemble, pour obtenir une forme correcte conform
 ```python
 def forward(self, X_q, X_k, X_v):
     batch_size, seq_length, dim = X_q.size()
-    # After transforming, split into num_heads
+    # Après la transformation, divise en num_heads
     Q = self.split_heads(self.W_q(X_q), batch_size)
     K = self.split_heads(self.W_k(X_k), batch_size)
     V = self.split_heads(self.W_v(X_v), batch_size)
-    # Calculate the attention weights for each of the heads
+    # Calcule les poids d'attention pour chacune des têtes
     H_cat, A = self.scaled_dot_product_attention(Q, K, V)
-    # Put all the heads back together by concat
+    # Remettre toutes les têtes ensemble par concaténation
     H_cat = self.group_heads(H_cat, batch_size)  # (bs, q_length, dim)
-    # Final linear layer
+    # Couche linéaire finale
     H = self.W_h(H_cat)  # (bs, q_length, dim)
     return H, A
 ```
@@ -821,11 +821,10 @@ E(p, 2i+1) &= \cos(p / 10000^{2i / d})
 \end{aligned}
 $$
 
-Pour ne pas trop s'attarder sur les détails, nous vous renvoyons à (là)[https://github.com/Atcold/pytorch-Deep-Learning/blob/master/15-transformer.ipynb] pour le code complet utilisé ici.
-
+Pour ne pas trop s'attarder sur les détails, nous vous renvoyons au *notebook* pour le code complet utilisé. Il est disponible en anglais [ici](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/15-transformer.ipynb) et en français [ici](https://github.com/lbourdois/pytorch-Deep-Learning-Notebooks-in-French/blob/master/15-transformer.ipynb).
 
-Un encodeur complet, avec N couches d'encodeur empilées, ainsi que des encastrements de position, s'écrit
 
+Un encodeur complet, avec N couches d'encodeur empilées, ainsi que des encastrements de position, s'écrit :
 
 ```python
 class Encoder(nn.Module):
@@ -869,10 +868,11 @@ Where this model is trained in typical fashion.
 -->
 
 ## Exemple d'utilisation
+
 Il y a beaucoup de tâches pour lesquelles vous pouvez utiliser un simple encodeur. Dans le notebook d'accompagnement, nous voyons comment un encodeur peut être utilisé pour l'analyse des sentiments.
 
-En utilisant l'ensemble de données d'Imdb (l’équivalent anglophone d’AlloCiné), nous pouvons sortir de l'encodeur une représentation latente d'une séquence de texte, et entraîner ce processus d'encodage avec une entropie croisée binaire, correspondant à une revue de film positive ou négative.
-Là encore, nous laissons de côté les écrous et les boulons, et nous vous dirigeons vers le bloc-notes, mais voici les principaux composants architecturaux utilisés dans le transformateur :
+En utilisant le jeu de données d'IMDB (l’équivalent anglophone d’AlloCiné), nous pouvons sortir de l'encodeur une représentation latente d'une séquence de text, et entraîner ce processus d'encodage avec une entropie croisée binaire, correspondant à une critique de film positive ou négative.
+Là encore, nous laissons de côté les dessous techniques et nous vous dirigeons vers le *notebook*, mais voici les principaux composants architecturaux utilisés dans le transformateur :
 ```python
 class TransformerClassifier(nn.Module):
     def forward(self, x):
diff --git a/docs/fr/week12/12.md b/docs/fr/week12/12.md
index ea29a2cac..8e9b5c1c2 100644
--- a/docs/fr/week12/12.md
+++ b/docs/fr/week12/12.md
@@ -14,9 +14,9 @@ In this section we discuss the various architectures used in NLP applications, b
 -->
 
 
-## Conférence partie A
+## Cours magistral partie A
 
-Dans cette section, nous discutons des différentes architectures utilisées dans les applications de NLP, en commençant par les ConvNets, les RNN, et en couvrant finalement l'architecture de pointe, les transformers. Nous abordons ensuite les différents modules qui composent les transformers et comment ils rendent les transformers avantageux pour les tâches de NLP. Enfin, nous discutons des astuces qui permettent d’entraîner efficacement les transformers.
+Dans cette section, nous discutons des différentes architectures utilisées dans les applications de traitement du langage naturel, en commençant par les ConvNets, les RNNs et en couvrant finalement l'architecture de pointe, les transformers. Nous abordons ensuite les différents modules qui composent les transformers et comment ils rendent avantageux  cette architecture pour les tâches de texte. Enfin, nous discutons des astuces qui permettent d’entraîner efficacement les transformers.
 
 <!--
 ## Lecture part B
@@ -24,9 +24,9 @@ Dans cette section, nous discutons des différentes architectures utilisées dan
 In this section we introduce beam search as a middle ground betwen greedy decoding and exhaustive search. We consider the case of wanting to sample from the generative distribution (i.e. when generating text) and introduce "top-k" sampling. Subsequently, we introduce sequence to sequence models (with a transformer variant) and backtranslation. We then introduce unsupervised learning approaches for learning embeddings and discuss word2vec, GPT, and BERT.
 -->
 
-## Conférence partie B
+## Cours magistral partie B
 
-Dans cette section, nous présentons la recherche par faisceau comme un consensus entre le décodage gourmand et la recherche exhaustive. Nous considérons le cas de vouloir échantillonner à partir de la distribution générative (c'est-à-dire lors de la génération de texte) et introduisons l'échantillonnage "top-k". Ensuite, nous introduisons les modèles de séquence à séquence (avec une variante pours les transformers) et la rétro-traduction. Nous introduisons ensuite des approches d'apprentissage non supervisées pour l'apprentissage des embeddings et discutons de word2vec, GPT et BERT.
+Dans cette section, nous présentons la recherche en faisceau comme un consensus entre le décodage gourmand et la recherche exhaustive. Nous considérons le cas de vouloir échantillonner à partir de la distribution générative (c'est-à-dire lors de la génération de texte) et introduisons l'échantillonnage *top-k*. Ensuite, nous introduisons les modèles de séquence à séquence (avec une variante pour les transformers) et la rétro-traduction. Nous voyons enfin des approches d'apprentissage non supervisées pour l'apprentissage des enchâssements et discutons de word2vec, GPT et BERT.
 
 <!--
 ## Practicum
@@ -35,9 +35,5 @@ Dans cette section, nous présentons la recherche par faisceau comme un consensu
 We introduce attention, focusing on self-attention and its hidden layer representations of the inputs. Then, we introduce the key-value store paradigm and discuss how to represent queries, keys, and values as rotations of an input. Finally, we use attention to interpret the transformer architecture, taking a forward pass through a basic transformer, and comparing the encoder-decoder paradigm to sequential architectures.
 -->
 
-## Pratique
-Nous introduisons l'attention, en nous concentrant sur l'auto-attention et ses représentations en couches cachées des intrants. Ensuite, nous introduisons le paradigme des valeurs des clés et discutons de la manière de représenter les requêtes, les clés et les valeurs comme des rotations d'une entrée. Enfin, nous utilisons l'attention pour interpréter l'architecture du transformer, en prenant un passage en avant à travers un transformer de base. Enfin nous comparons le paradigme de l'encodeur-décodeur à celui des architectures séquentielles.
-
-
-
-
+## Travaux dirigés
+Nous introduisons l'attention, en nous concentrant sur l'auto-attention et ses représentations de couches cachées des entrées. Ensuite, nous abordons le paradigme des valeurs des clés et discutons de la manière de représenter les requêtes, les clés et les valeurs comme des rotations d'une entrée. Enfin, nous utilisons l'attention pour interpréter l'architecture du transformer, en prenant une propagation avant à travers un transformer de base. Enfin nous comparons le paradigme de l'encodeur-décodeur à celui des architectures séquentielles.
diff --git a/docs/fr/week13/13-1.md b/docs/fr/week13/13-1.md
index daf3dc9a2..838346560 100644
--- a/docs/fr/week13/13-1.md
+++ b/docs/fr/week13/13-1.md
@@ -1,7 +1,7 @@
 ---
 lang: fr
 lang-ref: ch.13-1
-title: Réseau convolutif sur graphe (Graph Convolutional Network (GCN)) I
+title: Réseau convolutif pour graphe I
 lecturer: Xavier Bresson
 authors: Bilal Munawar, Alexander Bienstock, Can Cui, Shaoling Chen
 date: 27 Apr 2020
@@ -36,14 +36,14 @@ Consider an image of 1024 x 1024 pixels. This image can be seen as a point in th
 
 ### Qu'est-ce que la malédiction de la dimensionnalité ?
 
-Considérons une image de 1024 x 1024 pixels. Cette image peut être considérée comme un point dans l'espace pour 1 000 000 de dimensions. L'utilisation de 10 échantillons par dimension génère des images de ${10}^{1.000.000}$, ce qui est extrêmement élevé. Les réseaux convolutifs sont extrêmement puissants pour extraire la meilleure représentation des données d'images à haute dimension, comme celle donnée dans l'exemple.
+Considérons une image de 1024 x 1024 pixels. Cette image peut être considérée comme un point dans l'espace pour 1 000 000 de dimensions. L'utilisation de 10 échantillons par dimension génère des images de ${10}^{1 000 000}$, ce qui est extrêmement élevé. Les réseaux convolutifs sont extrêmement puissants pour extraire la meilleure représentation des données d'images à haute dimension, comme celle donnée dans l'exemple.
 
 - dim(image) = **1024 x 1024** = ${10}^{6}$
-- Pour **N = 10** échantillons/dim => **${10}^{1,000,000}$ points**
+- Pour **N = 10** échantillons/dim => **${10}^{1 000 000}$ points**
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-1/ConvNets.png" height="100%" width="100%"/><br>
-<b>Figure 1</b> : Les réseaux convolutifs extraient la représentation des données d'images en haute dimension.
+<b>Figure 1 :</b> Les réseaux convolutifs extraient la représentation des données d'images en haute dimension
 </center>
 
 
@@ -79,22 +79,22 @@ They extract compositional features and feed them to classifier, recommender, et
 
 Elles sont formées de motifs qui sont :
 
-* **Locaux** Un neurone du réseau neuronal n'est connecté qu'aux couches adjacentes, mais pas à toutes les couches du réseau. C'est ce que nous appelons l'hypothèse du champ de réception local.
-* **Stationnaires** Nous avons des motifs qui sont similaires et qui sont partagés dans tout notre domaine d'image. Par exemple, le drap de lit jaune dans l'image du milieu de la figure 2.
-* **Hierarchiques** Les caractéristiques de bas niveau seront combinées pour former des caractéristiques de niveau moyen. Par la suite, ces éléments de niveau moyen seront combinés pour former progressivement des éléments de niveau supérieur. Par exemple, une représentation visuelle.
+* **Locaux** : un neurone du réseau neuronal n'est connecté qu'aux couches adjacentes, mais pas à toutes les couches du réseau. C'est ce que nous appelons l'hypothèse du champ de réception local.
+* **Stationnaires** : nous avons des motifs qui sont similaires et qui sont partagés dans tout notre domaine d'image. Par exemple, le drap de lit jaune dans l'image du milieu de la figure 2.
+* **Hierarchiques** : les caractéristiques de bas niveau seront combinées pour former des caractéristiques de niveau moyen. Par la suite, ces éléments de niveau moyen seront combinés pour former progressivement des éléments de niveau supérieur. Par exemple, une représentation visuelle.
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-1/Pattern.png" height="100%" width="100%"/><br>
-<b>Figure 2</b> : Les données sont compositionnelles.
+<b>Figure 2< :/b> Les données sont compositionnelles
 </center>
 
-**2. Les réseaux convolutifs tirent parti de la structure de composition.**
+**2. Les réseaux convolutifs tirent parti de la compositionnalité de la structure.**
 
-Ils extraient les caractéristiques de composition et les transmettent au classifieur, au recommandeur, etc…
+Ils extraient les caractéristiques de composition et les transmettent au classifieur, au recommandeur, etc.
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-1/compositionality.png" height="75%" width="100%"/><br>
-<b>Figure 3</b> : Les réseaux convolutifs tirent parti de la structure de composition.
+<b>Figure 3 : </b> : Les réseaux convolutifs tirent parti de la compositionnalité de la structure
 </center>
 
 
@@ -138,30 +138,30 @@ Ils extraient les caractéristiques de composition et les transmettent au classi
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-1/Image.png" height="80%" width="80%"/><br>
-<b>Fig. 4</b> : Les images ont de multiples dimensions.
+<b>Figure 4 :</b> Les images ont de multiples dimensions
 </center>
 
 
 * Les phrases, les mots, la parole se trouvent sur le domaine euclidien 1D. Par exemple, chaque caractère peut être représenté par un entier.
 
-  <center>
-  <img src="{{site.baseurl}}/images/week13/13-1/Sequence.png" height="80%" width="80%"/><br>
-  <b>Fig. 5</b> : Les séquences ont une seule dimension.
-  </center>
+<center>
+<img src="{{site.baseurl}}/images/week13/13-1/Sequence.png" height="80%" width="80%"/><br>
+<b>Figure 5 :</b> Les séquences ont une seule dimension
+</center>
 
 
 * Ces domaines ont de fortes structures spatiales régulières, ce qui permet à toutes les opérations des réseaux convolutifs d'être rapides et mathématiquement bien définies.
 
-  <center>
-  <img src="{{site.baseurl}}/images/week13/13-1/Speech.png" height="80%" width="80%"/><br>
-  <b>Fig. 6</b> : Les données vocales ont une grille 1D.
-  </center>
+<center>
+<img src="{{site.baseurl}}/images/week13/13-1/Speech.png" height="80%" width="80%"/><br>
+<b>Figure 6< :/b> Les données vocales ont une grille 1D
+</center>
 
 <!--
 ### Graph Domain
 -->
 
-### Domaine du graphes 
+### Domaine du graphe
 
 <!--
 #### Motivational Examples of graph domains
@@ -191,18 +191,18 @@ Quantum Chemistry also offers an interesting representation of graphical domain.
 
 #### Exemples de domaine du graphe
 
-Envisageons un réseau social. Le réseau social est mieux saisi par une représentation graphique, car la connexion par paire entre deux utilisateurs ne forme pas une grille. Les nœuds du graphe représentent les utilisateurs, tandis que les arêtes entre deux nœuds représentent la connexion entre deux nœuds (utilisateurs). Chaque utilisateur dispose d'une matrice de caractéristiques tridimensionnelles contenant des messages, des images et des vidéos.
+Envisageons un réseau social. Le réseau social est mieux saisi par une représentation sous fore d'un graphe car la connexion par paire entre deux utilisateurs ne forme pas une grille. Les nœuds du graphe représentent les utilisateurs, tandis que les arêtes entre deux nœuds représentent la connexion entre deux utilisateurs. Chaque utilisateur dispose d'une matrice de caractéristiques tridimensionnelles contenant des messages, des images et des vidéos.
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-1/socialnetworks.png" height="70%" width="80%"/><br>
-<b>Fig. 7</b> : Représentation du graphe de réseaux sociaux
+<b>Figure 7 :</b> Représentation d'un réseau social sous la forme d'un graphe
 </center>
 
-Le lien entre la structure et la fonction du cerveau pour prédire les maladies génétiques neurales offre un exemple de motivation à prendre en considération. Comme on peut le voir ci-dessous, le cerveau est composé de plusieurs régions d'intérêt (Region of Interest(s)  en anglais, communément abrégé en ROI). Ces ROI ne sont connectées que localement à certaines régions d'intérêt environnantes. La matrice d'adjacence représente le degré de force entre les différentes régions d'intérêt.
+Le lien entre la structure et la fonction du cerveau pour prédire les maladies génétiques neurales offre un exemple de motivation à prendre en considération. Comme on peut le voir ci-dessous, le cerveau est composé de plusieurs régions d'intérêt (*Region of Interest(s)* en anglais, communément abrégé en ROI(s)). Ces ROIs ne sont connectées que localement à certaines régions d'intérêt environnantes. La matrice d'adjacence représente le degré de force entre les différentes régions d'intérêt.
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-1/brainconnectivity.png" height="80%" width="80%"/><br>
-<b>Fig. 8</b> : Connectivité du cerveau par représentation graphique.
+<b>Figure 8 :</b> Représentation de la connectivité cérébrale sous la forme d'un graphe
 </center>
 
 
@@ -210,7 +210,7 @@ La chimie quantique offre également une représentation intéressante du domain
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-1/quantumchemistry.png" height="80%" width="80%"/><br>
-<b>Fig. 9</b> : Chimie quantique par représentation graphique.
+<b>Figure 9 :</b> Représentation de la chimie quantique sous la forme d'un graphe
 </center>
 
 <!--
@@ -236,19 +236,19 @@ La chimie quantique offre également une représentation intéressante du domain
 ### Définition et caractéristiques des graphes
 
 * Le graphe G est défini par :
-    * **Sommets V** (V pour vertices en anglais)
-    * **Arrêtes E** (E pour edges en anglais)
-    * **Matrice d'adaptation A**
+    * des **sommets V** (V pour *vertices* en anglais)
+    * des **arêtes E** (E pour *edges* en anglais)
+    * une **matrice d'adjacence A**
 
 
-* Caractéristiques du graphe:
-    * **Caractéristiques des nœuds** : $h_{i}$, $h_{j}$** (type d'atome)
-    * **Caractéristiques de pointe** : $e_{ij}$** (type d'obligation)
-    * **Caractéristiques graphiques:** g (énergie des molécules)
+* Caractéristiques d'un graphe :
+    * caractéristiques au niveau d'un nœud : $h_{i}$, $h_{j}$** (ex : un atome)
+    * caractéristiques au niveau d'un arête : $e_{ij}$** (ex : une liaison entre atoma)
+    * caractéristiques au niveau du graphe : g (ex :une molécule)
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-1/graph.png" height="50%" width="80%"/><br>
-<b>Fig. 10</b> : Graphe
+<b>Figure 10 :</b> Graphe
 </center>
 
 <!--
@@ -283,16 +283,16 @@ Nous définissons abstraitement la convolution comme :
 
 $$h^{\ell+l} = w^\ell * h^\ell,$$
 où $h^{\ell+1}$ est $n_1\times n_2\times d$-dimensionnel, $w^\ell$ est $3\times 3\times d$-dimensionnel, et $h^\ell$ est $n_1\times n_2\times d$-dimensionnel.
-Par exemple, $n_1$ et $n_2$ pourraient être le nombre de pixels dans les directions $x$ et $y$ d'une image, respectivement, et $d$ est la dimensionnalité de chaque pixel (*par exemple *, 3 pour une image colorée).
-Ainsi, $h^{\ell+1}$ est une caractéristique au niveau de la couche cachée $(\ell+1)$-th obtenue en appliquant la convolution $w^\ell$ à une caractéristique au niveau de la couche $\ell$-th.
-Habituellement, le noyau est petit pour représenter un champ de réception local -- 3\times 3$ dans ce cas, ou 5\times 5$, par exemple.
+Par exemple, $n_1$ et $n_2$ pourraient être le nombre de pixels dans les directions $x$ et $y$ d'une image, respectivement, et $d$ est la dimensionnalité de chaque pixel (par exemple, 3 pour une image en couleur).
+Ainsi, $h^{\ell+1}$ est une caractéristique au niveau de la $(\ell+1)$-ème couche cachée obtenue en appliquant la convolution $w^\ell$ à une caractéristique au niveau de la $\ell$-ème couche.
+Habituellement, le noyau est petit pour représenter un champ de réception local. Dans ce cas $3\times 3$ ou par exemple $5\times 5$.
 Note : nous utilisons un rembourrage pour nous assurer que les dimensions de $h^{\ell+1}$ sont les mêmes que celles de $h^\ell$.
 
 Par exemple, dans cette image, le noyau peut être utilisé pour reconnaître les lignes.
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-1/linekernel.png" height="90%" width="80%"/><br>
-<b>Fig. 11</b> : Le noyau peut être utilisé pour reconnaître les lignes dans les images.
+<b>Figure 11 :</b> Le noyau peut être utilisé pour reconnaître les lignes dans les images
 </center>
 
 
@@ -366,30 +366,30 @@ $$ = \sum_{j\in\mathcal{N}_i} \langle w_j^\ell, h_{ij}^\ell\rangle$$
 
 $$=\sum_{j\in\mathcal{N}_i} \langle \Bigg[w_j^\ell\Bigg], \Bigg[h_{ij}\Bigg]\rangle$$
 
-Ce qui précède définit la convolution comme *la concordance des modèles*.
+Ce qui précède définit la convolution comme l'appariement de patrons/pochoirs (*template matching*).
 
 
-Nous utilisons généralement $h_{i+j}$ au lieu de $h_{i-j}$, car la première est en fait une corrélation, qui ressemble davantage à une correspondance de modèle.
+Nous utilisons généralement $h_{i+j}$ au lieu de $h_{i-j}$, car la première ligne est en fait une corrélation, qui ressemble davantage à l'appariement de patrons.
 
-Cependant, peu importe que vous utilisiez le premier ou le second, car votre noyau est simplement retourné, et cela n'a pas d'incidence sur l'apprentissage.
+Cependant, peu importe que nous utilisions la première ou la deuxième, car notre noyau est simplement retourné et cela n'a pas d'incidence sur l'apprentissage.
 
 Dans la troisième ligne, nous écrivons simplement $h_{i+j}^\ell$ comme $h_{ij}^\ell$.
 
-Le noyau est très petit, donc au lieu d'additionner sur toute l'image $\Omega$, comme dans la deuxième ligne, nous additionnons juste sur le voisinage de la cellule $i$, $\mathcal{N}_i$, comme indiqué dans la troisième ligne.
+Le noyau est très petit donc au lieu d'additionner sur toute l'image $\Omega$, comme dans la deuxième ligne, nous additionnons juste sur le voisinage de la cellule $i$, $\mathcal{N}_i$, comme indiqué dans la troisième ligne.
 
 Cela fait que la complexité de la convolution est de $O(n)$, où $n$ est le nombre de pixels de l'image d'entrée.
 
-La convolution est exactement pour chacun des pixels $n$, en additionnant sur les produits internes des vecteurs de dimension $d$ sur des grilles de 3\times 3$.
+La convolution est exactement pour chacun des pixels $n$, en additionnant sur les produits internes des vecteurs de dimension $d$ sur des grilles de $3\times 3$.
 
-La complexité est donc de $n\cdot 3\cdot 3\cdot d$, ce qui correspond à $O(n)$ ; et de plus le calcul peut être effectué en parallèle avec les GPU à chacun des $n$ pixels.
+La complexité est donc de $n\cdot 3\cdot 3\cdot d$, ce qui correspond à $O(n)$. De plus le calcul peut être effectué en parallèle avec les GPU à chacun des $n$ pixels.
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-1/orderednodes.png" height="80%" width="80%"/><br>
-<b>Fig. 12</b> : Les nœuds sont ordonnés de la même manière.
+<b>Figure 12 :</b> Les nœuds sont ordonnés de la même manière
 </center>
 
-Si le graphique sur lequel vous effectuez la convolution est une grille, comme dans la convolution standard sur les images en vision par ordinateur, alors les nœuds sont ordonnés comme dans l'image ci-dessus.
-Par conséquent, $j_3$ se trouvera toujours dans le coin supérieur droit du graphique.
+Si le graphe sur lequel vous effectuez la convolution est une grille, comme dans la convolution standard sur les images en vision par ordinateur, alors les nœuds sont ordonnés comme dans l'image ci-dessus.
+Par conséquent, $j_3$ se trouvera toujours dans le coin supérieur droit du graphe.
 
 Ainsi, pour tous les nœuds $i$ dans l'image ci-dessous, comme $i$ et $i'$, l'ordre des nœuds du noyau est toujours le même.
 Par exemple, vous comparez toujours $j_3$ dans le coin supérieur droit du motif avec le coin supérieur droit du patch de l'image (ce sur quoi nous effectuons une convolution pour le pixel $i$), comme indiqué ci-dessous.
@@ -409,7 +409,7 @@ sont toujours pour le coin supérieur droit entre le modèle et les patchs d'ima
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-1/templatesmatch.png" height="70%" width="80%"/><br>
-<b>Fig. 13</b> : Les patchs d'image correspondent aux modèles.
+<b>Figure 13 :</b> Les patchs d'image correspondent aux pochoirs
 </center>
 
 <!--
@@ -440,30 +440,30 @@ How can we compare these two?
 </center>
 -->
 
-### Pouvons-nous étendre la correspondance des modèles pour les graphes ?
+### Pouvons-nous étendre l'appariement de patrons aux graphes ?
 
 Nous avons quelques problèmes :
 1. Premièrement, dans un graphe, il n'y a pas d'ordre des nœuds.
 
-Ainsi, dans le modèle montré ci-dessous dans l'image, le nœud $j_3$ n'a pas de position spécifique, mais juste un index (arbitraire).
-Ainsi, lorsque nous essayons de faire correspondre les nœuds $i$ et $i'$ dans le graphique ci-dessous, nous ne savons pas si $j_3$ correspond aux mêmes nœuds dans les deux convolutions.
-Ceci est dû au fait qu'il n'y a pas de notion de *coin supérieur droit* du graphique.
+Ainsi, dans l'image, le nœud $j_3$ n'a pas de position spécifique, mais juste un index (arbitraire).
+Ainsi, lorsque nous essayons de faire correspondre les nœuds $i$ et $i'$ dans le graphe ci-dessous, nous ne savons pas si $j_3$ correspond aux mêmes nœuds dans les deux convolutions.
+Ceci est dû au fait qu'il n'y a pas de notion de *coin supérieur droit* dans le graphe.
 Il n'y a pas de notion de haut, bas, gauche droite.
-Ainsi, les correspondances de modèles n'ont en fait aucune signification et nous ne pouvons pas utiliser la définition de correspondance de modèle directement, comme ci-dessus.
+Ainsi, l'appariement de patrons n'a en fait aucune signification et nous ne pouvons pas l'utiliser directement comme ci-dessus.
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-1/nonodeordering.png" height="70%" width="80%"/><br>
-<b>Fig. 14</b> : Pas de classement des nœuds dans un graphe.
+<b>Figure 14 :</b> Pas d'ordre des nœuds dans un graphe
 </center>
 
 2. Le deuxième problème est que la taille du voisinage peut être différente.
 
 Ainsi, le modèle $w^\ell$ présenté ci-dessous a 4 nœuds, mais le nœud $i$ a 7 nœuds dans son voisinage.
-Comment pouvons-nous comparer ces deux modèles ?
+Comment pouvons-nous comparer ces deux choses ?
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-1/diffneigh.png" height="70%" width="80%"/><br>
-<b>Fig. 15</b> : Différentes tailles de voisinage dans un graphe.
+<b>Figure 15 :</b> Différentes tailles de voisinage dans un graphe
 </center>
 
 <!--
@@ -478,11 +478,11 @@ $$\mathcal{F}(w*h) = \mathcal{F}(w) \odot \mathcal{F}(h) \implies w * h = \mathc
 In general, the Fourier transform has $O(n^2)$ complexity, but if the domain is a grid, then the complexity can be reduced to $O(n\log n)$ with FFT.
 -->
 
-## Convolution du graphe
+## Convolution pour un graphe
 
 Nous utilisons maintenant le **théorème des convolutions** pour définir les convolutions des graphes.
 
-Le **théorème des convolutions** indique que la transformée de Fourier (FFT) de la convolution de deux fonctions est le produit ponctuel de leurs transformées de Fourier :
+Le **théorème des convolutions** indique que la transformée de Fourier (FFT) de la convolution de deux fonctions est le produit élément par élément de leurs transformées de Fourier :
 
 $$\mathcal{F}(w*h) = \mathcal{F}(w) \odot \mathcal{F}(h) \implies w * h = \mathcal{F}^{-1}(\mathcal{F}(w)\odot\mathcal{F}(h))$$
 
@@ -505,12 +505,11 @@ Template matching will be for spacial graph ConvNets and the Convolution theorem
 
 Cela soulève deux questions :
 1. Comment définir les transformées de Fourier pour les graphes ?
-2. Comment calculer des convolutions spectrales rapides en temps $O(n)$ pour les noyaux compacts (comme dans la correspondance des modèles) ?
+2. Comment calculer des convolutions spectrales rapides en temps $O(n)$ pour les noyaux compacts (comme dans l'appariement de patrons) ?
 
 $$w *_{\mathcal{G}} h \stackrel{?}{=} \mathcal{F}^{-1}_{\mathcal{G}}(\mathcal{F}_{\mathcal{G}}(w)\odot\mathcal{F}_{\mathcal{G}}(h))$$
 
-Nous allons utiliser ces deux modèles pour les réseaux neuronaux de graphes :
-La correspondance des modèles sera utilisée pour les réseaux convolutifs de graphes spatiaux et le théorème de convolution sera utilisé pour les réseaux convolutifs spectraux.
+Nous allons utiliser ces deux modèles pour les réseaux neuronaux de graphes. L'appariement de patrons sera utilisé pour les GCNs (ConvNets pour graphe) spatiaux et le théorème de convolution sera utilisé pour les GCNs spectraux.
 
 <!--
 ## [Spectral Graph ConvNets](https://www.youtube.com/watch?v=Iiv9R6BjxHM&list=PLLHTzKZzVU9eaEyErdV26ikyolxOsz6mq&index=24&t=1529s)
@@ -518,7 +517,7 @@ La correspondance des modèles sera utilisée pour les réseaux convolutifs de g
 How to perform spectral convolution?
 -->
 
-## [Réseau convolutif spectral sur graphe](https://www.youtube.com/watch?v=Iiv9R6BjxHM&list=PLLHTzKZzVU9eaEyErdV26ikyolxOsz6mq&index=24&t=1529s)
+## [GCNs spectraux](https://www.youtube.com/watch?v=Iiv9R6BjxHM&list=PLLHTzKZzVU9eaEyErdV26ikyolxOsz6mq&index=24&t=1529s)
 
 Comment effectuer une convolution spectrale ?
 
@@ -557,7 +556,7 @@ $$
 $$
 
 
-Note Matrice $A$ est la matrice de contiguïté, et le $\Delta$ est le Laplacien, qui est égal à l'identité moins la matrice de contiguïté normalisée par la matrice $D$. $D$ est une matrice diagonale, et chaque élément de la diagonale est le degré du nœud. C'est ce qu'on appelle le Laplacien normalisé, ou Laplacien par défaut dans ce contexte.
+$A$ est la matrice d'adjacence et le $\Delta$ est le Laplacien, qui est égal à l'identité moins la matrice d'adjacence normalisée par la matrice $D$. $D$ est une matrice diagonale et chaque élément de la diagonale est le degré du nœud. C'est ce qu'on appelle le Laplacien normalisé ou simplement Laplacien par défaut dans ce contexte.
 
 
 Le Laplacien est interprété comme la mesure de la finesse du graphe, en d'autres termes, la différence entre la valeur locale $h_i$ et sa valeur moyenne de voisinage de $h_j$'s. $d_i$ sur la formule ci-dessous est le degré du nœud $i$, et $\mathcal{N}_{i}$ est l'ensemble des voisins du nœud $i$.
@@ -566,7 +565,7 @@ $$
 (\Delta h)_{i}=h_{i}-\frac{1}{d_{i}} \sum_{j \in \mathcal{N}_{i}} A_{i j} h_{j}
 $$
 
-La formule ci-dessus consiste à appliquer le Laplacien à une fonction $h$ sur le nœud $i$, qui est la valeur de $h_i$ moins la valeur moyenne sur ses nœuds voisins $h_j$. Fondamentalement, si le signal est très lisse, la valeur de Laplacien est faible, et *vice versa*.
+La formule ci-dessus consiste à appliquer le Laplacien à une fonction $h$ sur le nœud $i$, qui est la valeur de $h_i$ moins la valeur moyenne sur ses nœuds voisins $h_j$. Fondamentalement, si le signal est très lisse, la valeur de Laplacien est faible et *vice versa*.
 
 <!--
 ### Step 2 : Fourier Functions
@@ -655,14 +654,14 @@ L'image ci-dessous est la visualisation des vecteurs propres du Laplacien euclid
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-1/grid.png" height="90%" width="100%"/><br>
-<b>Fig. 16</b> : Grille/domaine euclidien : vecteurs propres du laplacien euclidien 1D.
+<b>Figure 16 :</b> Grille/domaine euclidien : vecteurs propres du laplacien euclidien 1D.
 </center>
 
 Pour le domaine des graphes, de gauche à droite, se trouvent les première, deuxième, troisième, ... fonctions de Fourier d'un graphe. Par exemple, $\phi_1$ a des oscillations de valeurs positives (rouge) et négatives (bleu), de même pour $\phi2$, $\phi3$. Ces oscillations dépendent de la topologie d'un graphe, qui est liée à la géométrie des graphes tels que les communautés, les hubs, etc, et c'est utile pour le regroupement des graphes. Voir ci-dessous.
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-1/graphdomain.png" height="90%" width="100%"/><br>
-<b>Fig. 17</b> : Domaine du graphe : Fonctions de Fourier d'un graphe.
+<b>Figure 17 :</b> Domaine du graphe : fonctions de Fourier d'un graphe.
 </center>
 
 <!--
@@ -707,7 +706,7 @@ $$
 } \end{aligned}
 $$
 
-**Séries de Fourrier : Décomposer la fonction $h$ avec les fonctions de Fourier.**
+**Séries de Fourrier : décomposer la fonction $h$ avec les fonctions de Fourier.**
 
 Prendre la fonction $h$ et la projeter sur chaque fonction de Fourier $\phi_k$, ce qui donne le coefficient de la série de Fourier de $k$, une échelle, puis le multiplier par la fonction $\phi_k$.
 
diff --git a/docs/fr/week13/13-2.md b/docs/fr/week13/13-2.md
index 675da51e4..e539f36d6 100644
--- a/docs/fr/week13/13-2.md
+++ b/docs/fr/week13/13-2.md
@@ -1,7 +1,7 @@
 ---
 lang: fr
 lang-ref: ch.13-2
-title: Réseau convolutif sur graphe II
+title: Réseau convolutif pour graphe II
 lecturer: Xavier Bresson
 authors: Neil Menghani, Tejaishwarya Gagadam, Joshua Meisel and Jatin Khilnani
 date: 27 Apr 2020
@@ -15,9 +15,9 @@ translator: Loïck Bourdois
 In the previous section we discussed Graph Spectral Theory, one of the two ways to define convolution for graphs, which we can now use to define Spectral GCNs.
 -->
 
-## [Réseau convolutif spectral sur graphe](https://www.youtube.com/watch?v=Iiv9R6BjxHM&list=PLLHTzKZzVU9eaEyErdV26ikyolxOsz6mq&index=24&t=2670s)
+## [Réseaux convolutifs pour graphe (GCNs) spectraux](https://www.youtube.com/watch?v=Iiv9R6BjxHM&list=PLLHTzKZzVU9eaEyErdV26ikyolxOsz6mq&index=24&t=2670s)
 
-Dans la section précédente, nous avons discuté de la théorie spectrale des graphes, l'une des deux façons de définir la convolution des graphes, que nous pouvons maintenant utiliser pour définir les GCN spectraux.
+Dans la section précédente, nous avons discuté de la théorie spectrale des graphes et de l'une des deux façons de définir la convolution des graphes que nous pouvons maintenant utiliser pour définir les GCNs spectraux.
 
 <!--
 ### Vanilla Spectral GCN
@@ -42,15 +42,15 @@ This technique was the first spectral technique used for ConvNets, but it has a
 * Learning rate is $O(n^2$) because $\boldsymbol{\phi}$ is a dense matrix
 -->
 
-### Réseau convolutif spectral sur graphe ordinaire
+### GCN spectral standard
 
-Nous définissons une couche convolutionnelle spectrale sur graphe telle que, étant donné la couche $h^l$, l'activation de la couche suivante est :
+Nous définissons une couche convolutionnelle spectrale pour graphe telle que, étant donnée la couche $h^l$, l'activation de la couche suivante est :
 
 $$
 h^{l+1}=\eta(w^l*h^l),
 $$
 
-où $\eta$ représente une activation non linéaire et $w^l$ est un filtre spatial. L’RHS de l'équation est équivalente à $\eta(\hat{w}^l(\Delta)h^l)$ où $\hat{w}^l$ représente un filtre spectral et $\Delta$ est le laplacien. Nous pouvons ensuite décomposer l’RHS de l'équation en $\eta(\boldsymbol{\phi} \hat{w}^l(\Lambda)\boldsymbol{\phi^\top} h^l)$, où $\boldsymbol{\phi}$ est la matrice de Fourier et $\Lambda$ sont les valeurs propres. On obtient ainsi l'équation d'activation finale suivante.
+où $\eta$ représente une activation non linéaire et $w^l$ est un filtre spatial. Le côté droit de l'équation est équivalent à $\eta(\hat{w}^l(\Delta)h^l)$ où $\hat{w}^l$ représente un filtre spectral et $\Delta$ est le laplacien. Nous pouvons ensuite décomposer le côté droit de l'équation en $\eta(\boldsymbol{\phi} \hat{w}^l(\Lambda)\boldsymbol{\phi^\top} h^l)$, où $\boldsymbol{\phi}$ est la matrice de Fourier et $\Lambda$ sont les valeurs propres. On obtient ainsi l'équation d'activation finale suivante.
 
 $$
 h^{l+1}=\eta\Big(\boldsymbol{\phi} \hat{w}^l(\Lambda)\boldsymbol{\phi^\top} h^l\Big)
@@ -59,9 +59,9 @@ $$
 L'objectif est d'apprendre le filtre spectral $\hat{w}^l(\lambda)$ en utilisant la rétropropagation au lieu de la conception manuelle.
 
 Cette technique a été la première technique spectrale utilisée pour les ConvNets, mais elle présente quelques limites :
-* Aucune garantie de localisation spatiale des filtres
-* Besoin d'apprendre les paramètres $O(n)$ par couche ($\hat{w}(\lambda_1)$ à $\hat{w}(\lambda_n)$)
-* Le taux d'apprentissage est de $O(n^2$) car $\boldsymbol{\phi}$ est une matrice dense
+* Aucune garantie de localisation spatiale des filtres.
+* Besoin d'apprendre les paramètres $O(n)$ par couche ($\hat{w}(\lambda_1)$ à $\hat{w}(\lambda_n)$).
+* Le taux d'apprentissage est de $O(n^2$) car $\boldsymbol{\phi}$ est une matrice dense.
 
 
 <!--
@@ -80,7 +80,7 @@ Now, we only have $O(1)$ parameters (constant $K$) per layer to be learned throu
 
 ### Les SplineGCNs
 
-Les SplineGCNs impliquent le calcul de filtres spectraux lisses pour obtenir des filtres spatiaux localisés. Le lien entre le lissage dans le domaine fréquentiel et la localisation dans l'espace est basé sur l'identité de Parseval (également principe d'incertitude de Heisenberg) : plus petite dérivée du filtre spectral (fonction de lissage) $\Leftrightarrow$ plus petite variance du filtre spatial (localisation).
+Les SplineGCNs impliquent le calcul de filtres spectraux lisses pour obtenir des filtres spatiaux localisés. Le lien entre le lissage dans le domaine fréquentiel et la localisation dans l'espace est basé sur l'égalité de Parseval : plus petite dérivée du filtre spectral (fonction de lissage) $\Leftrightarrow$ plus petite variance du filtre spatial (localisation).
 
 Comment obtenir un filtre spectral plus lisse ? Nous décomposons le filtre spectral pour obtenir une combinaison linéaire de $K$ noyaux lisses $\boldsymbol{B}$ (splines) de sorte que $\hat{w}^l(\Lambda)=diag(\boldsymbol{B}w^l)$. L'équation d'activation est la suivante.
 
@@ -132,11 +132,11 @@ $$
 w*h=\hat{w}(\Delta)h=\bigg(\sum^{K-1}_{k=0}w_k\Delta^k\bigg)h
 $$
 
-Une caractéristique intéressante est que les filtres sont localisés exactement dans les supports k-hop.
+Une caractéristique intéressante est que les filtres sont localisés exactement dans les supports *k-hop*.
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-2/Figure1.png" style="background-color:#DCDCDCDC ;" /><br>
-<b>Figure 1:</b> Démontre les voisinages à 1 et 2 sauts
+<b>Figure 1 :</b> Démontre les voisinages à 1 et 2 sauts
 </center>
 
 Nous remplaçons l'expression $\Delta^kh$ par $X_k$, une équation récursive définie comme,
@@ -151,9 +151,9 @@ $$
 h^{l+1}=\eta\bigg(\sum^{K-1}_{k=0}w_kX_k\bigg)=\eta\Big((w^l)^\top \bar{X}\Big)
 $$
 
-Note : Comme aucune décomposition propre laplacienne n'est utilisée, toutes les opérations se situent dans le domaine spatial (et non spectral). Il peut donc être erroné de les appeler GCN spectraux. En outre, un autre inconvénient des LapGCN est que les couches convolutionnelles impliquent des opérations linéaires éparses, pour lesquelles les GPU ne sont pas totalement optimisés.
+Note : comme aucune décomposition propre laplacienne n'est utilisée, toutes les opérations se situent dans le domaine spatial (et non spectral). Il peut donc être erroné de les appeler GCNs spectraux. En outre, un autre inconvénient des LapGCNs est que les couches convolutionnelles impliquent des opérations linéaires éparses, pour lesquelles les GPUs ne sont pas totalement optimisés.
 
-Nous avons maintenant résolu les 3 limitations des GCN Vanilla grâce à des filtres localisés (en $K$-hop support), $O(1)$ paramètres par couche et $O(n)$ complexité d'apprentissage. Cependant, la limitation des GCN Vanilla est que la base monomiale ($\Delta^0,\Delta^1,\ldots$) utilisée est instable pour l'optimisation car elle n'est pas orthogonale (la modification d'un coefficient modifie l'approximation de la fonction).
+Nous avons maintenant résolu les 3 limitations des GCNs standards grâce à des filtres localisés (en support *$K$-hop*), $O(1)$ paramètres par couche et $O(n)$ complexité d'apprentissage. Cependant, la limitation des GCNs standards est que la base monomiale ($\Delta^0,\Delta^1,\ldots$) utilisée est instable pour l'optimisation car elle n'est pas orthogonale (la modification d'un coefficient modifie l'approximation de la fonction).
 
 
 
@@ -187,7 +187,7 @@ $$
 
 Nous avons maintenant une stabilité sous l'effet de la perturbation du coefficient.
 
-Les ChebNets sont des GCN qui peuvent être utilisés pour n'importe quel domaine de graphe arbitraire, mais la limitation est qu'ils sont isotropes. Les ConvNets standard produisent des filtres *anisotropes* car les grilles euclidiennes ont une direction, tandis que les GCN spectraux calculent des filtres *isotropes* car les graphes n'ont pas de notion de direction (haut, bas, gauche, droite).
+Les ChebNets sont des GCNs qui peuvent être utilisés pour n'importe quel domaine de graphe arbitraire, mais la limitation est qu'ils sont isotropes. Les ConvNets standards produisent des filtres *anisotropes* car les grilles euclidiennes ont une direction, tandis que les GCNs spectraux calculent des filtres *isotropes* car les graphes n'ont pas de notion de direction (haut, bas, gauche, droite).
 
 Nous pouvons étendre les ChebNets à plusieurs graphes en utilisant un filtre spectral 2D. Cela peut être utile, par exemple, dans les systèmes de recommandation où nous avons des graphes de films et des graphes d'utilisateurs. Les ChebNets multi-graphes ont l'équation d'activation suivante.
 
@@ -223,7 +223,7 @@ Les CayleyNets ont les mêmes propriétés que les ChebNets (sont isotropes), ma
 ## [Spatial Graph ConvNets](https://www.youtube.com/watch?v=Iiv9R6BjxHM&list=PLLHTzKZzVU9eaEyErdV26ikyolxOsz6mq&index=24&t=3964s)
 -->
 
-## [Réseau convolutif sur graphe spacial](https://www.youtube.com/watch?v=Iiv9R6BjxHM&list=PLLHTzKZzVU9eaEyErdV26ikyolxOsz6mq&index=24&t=3964s)
+## [GCNs spaciaux](https://www.youtube.com/watch?v=Iiv9R6BjxHM&list=PLLHTzKZzVU9eaEyErdV26ikyolxOsz6mq&index=24&t=3964s)
 
 <!--
 ### Template Matching
@@ -260,24 +260,24 @@ where, $\boldsymbol{A}$ is the adjacency matrix of dimensions $n \times n$, $h^l
 Based on this definition of Template Matching we can define two types of Spatial GSNs -- Isotropic GCNs and Anisotropic GCNs.
 -->
 
-### Template matching
+### Appariement de patrons
 
-Pour comprendre les réseaux convolutifs sur graphe spaciaux, nous revenons à la définition des ConvNets dans le template matching.
+Pour comprendre les CGNs spaciaux, nous revenons à la définition des ConvNets via l'appariement de patrons.
 
-Le problème principal lorsque nous effectuons la comparaison de modèles pour les graphes est l'absence d'ordre ou de positionnement des nœuds pour le modèle. Tout ce que nous avons, ce sont les indices des nœuds, ce qui ne suffit pas pour faire correspondre les informations entre eux. Comment pouvons-nous concevoir la mise en correspondance des modèles de manière à ce qu'elle soit invariante pour le re-paramétrage des nœuds ? C'est-à-dire que si nous avons un graphe et que l'un des nœuds avait un indice arbitraire, disons 6, cet indice aurait pu être de 122 également. Il est donc essentiel de pouvoir effectuer la correspondance des modèles indépendamment de l'index du nœud.
+Le problème principal lorsque nous effectuons l'appariement de patrons pour les graphes est l'absence d'ordre ou de positionnement des nœuds pour le modèle. Tout ce que nous avons, ce sont les indices des nœuds, ce qui ne suffit pas pour faire correspondre les informations entre eux. Comment pouvons-nous concevoir l'appariement de patrons de manière à ce qu'il soit invariant pour le reparamétrage des nœuds ? C'est-à-dire pas de modification si nous avons un graphe et changeons l'indice arbitraire de l'un des nœuds de, disons 6, à 122. Il est donc essentiel de pouvoir effectuer l'appariement de patrons indépendamment de l'index du nœud.
 
-La façon la plus simple de le faire est d'avoir un seul vecteur de modèle $w^l$, au lieu d'avoir $w_{j1}$, $w_{j2}$, $w_{j3}$ ou ainsi de suite. Nous faisons donc correspondre ce vecteur $w^l$ avec toutes les autres caractéristiques de notre graphe. La plupart des réseaux neuronaux de graphes utilisent aujourd'hui cette propriété.
+La façon la plus simple de le faire est d'avoir un seul vecteur de patron $w^l$, au lieu d'avoir $w_{j1}$, $w_{j2}$, $w_{j3}$ ou ainsi de suite. Nous faisons donc correspondre ce vecteur $w^l$ avec toutes les autres caractéristiques de notre graphe. La plupart des GNNs utilisent aujourd'hui cette propriété.
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-2/Figure2.png" /><br>
-<b>Figure 2:</b> Correspondance de modèles à l'aide d'un vecteur de modèle
+<b>Figure 2 :</b> L'appariement de patrons à l'aide d'un vecteur de patron
 </center>
 
 Mathématiquement, pour une caractéristique que nous avons,
 
 $$h_{i}^{l+1}=\eta\bigg(\sum_{j \in N_{i}} \langle w^l,h_{ij}^l \rangle \bigg)$$
 
-où $w^l$ est le vecteur modèle au niveau de la couche $l$ de dimensions $d \times 1$ et $h_{ij}^l$ est le vecteur au niveau du noeud j avec $d \times 1$ ce qui donnera une quantité d'échelle $h_{i}^{l+1}$ au noeud $i$.
+où $w^l$ est le vecteur de patron au niveau de la couche $l$ de dimensions $d \times 1$ et $h_{ij}^l$ est le vecteur au niveau du noeud j avec $d \times 1$ ce qui donnera une quantité d'échelle $h_{i}^{l+1}$ au noeud $i$.
 
 Pour plus de ($d$) caractéristiques,
 
@@ -289,9 +289,9 @@ Pour une représentation vectorielle,
 
 $$h^{l+1}=\eta(\boldsymbol{A} h^l \boldsymbol{W}^l)$$
 
-où $\boldsymbol{A}$ est la matrice de contiguïté de dimensions $n \times n$, $h^l$ est la fonction d'activation à la couche $l$ de dimensions $n \times d$.
+où $\boldsymbol{A}$ est la matrice d'adjacence de dimensions $n \times n$, $h^l$ est la fonction d'activation à la couche $l$ de dimensions $n \times d$.
 
-Sur la base de cette définition de la correspondance des modèles, nous pouvons définir deux types de GSN spatiaux : les GCN isotropes et les GCN anisotropes.
+Sur la base de cette définition de l'appariement de patrons, nous pouvons définir deux types de GCNs spatiaux : les GCNs isotropes et les GCNs anisotropes.
 
 
 <!--
@@ -339,11 +339,11 @@ $$h_{i}^{l+1} = f_\text{GCN}(h_{i}^{l}, \{h_{j}^l: j \rightarrow i\})$$
 So, the activation of the next layer $h_{i}^{l+1}$ is a function of the activation of the previous layer $h_{i}^{l}$ at node $i$ and the neighbourhood of $i$. When we change the function, we get an entire family of graphs.
 -->
 
-### GCNs spaciaux ordinaires
+### GCNs spaciaux standards
 
-Elle a la même définition qu'auparavant, mais nous ajoutons la matrice diagonale dans l'équation, de telle sorte que nous trouvons la valeur moyenne du quartier.
+Même définition qu'auparavant, mais nous ajoutons la matrice diagonale dans l'équation, de telle sorte que nous trouvons la valeur moyenne du voisinnage.
 
-La représentation matricielle étant,
+La représentation matricielle étant :
 
 $$h^{l+1} = \eta(\boldsymbol{D}^{-1}\boldsymbol{A}h^{l}\boldsymbol{W}^{l})$$
 
@@ -355,7 +355,7 @@ $$h_{i}^{l+1} = \eta\bigg(\frac{1}{d_{i}}\sum_{j \in N_{i}}\boldsymbol{A}_{ij}\b
 
 où, $h_{i}^{l+1}$ a les dimensions de $d \times 1$
 
-La représentation vectorielle est responsable de la gestion de l'absence d'ordonnancement des nœuds, qui est invariante de la re-paramétrisation des nœuds. C'est-à-dire, en ajoutant à l'exemple précédent, si le noeud a un en 6 et est changé en 122, cela ne changera rien dans le calcul de la fonction d'activation de la couche suivante $h^{l+1}$.
+La représentation vectorielle est responsable de la gestion de l'absence d'ordonnancement des nœuds, qui est invariante de la reparamétrisation des nœuds. C'est-à-dire, en ajoutant à l'exemple précédent, si le noeud a un en 6 et est changé en 122, cela ne changera rien dans le calcul de la fonction d'activation de la couche suivante $h^{l+1}$.
 
 Nous pouvons également traiter des voisinages de tailles différentes. C'est-à-dire que nous pouvons avoir un voisinage de 4 nœuds ou de 10 nœuds, cela ne changera rien.
 
@@ -369,7 +369,7 @@ Comme il s'agit d'un modèle isotrope, les voisins auront la même matrice $\bol
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-2/Figure4.png" /><br>
-<b>Figure 3:</b> Modèle isotrope
+<b>Figure 3 :</b> Modèle isotrope
 </center>
 
 $$h_{i}^{l+1} = f_\text{GCN}(h_{i}^{l}, \{h_{j}^l: j \rightarrow i\})$$
@@ -384,9 +384,9 @@ The above defined Vanilla Spatial GCN is a simplification of ChebNets. We can tr
 $$h_{i}^{l+1} = \eta\bigg(\frac{1}{\hat{d_{i}}}\sum_{j \in N_{i}}\hat{\boldsymbol{A}_{ij}}\boldsymbol{W}^{l}h_{j}^{l}\bigg)$$
 -->
 
-### ChebNets et GCNs spaciaux ordinaires
+### ChebNets et GCNs spaciaux standards
 
-Le GCN spatial ordinaire défini ci-dessus est une simplification des ChebNets. Nous pouvons tronquer l'expansion de ChebNet en utilisant les deux premières fonctions de Chebyshev pour aboutir,
+Le GCN spatial standard défini ci-dessus est une simplification des ChebNets. Nous pouvons tronquer l'expansion de ChebNet en utilisant les deux premières fonctions de Chebyshev pour aboutir à :
 
 $$h_{i}^{l+1} = \eta\bigg(\frac{1}{\hat{d_{i}}}\sum_{j \in N_{i}}\hat{\boldsymbol{A}_{ij}}\boldsymbol{W}^{l}h_{j}^{l}\bigg)$$
 
@@ -414,11 +414,11 @@ In this equation, we can find the summation or maximum of $\boldsymbol{W}\_{2}^{
 
 ### GraphSage
 
-Si la matrice d'adjacence $\boldsymbol{A}_{ij} = 1$ pour les arêtes dans les GCN Vanilla Spatial, on obtient,
+Si la matrice d'adjacence $\boldsymbol{A}_{ij} = 1$ pour les arêtes dans les GCNs spatiaux standards, on obtient :
 
 $$h_{i}^{l+1} = \eta\bigg(\frac{1}{d_{i}}\sum_{j \in N_{i}}\boldsymbol{W}^{l}h_{j}^{l}\bigg)$$
 
-Pour cette équation, nous donnons au sommet central/coeur $i$ et à son voisinage le même poids de modèle $\boldsymbol{W}^{l}$. Nous pouvons différencier cette équation en donnant au nœud central $\boldsymbol{W}\_{1}^{l}$, et en ayant un nœud de modèle différent $\boldsymbol{W}_{2}^{l}$ pour le quartier chaud. Cela permettra d'améliorer considérablement les performances des GNN. Ce modèle est toujours considéré comme étant de nature isotrope, puisque les voisins ont le même poids.
+Pour cette équation, nous donnons au sommet central/coeur $i$ et à son voisinage le même poids au pochoir $\boldsymbol{W}^{l}$. Nous pouvons différencier cette équation en donnant au nœud central $\boldsymbol{W}\_{1}^{l}$, et en ayant un nœud de pochoir différent $\boldsymbol{W}_{2}^{l}$ pour le voisinage *one-hot*. Cela permettra d'améliorer considérablement les performances des GNNs. Ce modèle est toujours considéré comme étant de nature isotrope, puisque les voisins ont le même poids.
 
 $$h_{i}^{l+1} = \eta\bigg(\boldsymbol{W}_{1}^{l} h_{i}^{l} + \frac{1}{d_{i}} \sum_{j \in N_{i}} \boldsymbol{W}_{2}^{l} h_{j}^{l}\bigg)$$
 
@@ -428,7 +428,7 @@ Dans cette équation, on peut trouver la somme ou le maximum de $\boldsymbol{W}\
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-2/Figure3.png" /><br>
-<b>Figure 4:</b> GraphSage
+<b>Figure 4 :</b> GraphSage
 </center>
 
 <!--
@@ -451,21 +451,21 @@ $$h_{i}^{l+1} = (1 + \epsilon)h_{i}^{l} + \sum_{j \in N_{i}} h_{j}^{l}$$
 -->
 
 
-### Graph Isomorphism Networks (GIN)
+### *Graph Isomorphism Networks* (GIN)
 
 Une architecture qui peut différencier les graphes qui ne sont pas isomorphiques. *L'isomorphisme* est la mesure de l'équivalence entre les graphes. Dans la figure ci-dessous, les deux graphes sont considérés comme isomorphes l'un par rapport à l'autre. Les graphes isomorphes seront traités de manière similaire et les graphes non isomorphes seront traités différemment.
 
-Le GIN est un GCN isotrope.
+Le GIN (*Graph Isomorphism Networks*) est un GCN isotrope.
 
 $$h_{i}^{l+1} = \texttt{ReLU}(\boldsymbol{W}_{2}^{l}\space \texttt{ReLU}(\texttt{BN}(\boldsymbol{W}_{1}^{l} \hat(h_{j}^{l+1})))$$
 
-où, $\texttt{BN}$ représente la batch normalisation.
+où, $\texttt{BN}$ représente la normalisation par batch.
 
 $$h_{i}^{l+1} = (1 + \epsilon)h_{i}^{l} + \sum_{j \in N_{i}} h_{j}^{l}$$
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-2/Figure5.png" /><br>
-<b>Figure 5:</b> Exemples de deux graphes isomorphes
+<b>Figure 5 :</b> Exemples de deux graphes isomorphes
 </center>
 
 <!--
@@ -474,8 +474,7 @@ $$h_{i}^{l+1} = (1 + \epsilon)h_{i}^{l} + \sum_{j \in N_{i}} h_{j}^{l}$$
 Standard CNNs have the ability to produce anisotropic filters — ones that favour certain directions. This is because the directional structure is based on up, down, left, and right. However, the GCNs described above have no notion of direction, and thus can only produce isotropic filters. Anisotropy can be introduced naturally, with edge features. For instance, molecules can have single, double, and triple bonds. Graphically, it is introduced weighting different neighbours differently.
 -->
 
-## [Anisotropic GCNs](https://www.youtube.com/watch?v=Iiv9R6BjxHM&list=PLLHTzKZzVU9eaEyErdV26ikyolxOsz6mq&index=24&t=5586s)
-
+## [GCNs anisotropes](https://www.youtube.com/watch?v=Iiv9R6BjxHM&list=PLLHTzKZzVU9eaEyErdV26ikyolxOsz6mq&index=24&t=5586s)
 
 Les ConvNets standards ont la capacité de produire des filtres anisotropes qui favorisent certaines directions. En effet, la structure directionnelle est basée sur le haut, le bas, la gauche et la droite. Cependant les ConvNets décrits ci-dessus n'ont aucune notion de direction, et ne peuvent donc produire que des filtres isotropes. L'anisotropie peut être introduite naturellement, avec des caractéristiques d’arêtes. Par exemple, les molécules peuvent avoir des liaisons simples, doubles et triples. Graphiquement, elle est introduite en pondérant différemment les différents voisins.
 
@@ -492,11 +491,11 @@ MoNets use the degree of the graph to learn the parameters of a Gaussian Mixture
 
 ### MoNets
 
-Les MoNets utilisent le degré du graphe pour apprendre les paramètres d'un modèle de mélange gaussien (MGM).
+Les MoNets utilisent le degré du graphe pour apprendre les paramètres d'un modèle de mélange gaussien.
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-2/Figure6.png" /><br>
-<b>Figure 6:</b> MoNet
+<b>Figure 6 :</b> MoNet
 </center>
 
 
@@ -511,13 +510,13 @@ GAT uses the attention mechanism to introduce anisotropy in the neighbourhood ag
 </center>
 -->
 
-### Réseau à graphe d'attention (Graph Attention Networks : GAT)
+### *Graph Attention Networks* (GATs)
 
 Le GAT utilise le mécanisme d'attention pour introduire l'anisotropie dans la fonction d'agrégation du voisinage.
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-2/Figure7.png" /><br>
-<b>Figure 7:</b> GAT
+<b>Figure 7 :</b> GAT
 </center>
 
 <!--
@@ -531,13 +530,13 @@ These use a simple edge gating mechanism, which can be seen as a softer attentio
 </center>
 -->
 
-### Réseau à rupteur convolutif sur graphe
+### GCNs à porte
 
-Celles-ci utilisent un simple mécanisme de porte. Cela peut être considéré comme un processus d'attention plus doux que le mécanisme d'attention épars utilisé dans les GATs.
+Ils utilisent un simple mécanisme de porte. Cela peut être considéré comme un processus d'attention plus doux que le mécanisme d'attention épars utilisé dans les GATs.
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-2/Figure8.png" /><br>
-<b>Figure 8:</b> Gated Graph ConvNet
+<b>Figure 8 :</b> GCNs à porte
 </center>
 
 
@@ -554,16 +553,16 @@ This is the graph version of the standard transformer, commonly used in NLP. If
 Graphs obtain their structure from sparsity, so the fully connected graph has trivial structure and is essentially a set. Transformers then can be viewed as **Set** Neural Networks, and are in fact the best technique currently to analyse sets/bags of features.
 -->
 
-### Graph Transformers
+### *Graph Transformers*
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-2/Figure9.png" /><br>
-<b>Figure 9:</b> Graph Transformer
+<b>Figure 9 :</b> Graph Transformer
 </center>
 
-Il s'agit de la version graphique du Transformer standard communément utilisé en NLP. Si le graphe est entièrement connecté (tous les deux nœuds partagent une arête), on retrouve la définition d'un transformer standard.
+Il s'agit de la version sous la forme d'un graphe du transformer standard communément utilisé en traitement du langage naturel. Si le graphe est entièrement connecté (tous les deux nœuds partagent une arête), on retrouve la définition d'un transformer standard.
 
-Les graphes obtiennent leur structure à partir d'une éparsité, donc le graphe entièrement connecté a une structure triviale et est essentiellement un ensemble. Les transformers peuvent alors être considérés comme des réseaux de neurones **Set**, et sont en fait la meilleure technique actuelle pour analyser des ensembles/sacs de caractéristiques.
+Les graphes obtiennent leur structure à partir d'une éparsité, donc le graphe entièrement connecté a une structure triviale et est essentiellement un ensemble. Les transformers peuvent alors être considérés comme des réseaux de neurones **Set** et sont en fait la meilleure technique actuelle pour analyser des ensembles de caractéristiques.
 
 <!--
 ## Benchmarking GNNs
@@ -611,49 +610,49 @@ For an **Edge Classification task**, we have considered the Combinatorial Optimi
 We can use GCNs for self-supervised tasks as well, they are not limited to supervised learning models. According to Dr. Yann LeCun, almost all self-supervised learning tasks exploit some sort of graph structure. When we do a self-supervised learning task in text, where we take a sequence of words and we learn to predict missing words or new sentences. There is a graphs structure here, which is how many times a word appears some distance away from another word. Text would be a linear graph, and the neighbours chosen would be used to train a Transformer. In the case of contrastive training, where we have two samples that are similar, and two which are dissimilar - it is essentially a similarity graph, where two samples are linked when they are similar and if they are not linked they are considere dissimilar.
 -->
 
-## Analyse comparative des GNN
+## Analyse comparative des GNNs
 
-Les critères de référence sont un élément essentiel du progrès dans tout domaine. Le benchmark récemment publié [Benchmarking Graph Neural Networks](https://arxiv.org/pdf/2003.00982.pdf/) comporte six ensembles de données à moyenne échelle qui peuvent être utilisés pour quatre problèmes fondamentaux des graphes : la classification des graphes, la régression des graphes, la classification des nœuds et la classification des arêtes. Bien que ces ensembles de données soient de taille moyenne, ils sont suffisants pour séparer statiquement les tendances des différents réseaux de neurones des graphes.
+Les critères de référence sont un élément essentiel du progrès dans tout domaine. Le benchmark récemment publié [Benchmarking Graph Neural Networks](https://arxiv.org/pdf/2003.00982.pdf/) comporte six jeux de données à moyenne échelle qui peuvent être utilisés pour quatre problèmes fondamentaux des graphes : la classification de graphes, la régression de graphes, la classification des nœuds et la classification des arêtes. Bien que ces jeux de données soient de taille moyenne, ils sont suffisants pour séparer statiquement les tendances des différents réseaux de neurones des graphes.
 
-À titre d'exemple de **tâche de régression de graphe**, nous voudrions prédire la solubilité moléculaire.
+À titre d'exemple de **tâche de régression de graphes**, nous voudrions prédire la solubilité moléculaire.
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-2/Figure10.png" /><br>
-<b>Figure 10:</b> Tâche de régression graphique - Chimie quantique
+<b>Figure 10 :</b> Tâche de régression de graphes - Chimie quantique
 </center>
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-2/Figure11.png" /><br>
-<b>Figure 11:</b> Performance de divers GCN sur la tâche de régression
+<b>Figure 11 :</b> Performance de divers GCNs sur la tâche de régression
 </center>
 
-Nous remarquons que dans la plupart des cas, les GCN anisotropes ont de meilleures performances que les GCN isotropes car nous utilisons des propriétés directionnelles.
+Nous remarquons que dans la plupart des cas, les GCNs anisotropes ont de meilleures performances que les GCNs isotropes car nous utilisons des propriétés directionnelles.
 
-Pour une **tâche de classification graphique**, un problème de vision par ordinateur a été choisi où nous avons des super-nœuds d'images et nous voulons classifier l'image.
+Pour une **tâche de classification de graphes**, un problème de vision par ordinateur a été choisi où nous avons des super-nœuds d'images et nous voulons classifier l'image.
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-2/Figure12.png" /><br>
-<b>Figure 12:</b> Tâche de classification des graphes
+<b>Figure 12 :</b> Tâche de classification de graphes
 </center>
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-2/Figure13.png" /><br>
-<b>Figure 13:</b> Performance de divers GCN sur la tâche de classification des graphiques
+<b>Figure 13 :</b> Performance de divers GCNs sur la tâche de classification de graphes
 </center>
 
-Pour une tâche de **classification des arêtes**, nous avons considéré le problème d'optimisation combinatoire du problème du voyageur de commerce (abrégé en TSP en anglais pour Travelling Salesman Problem). Nous voulons savoir si une arête particuliere appartient à la solution optimale. S'il fait partie de la solution, il appartient à la classe 1, sinon à la classe 0. Ici, nous avons besoin de caractéristiques explicites des arêtes et le seul modèle qui fait un bon travail à cet égard est GatedGCN.
+Pour une tâche de **classification des arêtes**, nous avons considéré le problème d'optimisation combinatoire du problème du voyageur de commerce (TSP en anglais pour *Travelling Salesman Problem*). Nous voulons savoir si une arête particuliere appartient à la solution optimale. S'il fait partie de la solution, il appartient à la classe 1, sinon à la classe 0. Ici, nous avons besoin de caractéristiques explicites des arêtes et le seul modèle qui fait un bon travail à cet égard est GatedGCN.
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-2/Figure14.png" /><br>
-<b>Figure 14:</b> Tâche de classification des arêtes.
+<b>Figure 14 :</b> Tâche de classification des arêtes
 </center>
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-2/Figure15.png" /><br>
-<b>Figure 15:</b> Performance de divers GCN sur la tâche de classification des arêtes
+<b>Figure 15 :</b> Performance de divers GCNs sur la tâche de classification des arêtes
 </center>
 
-Nous pouvons également utiliser les GCN pour des tâches auto-supervisées, ils ne se limitent pas à des modèles d'apprentissage supervisés. Selon le Yann, presque toutes les tâches d'apprentissage auto-supervisé exploitent une sorte de structure graphique. Lorsque nous effectuons une tâche d'apprentissage auto-supervisé dans un texte, nous prenons une séquence de mots et nous apprenons à prédire les mots manquants ou les nouvelles phrases. Il existe ici une structure graphique, qui correspond au nombre de fois qu'un mot apparaît à une certaine distance d'un autre mot. Le texte serait un graphique linéaire, et les voisins choisis seraient utilisés pour entraîner un transformer. Dans le cas de l'entraînement contrastif, où nous avons deux échantillons qui sont similaires et deux qui sont dissemblables, il s'agit essentiellement d'un graphique de similarité où deux échantillons sont liés lorsqu'ils sont similaires et s'ils ne le sont pas, ils sont considérés comme dissemblables.
+Les GCNs ne se limitent pas à des modèles d'apprentissage supervisés et peuvent être utilisés pour des tâches autosupervisées. Selon Yann, presque toutes les tâches d'apprentissage autosupervisé exploitent une sorte de structure graphique. Lorsque nous effectuons une tâche d'apprentissage autosupervisé dans un texte, nous prenons une séquence de mots et nous apprenons à prédire les mots manquants ou les nouvelles phrases. Il existe ici une structure graphique, qui correspond au nombre de fois qu'un mot apparaît à une certaine distance d'un autre mot. Le texte serait un graphe linéaire et les voisins choisis seraient utilisés pour entraîner un transformer. Dans le cas de l'entraînement contrastif, où nous avons deux échantillons qui sont similaires et deux qui sont dissemblables, il s'agit essentiellement d'un graphe de similarité où deux échantillons sont liés lorsqu'ils sont similaires et s'ils ne le sont pas, ils sont considérés comme dissemblables.
 
 
 <!--
@@ -670,10 +669,10 @@ There is linear complexity for sparse graphs, and GPU implementation, although t
 -->
 
 ## Conclusion
-Les GCN généralisent les CNN aux données sur les graphes. L'opérateur de convolution a dû être repensé sur les graphes. Cette opération a donné naissance aux GCN spatiaux pour la correspondance des modèles et aux GCN spectraux pour la convolution spectrale.
-Il existe une complexité linéaire pour les graphes épars et la mise en œuvre des GPU, bien que cette dernière ne soit pas encore optimisée pour la multiplication des matrices éparses. Les applications sont nombreuses, comme le montre le tableau ci-dessous.
+Les GCNs généralisent les CNNs pour les donénes de type graphes. L'opérateur de convolution a dû être repensé. Cette opération a donné naissance aux GCNs spatiaux pour l'appariement de patrons et aux GCNs spectraux pour la convolution spectrale.
+Il existe une complexité linéaire pour les graphes épars et l'implémentation GPU, bien que cette dernière ne soit pas encore optimisée pour la multiplication des matrices éparses. Les applications sont nombreuses, comme le montre le tableau ci-dessous.
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-2/Figure16.png" /><br>
-<b>Figure 16:</b> Applications
+<b>Figure 16 :</b> Applications
 </center>
diff --git a/docs/fr/week13/13-3.md b/docs/fr/week13/13-3.md
index a38b5e3b7..35b272eaa 100644
--- a/docs/fr/week13/13-3.md
+++ b/docs/fr/week13/13-3.md
@@ -1,7 +1,7 @@
 ---
 lang: fr
 lang-ref: ch.13-3
-title: Réseau convolutif sur graphe III
+title: Réseau convolutif pour graphe III
 lecturer: Alfredo Canziani
 authors: Go Inoue, Muhammad Osama Khan, Muhammad Shujaat Mirza, Muhammad Muneeb Afzal
 date: 28 Apr 2020
@@ -17,9 +17,9 @@ Graph Convolutional Network (GCN) is one type of architecture that utilizes the
 Before going into details, let's have a quick recap on self-attention, as GCN and self-attention are conceptually relevant.
 -->
 
-## [Introduction au réseau convolutif sur graphe](https://www.youtube.com/watch?v=2aKXWqkbpWg&list=PLLHTzKZzVU9eaEyErdV26ikyolxOsz6mq&index=25&t=47s)
+## [Introduction au réseau convolutif pour graphe](https://www.youtube.com/watch?v=2aKXWqkbpWg&list=PLLHTzKZzVU9eaEyErdV26ikyolxOsz6mq&index=25&t=47s)
 
-Le réseau convolutif sur graphe (GCN pour Graph Convolutional Network) est un type d'architecture qui utilise la structure des données.
+Le réseau convolutif pour graphe (GCN pour *Graph Convolutional Network*) est un type d'architecture qui utilise la structure des données.
 Avant d'entrer dans les détails, faisons un rapide rappel sur l'auto-attention, car le GCN et l'auto-attention sont conceptuellement pertinents.
 
 <!--
@@ -40,7 +40,7 @@ Contrairement à une séquence, elle n'a pas d'ordre.
 - Le vecteur caché $\boldsymbol{h}$ est donné par une combinaison linéaire des vecteurs de l'ensemble.
 - Nous pouvons l'exprimer sous la forme $\boldsymbol{X}\boldsymbol{a}$ en utilisant une multiplication matricielle des vecteurs, où $\boldsymbol{a}$ contient des coefficients qui mettent à l'échelle le vecteur d'entrée $\boldsymbol{x}_{i}$.
 
-*Pour une explication détaillée, voir les notes de [Semaine 12]({{site.baseurl}}/fr/semaine12/12-3/).*
+Pour une explication détaillée, voir les notes de [Semaine 12]({{site.baseurl}}/fr/semaine12/12-3/).
 
 
 <!--
@@ -101,14 +101,14 @@ where $\vect{D} = \text{diag}(d_{i})$.
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-3/figure1.png" height="400px" /><br>
-<b>Figure 1</b> : Graph Convolutional Network
+<b>Figure 1 :</b> ConvNet pour graphe
 </center>
 
 Dans la figure 1, le sommet $v$ est composé de deux vecteurs : l'entrée $\boldsymbol{x}$ et sa représentation cachée $\boldsymbol{h}$.
 Nous avons également plusieurs sommets $v_{j}$, qui se composent de $\boldsymbol{x}\_j$ et de $\boldsymbol{h}\_j$.
 Dans ce graphe, les sommets sont reliés par des arêtes dirigées.
 
-Nous représentons ces arêtes dirigées avec le vecteur de contiguïté $\boldsymbol{a}$, où chaque élément $\alpha_{j}$ est fixé à $1$ s'il y a une arête dirigée de $v_{j}$ à $v$.
+Nous représentons ces arêtes dirigées avec le vecteur d'adjacence $\boldsymbol{a}$, où chaque élément $\alpha_{j}$ est fixé à $1$ s'il y a une arête dirigée de $v_{j}$ à $v$.
 
 
 $$
@@ -116,7 +116,7 @@ $$
 \tag{Eq. 1}
 $$
 
-Le degré (nombre d'arêtes entrantes) $d$ est défini comme la norme de ce vecteur de contiguïté, *c'est-à-dire * $\Vert\boldsymbol{a}\Vert_{1} $, qui est le nombre de 1 dans le vecteur $\boldsymbol{a}$.
+Le degré (nombre d'arêtes entrantes) $d$ est défini comme la norme de ce vecteur de'adjacence, c'est-à-dire $\Vert\boldsymbol{a}\Vert_{1} $, qui est le nombre de 1 dans le vecteur $\boldsymbol{a}$.
 
 $$
     d = \Vert\boldsymbol{a}\Vert_{1}
@@ -131,12 +131,12 @@ $$
 $$
 
 
-où $f(\cdot)$ est une fonction non linéaire telle que ReLU $(\cdot)^{+}$, Sigmoïde $\sigma(\cdot)$, et tangente hyperbolique $\tanh(\cdot)$.
+où $f(\cdot)$ est une fonction non linéaire telle que ReLU $(\cdot)^{+}$, Sigmoïde $\sigma(\cdot)$ et tangente hyperbolique $\tanh(\cdot)$.
 
 Le terme $\boldsymbol{U}\boldsymbol{x}$ prend en compte le sommet $v$ lui-même, en appliquant la rotation $\boldsymbol{U}$ à l'entrée $v$.
 
 Rappelez-vous que dans l'auto-attention, le vecteur caché $\boldsymbol{h}$ est calculé par $\boldsymbol{X}\boldsymbol{a}$, ce qui signifie que les colonnes dans $\boldsymbol{X}$ sont mises à l'échelle par les facteurs dans $\boldsymbol{a}$.
-Dans le contexte du GCN, cela signifie que si nous avons plusieurs arêtes entrantes, c'est-à-dire plusieurs dans le vecteur de contiguïté $\boldsymbol{a}$, $\boldsymbol{X}\boldsymbol{a}$ s'agrandit.
+Dans le contexte du GCN, cela signifie que si nous avons plusieurs arêtes entrantes, c'est-à-dire plusieurs dans le vecteur d'adjacence $\boldsymbol{a}$, $\boldsymbol{X}\boldsymbol{a}$ s'agrandit.
 En revanche, si nous n'avons qu'une seule arête entrante, cette valeur devient plus petite.
 Pour remédier à ce problème de proportionnalité de la valeur par rapport au nombre d’arêtes entrantes, nous la divisons par le nombre d’arêtes entrantes $d$.
 Nous appliquons ensuite la rotation $\boldsymbol{V}$ à $\boldsymbol{X}\boldsymbol{a}d^{-1}$.
@@ -199,13 +199,13 @@ The hidden edge representation $\boldsymbol{e_{j}^{h}}$ is obtained by the summa
 -->
 
 
-## [Théorie et code du réseau à rupteur convolutif à résidu sur graphe](https://www.youtube.com/watch?v=2aKXWqkbpWg&list=PLLHTzKZzVU9eaEyErdV26ikyolxOsz6mq&index=25&t=992s)
+## [Théorie et code du GCN résiduel à porte](https://www.youtube.com/watch?v=2aKXWqkbpWg&list=PLLHTzKZzVU9eaEyErdV26ikyolxOsz6mq&index=25&t=992s)
 
-Le réseau à rupteur convolutif à résidu sur graphe  est un type de GCN qui peut être représenté comme le montre la figure 2 :
+Le GCN résiduel à porte (RG CGN pour *Residual Gated GCN*) est un type de GCN qui peut être représenté comme le montre la figure 2 :
 
 <center>
 <img src="{{site.baseurl}}/images/week13/13-3/figure2.png" height="300px" /><br>
-<b>Figure 2</b> : Residual Gated Graph Convolutional Network </center>
+<b>Figure 2 :</b> GCN résiduel à porte </center>
 
 Comme pour le GCN standard, le sommet $v$ est constitué de deux vecteurs : l'entrée $\boldsymbol{x}$ et sa représentation cachée $\boldsymbol{h}$. Toutefois, dans ce cas, les arêtes ont également une représentation de caractéristique, où $\boldsymbol{e_{j}^{x}}$ représente la représentation de l'arête d'entrée et $\boldsymbol{e_{j}^{h}}$ représente la représentation de l'arête cachée.
 
@@ -216,9 +216,9 @@ $$
 \tag{Eq. 5}
 $$
 
-où $\boldsymbol{x}$ est la représentation de l'entrée, $\boldsymbol{Ax}$ représente une rotation appliquée à l'entrée $\boldsymbol{x}$ et $\sum_{v_j→v}{\eta(\boldsymbol{e_{j}})\odot \boldsymbol{Bx_{j}}}$ indique la somme des multiplications par éléments des éléments entrants ayant subi une rotation $\boldsymbol{Bx_{j}}$ et d'une porte $\eta(\boldsymbol{e_{j}})$. Contrairement au GCN standard ci-dessus où nous faisons la moyenne des représentations entrantes, le terme de porte est essentiel à la mise en œuvre du GCN à portes résiduelles car il nous permet de moduler les représentations entrantes en fonction des représentations de bordure.
+où $\boldsymbol{x}$ est la représentation de l'entrée, $\boldsymbol{Ax}$ représente une rotation appliquée à l'entrée $\boldsymbol{x}$ et $\sum_{v_j→v}{\eta(\boldsymbol{e_{j}})\odot \boldsymbol{Bx_{j}}}$ indique la somme des multiplications par éléments des éléments entrants ayant subi une rotation $\boldsymbol{Bx_{j}}$ et d'une porte $\eta(\boldsymbol{e_{j}})$. Contrairement au GCN standard ci-dessus où nous faisons la moyenne des représentations entrantes, le terme de porte est essentiel à la mise en œuvre du RG CGN car il nous permet de moduler les représentations des entrées en fonction des représentations des arêtes.
 
-Notez que la sommation se fait uniquement sur les sommets ${v_j}$ qui ont des arêtes entrantes au sommet ${v}$. Le terme résiduel (dans Residual Gated GCN) vient du fait que pour calculer la représentation cachée $\boldsymbol{h}$, on ajoute la représentation d'entrée $\boldsymbol{x}$. Le terme de porte $\eta(\boldsymbol{e_{j}})$ est calculé comme indiqué ci-dessous :
+Notez que la sommation se fait uniquement sur les sommets ${v_j}$ qui ont des arêtes entrantes au sommet ${v}$. Le terme résiduel (dans *Residual Gated GCN*) vient du fait que pour calculer la représentation cachée $\boldsymbol{h}$, on ajoute la représentation d'entrée $\boldsymbol{x}$. Le terme de porte $\eta(\boldsymbol{e_{j}})$ est calculé comme indiqué ci-dessous :
 
 $$
     \eta(\boldsymbol{e_{j}})=\sigma(\boldsymbol{e_{j}})\bigg(\sum_{v_k→v}\sigma(\boldsymbol{e_{k}})\bigg)^{-1}
@@ -239,7 +239,7 @@ $$
 
 La représentation des arêtes cachées $\boldsymbol{e_{j}^{h}}$ est obtenue par la sommation de la représentation initiale des arêtes $\boldsymbol{e_{j}^{x}}$ et $\texttt{ReLU}(\cdot)$ appliqué à $\boldsymbol{e_{j}}$ où $\boldsymbol{e_{j}}$ est à son tour donné par la somme d'une rotation appliquée à $\boldsymbol{e_{j}^{x}}$, une rotation appliquée à la représentation en entrée $\boldsymbol{x_{j}}$ du sommet $v_{j}$ et une rotation appliquée à la représentation en entrée $\boldsymbol{x}$ du sommet $v$.
 
-*Note : Afin de calculer les représentations cachées en aval (c’est-à-dire $2^\text{nd}$ couche de représentations cachées), nous pouvons simplement remplacer les représentations des caractéristiques d'entrée par les représentations des caractéristiques de la couche 1^\text{st}$ dans les équations ci-dessus.*
+Note : afin de calculer les représentations cachées en aval (c’est-à-dire $2^\text{nd}$ couche de représentations cachées), nous pouvons simplement remplacer les représentations des caractéristiques d'entrée par les représentations des caractéristiques de la couche 1^\text{st}$ dans les équations ci-dessus.
 
 
 <!--
@@ -292,6 +292,9 @@ A sample graph from the trainset has the following representation. Here, we obse
 
 
 ### Graph Classification et couche GCN résiduelle
+
+Pour cette section et dans la suite, les codes se réfèrent au *notebook* Jupyter dont la version anglaise est disponible [ici](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/16-gated_GCN.ipynb) et la version française [ici](https://github.com/lbourdois/pytorch-Deep-Learning-Notebooks-in-French/blob/master/16-gated_GCN.ipynb).
+
 Dans cette section, nous introduisons le problème de la classification des graphes et codons une couche GCN résiduelle. En plus des déclarations d'importation habituelles, nous ajoutons ce qui suit :
 
 ```python
@@ -302,11 +305,11 @@ from dgl.data import MiniGCDataset
 import networkx as nx
 ```
 
-La première ligne indique à Deep Graph Library ([DGL](https://www.dgl.ai/)) d'utiliser PyTorch comme backend. DGL fournit diverses fonctionnalités sur les graphes alors que networkx nous permet de visualiser les graphiques.
+La première ligne indique à Deep Graph Library ([DGL](https://www.dgl.ai/)) d'utiliser PyTorch comme backend. *DGL* fournit diverses fonctionnalités sur les graphes alors que *networkx* nous permet de visualiser les graphiques.
 
 Dans ce notebook, la tâche consiste à classer une structure de graphe donnée dans l'un des 8 types de graphes. L'ensemble de données obtenu à partir de `dgl.data.MiniGCDataset` donne un certain nombre de graphes (`num_graphs`) avec des nœuds entre `min_num_v` et `max_num_v`. Par conséquent, tous les graphes obtenus n'ont pas le même nombre de nœuds/sommets.
 
-*Note : Afin de vous familiariser avec les bases des `DGLGraphs`, il est recommandé de suivre le court tutoriel [ici](https://docs.dgl.ai/api/python/graph.html).*
+Note : Afin de vous familiariser avec les bases des `DGLGraphs`, il est recommandé de suivre le court tutoriel (en anglais) disponible [ici](https://docs.dgl.ai/api/python/graph.html).
 
 
 Après avoir créé les graphes, la tâche suivante consiste à ajouter un signal au domaine. Des fonctionnalités peuvent être appliquées aux nœuds et aux arêtes d'un `DGLGraph`. Les caractéristiques sont représentées par un dictionnaire de noms (chaînes de caractères) et de tenseurs (**champs**). Les `ndata` et `edata` sont des sucres syntaxiques permettant d'accéder aux données des caractéristiques de tous les nœuds et arêtes.
@@ -351,7 +354,7 @@ The *reduce functions* are **Node UDF**s. Node UDFs have a single argument `node
 
 ### Note sur le message DGL et les fonctions de réduction
 
-Dans DGL, les *fonctionnalités de message* sont exprimées sous la forme de **Edge UDF**s (User Defined Functions : fonctionnalités définies par l'utilisateur). Les **Edge UDF**s prennent en compte un seul argument `edges` (arêtes). Il a trois membres `src`, `dst`, et `data` pour accéder respectivement aux fonctions du noeud source, du noeud de destination, et des fonctions des arêtes.
+Dans DGL, les *fonctionnalités de message* sont exprimées sous la forme de **Edge UDF**s (*User Defined Functions* : fonctionnalités définies par l'utilisateur). Les **Edge UDF**s prennent en compte un seul argument `edges` (arêtes). Il a trois membres `src`, `dst`, et `data` pour accéder respectivement aux fonctions du noeud source, du noeud de destination, et des fonctions des arêtes.
 Les fonctions de réduction sont des **Node UDF**s. Les node UDFs ont un seul argument `nodes`, qui a deux membres `data` et `mailbox`. `data` contient les caractéristiques du noeud et `mailbox` contient toutes les caractéristiques des messages entrants, empilées le long de la seconde dimension (d'où l'argument `dim=1`).
 `update_all(message_func, reduce_func)` envoie les messages par toutes les arêtes et met à jour tous les noeuds.
 
@@ -499,9 +502,9 @@ Finally, we are ready to train! We found that after 40 epochs of training, our m
 
 
 
-### [Mise en œuvre de la couche Gated Residual GCN](https://www.youtube.com/watch?v=2aKXWqkbpWg&list=PLLHTzKZzVU9eaEyErdV26ikyolxOsz6mq&index=25&t=2098s)
+### [Implémentation de la couche GR GCN](https://www.youtube.com/watch?v=2aKXWqkbpWg&list=PLLHTzKZzVU9eaEyErdV26ikyolxOsz6mq&index=25&t=2098s)
 
-Une couche Gated Residual GCN est implémentée comme indiqué dans les extraits de code ci-dessous.
+Une couche GR GCN est implémentée comme indiqué dans les extraits de code ci-dessous.
 
 Premièrement, toutes les rotations des caractéristiques d'entrée $\boldsymbol{Ax}$, $\boldsymbol{Bx_{j}}$, $\boldsymbol{Ce_{j}^{x}}$, $\boldsymbol{Dx_{j}}$ et $\boldsymbol{Ex}$ sont calculées en définissant `nn.Linear` couches à l'intérieur de la fonction `__init__` puis en propageant les représentations d'entrée `h` et `e` à travers les couches linéaires à l'intérieur de la fonction `forward`.
 
@@ -531,7 +534,7 @@ def message_func(self, edges):
     return {'Bh_j' : Bh_j, 'e_ij' : e_ij}
 ```
 
-Troisièmement, la fonction `reduce_func` collecte les messages envoyés par la fonction `message_func`. Après avoir collecté les données du noeud `Ah` et les données expédiées `Bh_j` et `e_ij` de la `mailbox`, la ligne `h = Ah_i + torch.sum(sigma_ij * Bh_j, dim=1) / torch.sum(sigma_ij, dim=1)` calcule la représentation cachée de chaque noeud comme indiqué dans (Eq. 5). Notez cependant que cela ne représente que le terme $(\boldsymbol{Ax} + \sum_{v_j→v}{\eta(\boldsymbol{e_{j}}})\odot \boldsymbol{Bx_{j}}})$ sans le $\texttt{ReLU}(\cdot)$ et la connexion résiduelle.
+Troisièmement, la fonction `reduce_func` collecte les messages envoyés par la fonction `message_func`. Après avoir collecté les données du noeud `Ah` et les données expédiées `Bh_j` et `e_ij` de la `mailbox`, la ligne `h = Ah_i + torch.sum(sigma_ij * Bh_j, dim=1) / torch.sum(sigma_ij, dim=1)` calcule la représentation cachée de chaque noeud comme indiqué dans (Eq. 5). Notez cependant que cela ne représente que le terme $(\boldsymbol{Ax} + \sum_{v_j→v}{\eta(\boldsymbol{e_{j}})\odot \boldsymbol{Bx_{j}}})$ sans le $\texttt{ReLU}(\cdot)$ et la connexion résiduelle.
 
 ```python
 def reduce_func(self, nodes) :
@@ -545,7 +548,7 @@ def reduce_func(self, nodes) :
     return {'h' : h}
 ```
 
-A l'intérieur de la fonction `forward`, ayant appelé `g.update_all`, nous obtenons les résultats de la convolution des graphes `h` et `e`, qui représentent les termes $(\boldsymbol{Ax} + \sum_{v_j→v}{\eta(\boldsymbol{e_{j}}})\odot \boldsymbol{Bx_{j}}})$ de (Eq.5) et $\boldsymbol{e_{j}}$ de (Eq. 7) respectivement. Ensuite, nous normalisons `h` et `e` par rapport à la taille du nœud et de l’arête du graphe respectivement. La batch normalisation est ensuite appliquée afin que nous puissions entraîner le réseau efficacement. Enfin, nous appliquons $\texttt{ReLU}(\cdot)$ et ajoutons les connexions résiduelles pour obtenir les représentations cachées des nœuds et des arêtes, qui sont ensuite renvoyées par la fonction `forward`.
+A l'intérieur de la fonction `forward`, ayant appelé `g.update_all`, nous obtenons les résultats de la convolution des graphes `h` et `e`, qui représentent les termes $(\boldsymbol{Ax} + \sum_{v_j→v}{\eta(\boldsymbol{e_{j}})\odot \boldsymbol{Bx_{j}}})$ de (Eq.5) et $\boldsymbol{e_{j}}$ de (Eq. 7) respectivement. Ensuite, nous normalisons `h` et `e` par rapport à la taille du nœud et de l’arête du graphe respectivement. La batch normalisation est ensuite appliquée afin que nous puissions entraîner le réseau efficacement. Enfin, nous appliquons $\texttt{ReLU}(\cdot)$ et ajoutons les connexions résiduelles pour obtenir les représentations cachées des nœuds et des arêtes, qui sont ensuite renvoyées par la fonction `forward`.
 
 ```python
 def forward(self, g, h, e, snorm_n, snorm_e) :
@@ -566,8 +569,8 @@ def forward(self, g, h, e, snorm_n, snorm_e) :
     h = g.ndata [h] # résultat de la convolution du graphe
     e = g.edata['e'] # résultat de la convolution du graphe
 
-    h = h * snorm_n # normalisation de l'activation w.r.t. graph node size
-    e = e * snorm_e # normalisation de l'activation w.r.t. graph edge size
+    h = h * snorm_n # normalisation de l'activation par rapport à la taille des noeuds du graphe
+    e = e * snorm_e # normalisation de l'activation par rapport à la taille des arêtes du graphe
 
     h = self.bn_node_h(h) # batch normalisation
     e = self.bn_node_e(e) # batch normalisation
@@ -596,13 +599,13 @@ Enfin, nous définissons notre modèle `GatedGCN` qui comprend les classes défi
         ])
         self.MLP_layer = MLP_layer(hidden_dim, output_dim)
     def forward(self, g, h, e, snorm_n, snorm_e):
-        # input embedding
+        # enchâssement en entrée
         h = self.embedding_h(h)
         e = self.embedding_e(e)
-        # graph convnet layers
+        # couche GCN
         for GGCN_layer in self.GatedGCN_layers:
             h, e = GGCN_layer(g, h, e, snorm_n, snorm_e)
-        # MLP classifier
+        # classifieur MLP
         g.ndata['h'] = h
         y = dgl.mean_nodes(g,'h')
         y = self.MLP_layer(y)
@@ -636,5 +639,5 @@ Sans surprise, nous avons deux couches de `GatedGCN_layer` (puisque `L=2`) suivi
 
 Ensuite, nous définissons nos fonctions de `train` et d'`evaluate`. Dans notre fonction `train`, nous avons notre code générique qui prend des échantillons dans le `dataloader`.  Ensuite, les `batch_graphs`, `batch_x`, `batch_e`, `batch_snorm_n` et `batch_snorm_e` sont introduits dans notre modèle qui retourne des `batch_scores` (de taille 8). Les scores prédits sont comparés à la vérité de base dans notre fonction de perte : `loss(batch_scores, batch_labels)`. Ensuite, nous mettons à zéro les gradients (`optimizer.zero_grad()`), nous effectuons une rétropropagation (`J.backward()`) et nous mettons à jour nos poids (`optimizer.step()`). Enfin, la perte pour l'époque et la précision de l'entraînement est calculée. Nous utilisons un code similaire pour notre fonction `evaluate`.
 
-Enfin, nous sommes prêts à pour l’entraînement ! Nous avons constaté qu'après 40 époques d'entraînement, notre modèle a appris à classer les graphes avec une précision de test de $87$%.
+Enfin, nous sommes prêts à pour l’entraînement ! Nous pouvons constater qu'après 40 époques d'entraînement, notre modèle a appris à classer les graphes avec une précision de test de $87$%.
 
diff --git a/docs/fr/week13/13.md b/docs/fr/week13/13.md
index ab0293426..d930e3bef 100644
--- a/docs/fr/week13/13.md
+++ b/docs/fr/week13/13.md
@@ -14,9 +14,9 @@ In this section, we discuss the architecture and convolution of traditional conv
 -->
 
 
-## Conférence partie A
+## Cours magistral partie A
 
-Dans cette section, nous abordons l'architecture et la convolution des réseaux neuronaux convolutifs traditionnels. Puis nous nous étendons au domaine des graphes. Nous comprenons les caractéristiques des graphes et définissons la convolution du graphe. Enfin, nous introduisons les réseaux convolutifs spectraux sur graphe et discutons de la manière d'effectuer la convolution spectrale.
+Dans cette section, nous abordons l'architecture et la convolution des ConvNets traditionnels. Puis nous nous étendons au domaine des graphes. Nous comprenons les caractéristiques des graphes et définissons la convolution pour un graphe. Enfin, nous introduisons les réseaux convolutifs spectraux pour graphe et discutons de la manière d'effectuer la convolution spectrale.
 
 <!--
 ## Lecture part B
@@ -24,9 +24,9 @@ Dans cette section, nous abordons l'architecture et la convolution des réseaux
 This section covers the complete spectrum of Graph Convolutional Networks (GCNs), starting with the implementation of Spectral Convolution through Spectral Networks. It then provides insights on applicability of the other convolutional definition of Template Matching to graphs, leading to Spatial networks. Various architectures employing the two approaches are detailed out with their corresponding pros & cons, experiments, benchmarks and applications.
 -->
 
-## Conférence partie B
+## Cours magistral partie B
 
-Cette section couvre le spectre complet des réseaux convolutifs sur graphe (GCN), en commençant par la mise en œuvre de la convolution spectrale par les réseaux spectraux. Elle donne ensuite un aperçu de l'applicabilité de l'autre définition convolutive de la correspondance entre les modèles et les graphes, qui conduit aux réseaux spatiaux. Diverses architectures utilisant les deux approches sont détaillées avec leurs avantages et inconvénients, expériences, références et applications correspondants.
+Cette section couvre le spectre complet des réseaux convolutifs pour graphe (GCNs pour *Graph Convolutional Networks*) en commençant par la mise en œuvre de la convolution spectrale par les réseaux spectraux. Elle donne ensuite un aperçu de l'applicabilité de l'autre définition convolutive de l'appariement de patrons (*template matching*) aux graphes, qui conduit à aborder les réseaux spatiaux. Diverses architectures utilisant les deux approches sont détaillées avec leurs avantages et inconvénients, des expériences, les références et les applications correspondants.
 
 <!--
 ## Practicum
@@ -35,5 +35,6 @@ Cette section couvre le spectre complet des réseaux convolutifs sur graphe (GCN
 In this section, we introduce Graph Convolutional Network (GCN) which is one type of architecture that utilizes the structure of data.  Actually, the concept of GCNs is closely related to self-attention. After understanding the general notation, representation and equations of GCN, we delve into the theory and code of a specific type of GCN known as Residual Gated GCN.
 -->
 
-## Pratique
-Dans cette section, nous présentons le réseau convolutif sur graphe (GCN) qui est un type d'architecture utilisant la structure des données.  En fait, le concept de GCN est étroitement lié à l'auto-attention. Après avoir compris la notation générale, la représentation et les équations des GCN, nous nous penchons sur la théorie et le code d'un type spécifique de GCN connu sous le nom de réseau à rupteur convolutif à résidu sur graphe.
+## Travaux dirigés
+Dans cette section, nous présentons le réseau convolutif pour graphe (GCN) qui est un type d'architecture utilisant la structure des données. 
+En fait, le concept de GCN est étroitement lié à l'auto-attention. Après avoir compris la notation générale, la représentation et les équations des GCNs, nous nous penchons sur la théorie et le code d'un type spécifique de GCN connu sous le nom de GCN résiduel à porte.
diff --git a/docs/fr/week14/14-1.md b/docs/fr/week14/14-1.md
index 5d45987d9..6660f0e58 100644
--- a/docs/fr/week14/14-1.md
+++ b/docs/fr/week14/14-1.md
@@ -2,7 +2,7 @@
 lang: fr
 lang-ref: ch.14-1
 lecturer: Yann Le Cun
-title: Apprentissage profond pour une prédiction structurée
+title: Apprentissage profond pour une prédiction utilisant la structure
 authors: Junrong Zha, Muge Chen, Rishabh Yadav, Zhuocheng Xu
 date: 4 May 2020
 translation-date: 14 Aug 2020
@@ -17,10 +17,10 @@ It is the problem of predicting variable y for a given input x which is mutually
 For eg: In case of speech/handwriting recognition or natural language translation, the output needs to be grammatically correct and it is not possible to limit the number of output possibilities. The task of the model is to capture the sequential, spatial, or combinatorial structure in the problem domain.
 -->
 
-## [Prévision structurée](https://www.youtube.com/watch?v=gYayCG6YyO8&t=25s)
+## [Prédiction utilisant la structure](https://www.youtube.com/watch?v=gYayCG6YyO8&t=25s)
 
-Nous sommes dans le cas de la prédiction de la variable y pour une entrée x donnée qui est mutuellement dépendante et contrainte plutôt que des valeurs scalaires discrètes ou réelles. Alors la variable de sortie n'appartient pas à une seule catégorie mais peut avoir des valeurs possibles exponentielles ou infinies.
-Par exemple : en cas de reconnaissance de la parole/écriture ou de traduction en langage naturel, la sortie doit être grammaticalement correcte et il n'est pas possible de limiter le nombre de possibilités de sortie. La tâche du modèle est de capturer la structure séquentielle, spatiale ou combinatoire dans le domaine du problème.
+Nous sommes dans le cas de la prédiction de la variable $y$ pour une entrée $x$ donnée qui est mutuellement dépendante et contrainte plutôt que des valeurs scalaires discrètes ou réelles. Alors la variable de sortie n'appartient pas à une seule catégorie mais peut avoir des valeurs possibles exponentielles ou infinies.
+Par exemple, dans le cas de la reconnaissance de la parole/écriture ou de traduction en langage naturel, la sortie doit être grammaticalement correcte et il n'est pas possible de limiter le nombre de possibilités de sortie. La tâche du modèle est de capturer la structure séquentielle, spatiale ou combinatoire dans le domaine du problème.
 
 
 
@@ -41,20 +41,20 @@ This can be visualized as a matrix by arrranging the feature vectors from TDNN h
 To train this latent variable model we need to make the energy for the correct answers as small as possible and larger for every incorrect answer. To do this we use an objective function that takes in templates for wrong words and pushes them away from the current sequence of features and backpropagates the gradients.
 -->
 
-### Premiers travaux sur la prédiction structurée
+### Premiers travaux sur la prédiction utilisant la structure
 
-Ce vecteur est transmis à un TDNN (Time Delay Neural Network) qui donne un vecteur de caractéristiques qui, dans le cas de systèmes de modèles, peut être comparé au softmax qui représente une catégorie. Un problème qui se pose dans le cas de la reconnaissance de la parole prononcé est que différentes personnes peuvent prononcer le même mot de différentes manières et à des vitesses différentes. Pour résoudre ce problème, on utilise la déformation dynamique du temps.
+Ce vecteur est transmis à un réseau de neurones à retard temporel (TDNN pour *Time Delay Neural Network*) qui donne un vecteur de caractéristiques qui, dans le cas de systèmes de modèles, peut être comparé au softmax qui représente une catégorie. Un problème qui se pose dans le cas de la reconnaissance de la parole prononcé est que différentes personnes peuvent prononcer le même mot de différentes manières et à des vitesses différentes. Pour résoudre ce problème, on utilise la déformation dynamique du temps (DTW pour *Dynamic Time Warping*).
 
-L'idée est de fournir au système un ensemble de modèles pré-enregistrés qui correspondent à des vecteurs de séquences ou de caractéristiques qui ont été enregistrés par quelqu'un. Le réseau neuronal est entraîné en même temps que le modèle afin que le système apprenne à reconnaître le mot pour différentes prononciations. La variable latente nous permet de modifier le vecteur de caractéristique de manière à ce qu'il corresponde à la longueur des modèles.
+L'idée est de fournir au système un ensemble de patrons pré-enregistrés qui correspondent à des vecteurs de séquences ou de caractéristiques qui ont été enregistrés par quelqu'un. Le réseau neuronal est entraîné en même temps que le patron afin que le système apprenne à reconnaître le mot pour différentes prononciations. La variable latente nous permet de modifier le vecteur de caractéristique de manière à ce qu'il corresponde à la longueur des modèles.
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-1/Fig1.png" style="background-color:#DCDCDCDC ;" /><br>
-Figure 1.
+  <b>Figure 1 :</b> Schéma du modèle
 </center>
 
 Cela peut être visualisé sous forme de matrice en organisant les vecteurs de caractéristiques du TDNN horizontalement et les modèles de mots verticalement. Chaque entrée dans la matrice correspond à la distance entre les vecteurs de caractéristiques. Cela peut être visualisé comme un problème de graphe où le but est de partir du coin inférieur gauche et d'atteindre le coin supérieur droit en parcourant le chemin qui minimise la distance.
 
-Pour entraîner ce modèle de variable latente, nous devons rendre l'énergie pour les bonnes réponses aussi petite que possible et plus grande pour chaque mauvaise réponse. Pour ce faire, nous utilisons une fonction objectif qui prend des modèles pour les mots incorrects, les repousse loin de la séquence actuelle des caractéristiques et rétropropage les gradients.
+Pour entraîner ce modèle de variable latente, nous devons rendre l'énergie pour les bonnes réponses aussi petite que possible et plus grande pour chaque mauvaise réponse. Pour ce faire, nous utilisons une fonction objectif qui prend des patrons pour les mots incorrects, les repousse loin de la séquence actuelle des caractéristiques et rétropropage les gradients.
 
 
 
@@ -69,13 +69,13 @@ Figure 2.
 </center>
 -->
 
-## Graphes de facteurs à base d'énergie 
+## Graphes factoriels à base d'énergie 
 
-L'idée derrière les graphes de facteurs à base d'énergie  est de construire un EBM dans lequel l'énergie est la somme de termes énergétiques partiels ou lorsque la probabilité est un produit de facteurs. L'avantage de ces modèles est que des algorithmes d'inférence efficaces peuvent être utilisés.
+L'idée derrière les graphes factoriels à base d'énergie est de construire un EBM dans lequel l'énergie est la somme de termes énergétiques partiels ou lorsque la probabilité est un produit de facteurs. L'avantage de ces modèles est que des algorithmes d'inférence efficaces peuvent être utilisés.
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-1/Fig2.png" style="background-color:#DCDCDCDC ;" /><br>
-Figure 2.
+<b>Figure 2 :</b> Graphes factoriels à base d'énergie 
 </center>
 
 
@@ -98,18 +98,20 @@ In this case, the energy is a sum of three terms represented by blue squares whi
 
 ### Labellisation des séquences
 
-Le modèle prend un signal vocal d'entrée X et émet les labels Y de telle sorte que les labels de sortie minimisent le terme énergétique total.
+Le modèle prend un signal vocal d'entrée $X$ et sort les labels $Y$ de telle sorte que les labels de sortie minimisent le terme d'énergie total.
+
 <center>
 <img src="{{site.baseurl}}/images/week14/14-1/Fig3.png" style="background-color:#DCDCDCDC ;" /><br>
-Figure 3.
+<b>Figure 3 :</b> Minimisation de l'énergie
 </center>
+<br>
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-1/Fig4.png" style="background-color:#DCDCDCDC ;" /><br>
-Figure 4.
+<b>Figure 4 :</b> Minimisation de l'énergie sous la forme d'un graphe
 </center>
 
-Dans ce cas, l'énergie est une somme de trois termes représentés par des carrés bleus qui sont des réseaux de neurones produisant des vecteurs caractéristiques pour les variables d'entrée. Dans le cas de la reconnaissance vocale, X peut être considéré comme un signal vocal et les carrés implémentent les contraintes grammaticales et Y représente les labels de sortie générées.
+Dans ce cas, l'énergie est une somme de trois termes représentés par des carrés bleus qui sont des réseaux de neurones produisant des vecteurs caractéristiques pour les variables d'entrée. Dans le cas de la reconnaissance vocale, $X$ peut être considéré comme un signal vocal et les carrés implémentent les contraintes grammaticales et $Y$ représente les labels de sortie générées.
 
 
 <!--
@@ -149,18 +151,18 @@ The above procedure is sometimes called the min-sum algorithm, and it is the log
 However, it only applies to factor graphs that are bipartite trees (with no loops). When loops are present in the graph, the min-sum algorithm may give an approximate solution when iterated, or may not converge at all. In this case, a descent algorithm such as simulated annealing could be used.
 -->
 
-## [Inférence efficace pour les graphes de facteurs à base d'énergie](https://www.youtube.com/watch?v=gYayCG6YyO8&t=1086s) 
+## [Inférence efficace pour les graphes factoriels à base d'énergie](https://www.youtube.com/watch?v=gYayCG6YyO8&t=1086s) 
 
-Un tutoriel sur l'apprentissage basé sur l'énergie (Yann Le Cun, Sumit Chopra, Raia Hadsell, Marc'Aurelio Ranzato, et Fu Jie Huang 2006).
+Un tutoriel sur l'apprentissage basé sur l'énergie est disponible [ici](yann.lecun.com/exdb/publis/pdf/lecun-06.pdf) (Le Cun et al. (2006)).
 
-L'apprentissage et l'inférence avec les modèles à base d'énergie impliquent une minimisation de l'énergie sur l'ensemble des réponses $\mathcal{Y}$ et des variables latentes $\mathcal{Z}$. Lorsque la cardinalité de $\mathcal{Y}\times \mathcal{Z}$ est importante, cette minimisation peut devenir insoluble. Une approche du problème consiste à exploiter la structure de la fonction énergie afin d'effectuer la minimisation de manière efficace. Un cas où la structure peut être exploitée se produit lorsque l'énergie peut être exprimée comme une somme de fonctions individuelles (appelées facteurs) qui dépendent chacune de différents sous-ensembles des variables de Y et Z. Ces dépendances sont mieux exprimées sous la forme d'un graphe de facteurs. Les graphes factoriels sont une forme générale de modèles graphiques ou de réseaux de croyances.
+L'apprentissage et l'inférence avec les modèles à base d'énergie impliquent une minimisation de l'énergie sur l'ensemble des réponses $\mathcal{Y}$ et des variables latentes $\mathcal{Z}$. Lorsque la cardinalité de $\mathcal{Y}\times \mathcal{Z}$ est importante, cette minimisation peut devenir insoluble. Une approche du problème consiste à exploiter la structure de la fonction énergie afin d'effectuer la minimisation de manière efficace. Un cas où la structure peut être exploitée se produit lorsque l'énergie peut être exprimée comme une somme de fonctions individuelles (appelées facteurs) qui dépendent chacune de différents sous-ensembles des variables de $\mathcal{Y}$ et $\mathcal{Z}$. Ces dépendances sont mieux exprimées sous la forme d'un graphe factoriel. Les graphes factoriels sont une forme générale de modèles graphiques ou de réseaux de croyances.
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-1/Fig5.png" style="background-color:#DCDCDCDC ;" /><br>
-Figure 5.
+  <b>Figure 5 :</b> Graphes factoriels à base d'énergie
 </center>
 
-Un exemple simple de graphe de facteur est présenté à la figure 19 (en haut). La fonction énergie est la somme de quatre facteurs :
+Un exemple simple de graphe de facteur est présenté à la figure 5 (en haut). La fonction énergie est la somme de quatre facteurs :
 
 $$E(Y, Z, X) = E_a(X, Z_1) + E_b(X, Z_1, Z_2) + E_c(Z_2, Y_1) + E_d(Y_1, Y_2)$$
 
@@ -168,19 +170,18 @@ où $Y = [Y_1, Y_2]$ sont les variables de sortie et $Z = [Z_1, Z_2]$ sont les v
 
 $$(\bar{Y}, \bar{Z})=\operatorname{argmin}_{y \in \mathcal{Y}, z \in \mathcal{Z}}\left(E_{a}\left(X, z_{1}\right)+E_{b}\left(X, z_{1}, z_{2}\right)+E_{c}\left(z_{2}, y_{1}\right)+E_{d}\left(y_{1}, y_{2}\right)\right)$$
 
-Supposons que $Z_1$, $Z_2$ et $Y_1$ sont des variables binaires discrètes et que $Y_2$ est une variable ternaire. La cardinalité du domaine de $X$ est sans importance puisque X est toujours observé. Le nombre de configurations possibles de $Z$ et $Y$ étant donné X est de 2 \times 2 \times 2 \times 3 = 24$. Un algorithme de minimisation naïf par recherche exhaustive évaluerait la fonction énergie entière 24 fois (96 évaluations à facteur unique).
+Supposons que $Z_1$, $Z_2$ et $Y_1$ sont des variables binaires discrètes et que $Y_2$ est une variable ternaire. La cardinalité du domaine de $X$ est sans importance puisque $X$ est toujours observé. Le nombre de configurations possibles de $Z$ et $Y$ étant donné $X$ est de $2 \times 2 \times 2 \times 3 = 24$. Un algorithme de minimisation naïf par recherche exhaustive évaluerait la fonction énergie entière 24 fois (96 évaluations à facteur unique).
 
-Cependant, nous remarquons que pour un $X$ donné, $E_a$ n'a que deux configurations d'entrée possibles : $Z_1 = 0$ et $Z_1 = 1$. De même, $E_b$ et $E_c$ n'ont que 4 configurations d'entrée possibles, et $E_d$ en a 6,
-il n'est pas nécessaire d'avoir plus de $2 + 4 + 4 + 6 = 16$ d'évaluations à facteur unique.
+Cependant, nous remarquons que pour un $X$ donné, $E_a$ n'a que deux configurations d'entrée possibles : $Z_1 = 0$ et $Z_1 = 1$. De même, $E_b$ et $E_c$ n'ont que 4 configurations d'entrée possibles, et $E_d$ en a 6, il n'est pas nécessaire d'avoir plus de $2 + 4 + 4 + 6 = 16$ d'évaluations à facteur unique.
 
-Nous pouvons donc pré-calculer les 16 valeurs de facteurs et les placer sur les arcs d'un treillis comme le montre la figure 19 (en bas).
+Nous pouvons donc précalculer les 16 valeurs de facteurs et les placer sur les arcs d'un *trellis* comme le montre la figure 5 (en bas).
 
 Les nœuds de chaque colonne représentent les valeurs possibles d'une seule variable. Chaque arc est pondéré par l'énergie de sortie du facteur pour les valeurs correspondantes de ses variables d'entrée. Avec cette représentation, un seul chemin du nœud de départ au nœud d'arrivée représente une configuration possible de toutes les variables. La somme des poids le long d'un chemin est égale à l'énergie totale pour la configuration correspondante. Par conséquent, le problème d'inférence peut être réduit à la recherche du **plus court chemin** dans ce graphe. Ceci peut être réalisé en utilisant une méthode de programmation dynamique telle que l'algorithme de Viterbi, ou l'algorithme A*. Le coût est proportionnel au nombre d'arêtes (16), qui est exponentiellement plus petit que le nombre de chemins en général.
 
 Pour calculer $E(Y, X) = \min_{z\in Z} E(Y, z, X)$, nous suivons la même procédure, mais nous limitons le graphe au sous-ensemble des arcs qui sont compatibles avec la valeur prescrite de $Y$.
 
 
-La procédure ci-dessus est parfois appelée l'algorithme min-sum, et c'est la version du domaine logarithmique du produit max traditionnel pour les modèles graphiques. La procédure peut facilement être généralisée aux graphes factoriels où les facteurs prennent plus de deux variables comme entrées, et aux graphes factoriels qui ont une structure arborescente au lieu d'une structure en chaîne.
+La procédure ci-dessus est parfois appelée l'algorithme min-sum et c'est la version du domaine logarithmique du produit max traditionnel pour les modèles graphiques. La procédure peut facilement être généralisée aux graphes factoriels où les facteurs prennent plus de deux variables comme entrées et aux graphes factoriels qui ont une structure arborescente au lieu d'une structure en chaîne.
 
 Toutefois, elle ne s'applique qu'aux graphes de facteurs qui sont des arbres bipartites (sans boucles). Lorsque des boucles sont présentes dans le graphe, l'algorithme de la somme minimale peut donner une solution approximative lorsqu'il est répété, ou peut ne pas converger du tout. Dans ce cas, un algorithme de descente tel que le recuit simulé pourrait être utilisé.
 
@@ -204,16 +205,14 @@ Here $\mathcal{F}$ denotes the set of factors (the set of pairs of individual la
 And then we can think about like what type of loss function. Here comes several different models.
 -->
 
-## Graphes de facteur simples à base d'énergie avec facteurs "peu profonds"
+## Graphes factoriels simples à base d'énergie avec facteurs peu profonds
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-1/Fig6.png" style="background-color:#DCDCDCDC ;" /><br>
-Figure 6.
+  <b> Figure 6 :</b> Graphe factoriel pour des modèles à structure linéaire
 </center>
 
-Le graphe de facteur présenté à la figure 20 est un graphe de facteur logarithmique pour les modèles linéaires structurés ("graphe de facteur simples à base d'énergie" dont nous parlons)
-
-Chaque facteur est une fonction $X$ et d'une paire de labels individuels $(Y_m, Y_n)$. En général, chaque facteur peut dépendre de plus de deux labels individuels, mais nous limiterons la discussion aux facteurs par paires pour simplifier la notation :
+Chaque facteur dans la figure 6 est une fonction $X$ et d'une paire de labels individuels $(Y_m, Y_n)$. En général, chaque facteur peut dépendre de plus de deux labels individuels, mais nous limiterons la discussion aux facteurs par paires pour simplifier la notation :
 
 $$E(W, Y, X)=\sum_{(m, n) \in \mathcal{F}} W_{m n}^{T} f_{m n}\left(X, Y_{m}, Y_{n}\right)$$
 
@@ -238,7 +237,7 @@ $$\mathcal{L}_{\mathrm{nll}}(W)=\frac{1}{P} \sum_{i=1}^{P} E\left(W, Y^{i}, X^{i
 
 ### Champ aléatoire conditionnel
 
-Nous pouvons utiliser la fonction de perte de log-vraisemblance négative pour entraîner un modèle linéaire structuré.
+Nous pouvons utiliser la fonction de perte de log-vraisemblance négative pour entraîner un modèle  à structure linéaire.
 
 Il s'agit du champ aléatoire conditionnel.
 
@@ -259,13 +258,13 @@ The intuition behind is that we want the energy of the correct answer to be low,
 This is the idea behind Max Margin Markov Nets and Latent SVM.
 -->
 
-### Réseaux de Markov à marge maximale et SVM latent
+### Réseaux de Markov à marge maximale et les SVMs latentes
 
-Nous pouvons également utiliser la fonction de perte Hinge pour l'optimisation. 
+Nous pouvons également utiliser la fonction de perte *Hinge* pour l'optimisation. 
 
 L'intuition est que nous voulons que l'énergie de la bonne réponse soit faible, puis parmi toutes les configurations possibles de réponses incorrectes, nous allons chercher celle qui a l'énergie la plus faible parmi toutes les mauvaises ou les mauvaises réponses. Et nous allons ensuite augmenter l'énergie de celle-ci. Nous n'avons pas besoin d'augmenter l'énergie pour les autres mauvaises réponses parce qu'elles sont de toute façon plus grandes.
 
-C'est l'idée qui sous-tend les réseaux de Markov à marge maximale et le SVM latent.
+C'est l'idée qui sous-tend les réseaux de Markov à marge maximale et les SVM latentes.
 
 
 <!--
@@ -282,11 +281,11 @@ $$
 where $Y^{* i}=\operatorname{argmin}_{y \in \mathcal{Y}} E\left(W, y, X^{i}\right)$ is the answer produced by the system.
 -->
 
-### Modèle de Perceptron structuré
+### Modèle avec une strcuture perceptron
 
-Nous pouvons entraîner le modèle linéaire structuré en utilisant la perte de perceptron.
+Nous pouvons entraîner un modèle linéaire en utilisant la perte de perceptron.
 
-Collins [Collins, 2000, Collins, 2002] a préconisé son utilisation pour les modèles linéaires structurés dans le contexte du NLP :
+Collins (2000 et 2002) a préconisé son utilisation pour les modèles linéaires structurés dans le contexte du traitement du langage naturel :
 
 $$
 \mathcal{L}_{\text {perceptron }}(W)=\frac{1}{P} \sum_{i=1}^{P} E\left(W, Y^{i}, X^{i}\right)-E\left(W, Y^{* i}, X^{i}\right)
@@ -302,11 +301,10 @@ Minimum Empirical Error Loss (Ljolje, and Rabiner 1990):
 By training at sequence level, they do not tell the system this sound or that location. They give the system input sentence and transcription of it in term of words, and ask the system to figure it out by doing time warping. They did not use nerual networks, and have other ways in turning speech signals into sound categories.
 -->
 
-#### Premières pistes sur l'entraînement discriminant pour la reconnaissance de la parole et de l'écriture.
-
-Minimum Empirical Error Loss (Ljolje, et Rabiner 1990) :
+#### Premières pistes sur un entraînement discriminant pour la reconnaissance de la parole et de l'écriture
 
-En s'entraînant au niveau de la séquence, ils n'indiquent pas au système tel ou tel son ou tel endroit. Ils donnent au système la phrase d'entrée et sa transcription en termes de mots, et demandent au système de la comprendre en faisant une distorsion temporelle. 
+*Minimum Empirical Error Loss* (Ljolje et Rabiner 1990) :
+En entraînant au niveau de la séquence, ils n'indiquent pas au système tel ou tel son ou tel endroit. Ils donnent au système la phrase d'entrée et sa transcription en termes de mots, et demandent au système de la comprendre en faisant une distorsion temporelle. 
 Ils n'ont pas utilisé de réseaux de neurones, et disposent d'autres moyens pour transformer les signaux vocaux en catégories de sons.
 
 <!--
@@ -359,66 +357,64 @@ Figure 11.
 </center>
 -->
 
-## [Réseau transformer de graphe](https://www.youtube.com/watch?v=gYayCG6YyO8&t=2610s)
+## [Graph Transformer Network (GTN)](https://www.youtube.com/watch?v=gYayCG6YyO8&t=2610s)
 
 Ici, le problème est que nous avons une séquence de chiffres à l'entrée et que nous ne savons pas comment faire la segmentation. Nous pouvons néanmoins construire un graphe dans lequel chaque chemin est un moyen de décomposer la séquence de caractères, et nous allons trouver le chemin avec la plus faible énergie. En gros cela revient à trouver le chemin le plus court. Voici un exemple concret de la façon dont cela fonctionne.
 
-Nous avons en entrée l'image du nombre 34. Passez-la dans le segmenteur et obtenez plusieurs segmentations alternatives. Ces segmentations sont des moyens de regrouper ces blocs de choses. Chaque chemin dans le graphe de segmentation correspond à une façon particulière de regrouper les taches d'encre.
+Nous avons en entrée l'image du nombre 34. On la passe dans le segmenteur et on obtient plusieurs segmentations alternatives. Ces segmentations sont des moyens de regrouper ces blocs de choses. Chaque chemin dans le graphe de segmentation correspond à une façon particulière de regrouper les taches d'encre.
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-1/Fig7.png" style="background-color:#DCDCDCDC ;" /><br>
-Figure 7.
+  <b> Figure 7 :</b> Image d'un 34
 </center>
 
-Nous passons chaque segment ? trucs ? par le même ConvNet de reconnaissance des caractères, et obtenons une liste de 10 scores (deux ici mais essentiellement 10, représentant 10 catégories). Par exemple, 1 [0,1] signifie que l'énergie est de 0,1 pour la catégorie 1. J'obtiens donc un graphe ici, et vous pouvez le considérer comme une forme étrange de tenseur. Il s'agit en fait d'un tenseur peu dense. C'est un tenseur qui dit que pour chaque configuration possible de cette variable, dites-moi le coût de la variable. C'est plus comme une distribution sur les tenseurs, ou une distribution logarithmique parce que nous parlons d'énergies.
+Nous passons chaque segment par le même ConvNet de reconnaissance des caractères et obtenons une liste de 10 scores (deux ici mais essentiellement 10, représentant 10 catégories). Par exemple, *1 [0,1]* signifie que l'énergie est de 0,1 pour la catégorie 1. J'obtiens donc un graphe ici, et vous pouvez le considérer comme une forme étrange de tenseur. Il s'agit en fait d'un tenseur peu dense. C'est un tenseur qui pour chaque configuration possible de cette variable, demande le coût de la variable. Il s'agit davantage d'une distribution sur les tenseurs, ou une distribution logarithmique car nous parlons d'énergies.
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-1/Fig8.png" style="background-color:#DCDCDCDC ;" /><br>
-Figure 8.
+  <b> Figure 8 :</b> Graphe d'ensemble
 </center>
 
-Prenez ce graphe et ensuite calculez l'énergie de la bonne réponse. Je vous dis que la bonne réponse est 34. Sélectionnez dans ces chemins et trouvez ceux qui disent 34.  Il y en a deux, l'une est l'énergie 3,4 + 2,4 = 5,8, et l'autre 0,1 + 0,6 = 0,7. Choisissez le chemin qui a l'énergie la plus faible. Ici, nous obtenons le chemin avec l'énergie 0,7.
+Si on prend le graphe de la figure 9 et devons calculer l'énergie de la bonne réponse (34), nous devons sélectionner dans ces chemins ceux donnant la bonne réponse.  Il y en a deux, l'une est l'énergie 3,4 + 2,4 = 5,8 et l'autre 0,1 + 0,6 = 0,7. Il nous reste alors plus qu'à prendre le chemin qui a l'énergie la plus faible. Ici, nous obtenons le chemin avec l'énergie 0,7.
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-1/Fig9.png" style="background-color:#DCDCDCDC ;" /><br>
-Figure 9.
+  <b> Figure 9 :</b> Graphe avec les valeurs d'énergie
 </center>
 
-Trouver le chemin est donc comme minimiser sur la variable latente où la variable latente est le chemin que vous choisissez. Conceptuellement, il s'agit d'un modèle énergétique avec une variable latente comme chemin.
+Trouver le chemin est donc comme minimiser sur une variable latente où la variable latente est le chemin que vous choisissez. Conceptuellement, il s'agit d'un modèle d'énergie avec une variable latente comme chemin.
 
-Nous avons maintenant l'énergie du chemin correct, 0,7. Ce que nous devons faire maintenant, c'est rétropropager le gradient à travers toute cette structure, afin de pouvoir modifier le poids dans le ConvNet de telle sorte que l'énergie finale diminue. Cela semble intimidant, mais c'est tout à fait possible. Comme tout ce système est construit à partir d'éléments que nous connaissons déjà, le réseau neuronal est régulier et le sélecteur de chemin et le transformateur de Viterbi sont essentiellement des swtiches qui choisissent un bord particulier ou non.
+Nous avons donc l'énergie du chemin correct, 0,7. Ce que nous devons faire maintenant, c'est rétropropager le gradient à travers toute cette structure, afin de pouvoir modifier le poids dans le ConvNet de telle sorte que l'énergie finale diminue. Cela semble intimidant, mais c'est tout à fait possible. Comme tout ce système est construit à partir d'éléments que nous connaissons déjà, le réseau neuronal est ordinaire et le sélecteur de chemin et le transformateur de Viterbi sont essentiellement des interrupteurs qui choisissent un bord particulier ou non.
 
-Alors comment se propager en arrière. Eh bien, le point 0,7 est la somme de 0,1 et 0,6. Donc, les points 0,1 et 0,6 auront tous deux une pente de +1, qui sont indiqués entre parenthèses. Ensuite, le Transformer de Viterbi n'a qu'à sélectionner un chemin parmi deux. Il suffit donc de copier le gradient pour l'arête correspondante dans le graphe d'entrée et de définir la pente pour les autres trajectoires qui ne sont pas sélectionnées comme étant nulles. C'est exactement ce qui se passe dans le Max-Pooling ou le Mean-Pooling. Le sélecteur de trajectoire est le même, c'est juste un système qui sélectionne la bonne réponse. Notez que 3 [0.1] (0) dans le graphe devrait être 3 [0.1] (1) à ce stade, et nous y reviendrons plus tard. Vous pouvez alors rétroprogrammer le gradient à travers le réseau de nerfs. Cela rendra l'énergie de la bonne réponse faible.
+Alors comment rétropropager ? Le point 0,7 est la somme de 0,1 et 0,6. Donc, les points 0,1 et 0,6 auront tous deux une pente de +1, qui sont indiqués entre parenthèses. Ensuite, le Transformer de Viterbi n'a qu'à sélectionner un chemin parmi deux. Il suffit donc de copier le gradient pour l'arête correspondante dans le graphe d'entrée et de définir la pente pour les autres trajectoires qui ne sont pas sélectionnées comme étant nulles. C'est exactement ce qui se passe dans le *max-pooling* ou le *mean-pooling*. Le sélecteur de trajectoire est le même, c'est juste un système qui sélectionne la bonne réponse. Notez que *3 [0.1] (0)* dans le graphe devrait être à ce stade être *3 [0.1] (1)*. Vous pouvez alors rétroprogager le gradient à travers le réseau de nerfs. Cela rend l'énergie de la bonne réponse faible.
 
-Ce qui est important ici, c'est que cette structure est dynamique, car si je vous donne une nouvelle entrée, le nombre d'instances du réseau névralgique changera avec le nombre de segmentations, et les graphes dérivés changeront également. Nous devons faire une rétropropagation à travers cette structure dynamique. C'est là que des choses comme PyTorch sont vraiment importantes.
+Ce qui est important ici, c'est que cette structure est dynamique, car si on vous donne une nouvelle entrée, le nombre d'instances du réseau névralgique changera avec le nombre de segmentations et les graphes dérivés changeront également. Nous devons faire une rétropropagation à travers cette structure dynamique. C'est là que des choses comme PyTorch sont vraiment importantes.
 
 Cette phrase de rétropropagation rend l'énergie de la bonne réponse faible. Et il y aura une deuxième phrase où nous allons rendre l'énergie de la mauvaise réponse grande. Dans ce cas, nous laissons le système choisir la réponse qu'il veut. Il s'agira d'une forme simplifiée d'entraînement discriminatoire pour la prédiction des structures qui utilisent la perte de perception.
 
-Les premières étapes de la deuxième phrase sont exactement les mêmes que celles de la première phrase. Le Transformer de Viterbi ici choisira simplement le meilleur chemin avec la plus faible énergie, nous ne nous soucions pas de savoir si ce chemin est correct ou non ici. L'énergie que vous obtenez ici sera plus petite ou égale à celle que vous obtenez dans la première phrase, puisque l'énergie obtenue ici est la plus petite de toutes les voies possibles.
+Les premières étapes de la deuxième phrase sont exactement les mêmes que celles de la première phrase. Le Transformer de Viterbi ici choisira simplement le meilleur chemin avec la plus faible énergie. Nous ne nous soucions pas de savoir si ce chemin est correct ou non ici. L'énergie que vous obtenez ici sera plus petite ou égale à celle que vous obtenez dans la première phrase, puisque l'énergie obtenue ici est la plus petite de toutes les voies possibles.
 
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-1/Fig10.png" style="background-color:#DCDCDC;" /><br>
-Figure 10.
+  <b> Figure 10 :</b> Raisonnement de la rétropropagation
 </center>
 
-Mettre la phase une et deux ensemble. La fonction de perte devrait être énergie1 - énergie2. Avant, nous avons introduit la rétropropagation par la partie gauche et maintenant nous devons en fait rétropropager à travers toute la structure. Quel que soit le chemin sur le côté gauche il obtiendra +1 et quel que soit le chemin sur le côté droit il obtiendra -1. Donc 3 [0,1] est apparu dans les deux chemins, donc devrait obtenir un gradient nul. Si nous faisons cela, le système finira par minimiser la différence entre l'énergie de la bonne réponse et l'énergie de la meilleure réponse quelle qu'elle soit. La fonction de perte ici est la perte de perceptron.
+En mettant la phase une et deux ensemble, la fonction de perte devrait être $énergie1 - énergie2$. Avant, nous avons introduit la rétropropagation par la partie gauche et maintenant nous devons en fait rétropropager à travers toute la structure. Quel que soit le chemin sur le côté gauche on obtiendra +1 et quel que soit le chemin sur le côté droit on obtiendra -1. Donc *3 [0,1]* est apparu dans les deux chemins, donc devrait obtenir un gradient nul. Si nous faisons cela, le système finira par minimiser la différence entre l'énergie de la bonne réponse et l'énergie de la meilleure réponse quelle qu'elle soit. La fonction de perte ici est la perte de perceptron.
 
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-1/Fig11.png" style="background-color:#DCDCDC;" /><br>
-Figure 11.
+<b> Figure 11 :</b> Raisonnement de la rétropropagation sur deux chemins
 </center>
 
-Mise en place de la première et de la deuxième phase. La fonction de perte devrait être énergie1 - énergie2. Avant, nous avons introduit la rétropropagation par la partie gauche, et maintenant, nous devons en fait rétropropager à travers toute la structure. Quel que soit le chemin sur le côté gauche, il obtiendra +1, et quel que soit le chemin sur le côté droit, il obtiendra -1. Donc 3 [0,1] est apparu dans les deux chemins, donc devrait obtenir un gradient 0. Si nous faisons cela, le système finira par minimiser la différence entre l'énergie de la bonne réponse et l'énergie de la meilleure réponse, quelle qu'elle soit. La fonction de perte ici est la perte de perceptron.
-
 
 
 <!--
 ## Comprehension Questions and Answers
 -->
 
-## Questions / Réponses 
+## Questions des étudiants
 
 <!--
 #### Question1: Why is inference easy in the case of energy-based factor graphs?
@@ -426,9 +422,8 @@ Mise en place de la première et de la deuxième phase. La fonction de perte dev
 Inference in the case of the energy-based model with latent variable involves the usage of exhaustive techniques such as gradient descent to minimize the energy however since the energy, in this case, is the sum of factors and techniques such as dynamic programming can be used instead.
 -->
 
-#### Question1 : Pourquoi l'inférence est-elle facile dans le cas des graphes de facteurs à base d'énergie ?
-
-L'inférence dans le cas de l’EBM avec variable latente implique l'utilisation de techniques exhaustives telles que la descente de gradient pour minimiser l'énergie. Cependant, puisque l'énergie, dans ce cas, est la somme des facteurs, des techniques telles que la programmation dynamique peuvent être utilisées à la place.
+**Pourquoi l'inférence est-elle facile dans le cas des graphes factoriels à base d'énergie ?**
+> L'inférence dans le cas d'un EBM avec variable latente implique l'utilisation de techniques exhaustives telles que la descente de gradient pour minimiser l'énergie. Cependant, puisque l'énergie, dans ce cas, est la somme des facteurs, des techniques telles que la programmation dynamique peuvent être utilisées à la place.
 
 <!--
 #### Question2: What if the latent variables in factor graphs are continuous variables? Can we still using min-sum algorithm?
@@ -436,9 +431,8 @@ L'inférence dans le cas de l’EBM avec variable latente implique l'utilisation
 We can't since we can't search for all possible combination for all factor values now. However, in this case, energies also gives us an advantage, because we can do independent optimizations. Like the combination of $Z_1$ and $Z_2$ only affects $E_b$ in Figure 19. We can do independent optimization and dynamic programming to do the inference.
 -->
 
-#### Question 2 : Que faire si les variables latentes des graphes de facteurs sont des variables continues ? Peut-on encore utiliser l'algorithme min-sum ?
-
-Nous ne le pouvons pas, car nous ne pouvons pas rechercher toutes les combinaisons possibles pour toutes les valeurs des facteurs maintenant. Cependant, dans ce cas, les énergies nous donnent aussi un avantage, car nous pouvons faire des optimisations indépendantes. Comme la combinaison de $Z_1$ et $Z_2$ n'affecte que $E_b$ dans la figure 19. Nous pouvons faire des optimisations indépendantes et une programmation dynamique pour faire l'inférence.
+**Que faire si les variables latentes des graphes factoriels sont des variables continues ? Peut-on encore utiliser l'algorithme min-sum ?**
+> Nous ne le pouvons pas, car nous ne pouvons pas rechercher toutes les combinaisons possibles pour toutes les valeurs des facteurs maintenant. Cependant, dans ce cas, les énergies nous donnent aussi un avantage car nous pouvons faire des optimisations indépendantes. Comme la combinaison de $Z_1$ et $Z_2$ n'affecte que $E_b$ dans la figure 5. Nous pouvons faire des optimisations indépendantes et une programmation dynamique pour faire l'inférence.
 
 <!--
 #### Question3: Are the NN boxes refering to seperate ConvNets?
@@ -446,5 +440,5 @@ Nous ne le pouvons pas, car nous ne pouvons pas rechercher toutes les combinaiso
 They are shared. They are multiple copies of the same ConvNet. It's just a character recognition network.
 -->
 
-#### Question3 : Les boîtes NN font-elles référence à des ConvNets séparés ?
-Elles sont partagées. Ce sont des copies multiples du même ConvNet. Il s'agit simplement d'un réseau de reconnaissance de caractères.
+**Question3 : Les boîtes font-elles référence à des ConvNets séparés ?**
+> Elles sont partagées. Ce sont des copies multiples du même ConvNet. Il s'agit simplement d'un réseau de reconnaissance de caractères.
diff --git a/docs/fr/week14/14-2.md b/docs/fr/week14/14-2.md
index 4cb8963a3..85b1d7229 100644
--- a/docs/fr/week14/14-2.md
+++ b/docs/fr/week14/14-2.md
@@ -2,7 +2,7 @@
 lang: fr
 lang-ref: ch.14-2
 lecturer: Yann Le Cun
-title: Méthodes à base d'énergie graphiques
+title: Méthodes graphiques à base d'énergie 
 authors: Yada Pruksachatkun, Ananya Harsh Jha, Joseph Morag, Dan Jefferys-White, and Brian Kelly
 date: 4 May 2020
 translation-date: 14 Aug 2020
@@ -32,7 +32,7 @@ A: The segment is handcrafted heuristics. The model uses a handcrafted segment a
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-2/GT.png" style="background-color:#DCDCDCDC ;" /><br>
-Figure 1 : Architecture de réseau
+  <b>Figure 1 :</b> Architecture de réseau
 </center>
 
 Dans la figure ci-dessus, les chemins incorrects ont une valeur de -1.
@@ -41,9 +41,8 @@ Yann commence par la perte de perceptron, qui est utilisée dans l'exemple du *G
 
 En termes de mise en œuvre, vous représenterez les arcs dans la visualisation avec un vecteur. Plutôt qu'un arc séparé pour chaque catégorie, un vecteur contient à la fois les catégories et le score de chaque catégorie.
 
-**Q** : Comment le segmenteur est-il implémenté dans le modèle ci-dessus ?
-
-**R** : Le segmenteur est une heuristique artisanale. Le modèle utilise un segment artisanal bien qu'il y ait un moyen de le rendre entraînable de bout en bout. Cette approche artisanale a été remplacée par l'approche de la fenêtre coulissante pour la reconnaissance des caractères.
+**Comment le segmenteur est-il implémenté dans le modèle ci-dessus ?**
+> Le segmenteur est une heuristique artisanale. Le modèle utilise un segment artisanal bien qu'il y ait un moyen de le rendre entraînable de bout en bout. Cette approche artisanale a été remplacée par l'approche de la fenêtre coulissante pour la reconnaissance des caractères.
 
 
 
@@ -88,10 +87,10 @@ Tableau 1 : Diverses équations de perte
 | Équation de perte | Formule | Marge |
 | :---- | :---- : | ---:|
 | Perte d'énergie | $\text{E}(\text{W}, \text{Y}^i, \text{X}^i)$ | Aucune |
-| Perceptron | $\text{E}(\text{W}, \text{Y}^i, \text{X}^i)-\min\limites_{\text{Y}\in\mathcal{Y}}\text{E}(\text{W}, \text{Y}, \text{X}^i)$ | 0 |
-| Hinge | $\max\big(0, m + \text{E}(\text{W}, \text{Y}^i,\text{X}^i)-\text{E}(\text{W}, \overline{\text{Y}}^i,\text{X}^i)\big)$ | $m$ |
-| Log | $\log\bigg(1+\exp\big(\text{E}(\text{W}, \text{Y}^i,\text{X}^i)-\text{E}(\text{W}, \overline{\text{Y}}^i,\text{X}^i)\big)\bigg)$ | >0 |
-| LVQ2 | $\min\bigg(M, \max\big(0, \text{E}(\text{W}, \text{Y}^i,\text{X}^i)-\text{E}(\text{W}, \overline{\text{Y}}^i,\text{X}^i)\big)\bigg)$ | 0 |
+| Perceptron | $\text{E}(\text{W}, \text{Y}^i, \text{X}^i)-\min\limits_{\text{Y}\in\mathcal{Y}}\text{E}(\text{W}, \text{Y}, \text{X}^i)$ | 0  |
+| Hinge  | $\max\big(0, m + \text{E}(\text{W}, \text{Y}^i,\text{X}^i)-\text{E}(\text{W}, \overline{\text{Y}}^i,\text{X}^i)\big)$  | $m$ |
+| Log  | $\log\bigg(1+\exp\big(\text{E}(\text{W}, \text{Y}^i,\text{X}^i)-\text{E}(\text{W}, \overline{\text{Y}}^i,\text{X}^i)\big)\bigg)$ | >0 |
+| LVQ2  | $\min\bigg(M, \max\big(0, \text{E}(\text{W}, \text{Y}^i,\text{X}^i)-\text{E}(\text{W}, \overline{\text{Y}}^i,\text{X}^i)\big)\bigg)$ | 0 |
 | MCE | $\bigg(1+\exp\Big(-\big(\text{E}(\text{W}, \text{Y}^i,\text{X}^i)-\text{E}(\text{W}, \overline{\text{Y}}^i,\text{X}^i)\big)\Big)\bigg)^{-1}$| >0 |
 | Square-Square | $\text{E}(\text{W}, \text{Y}^i,\text{X}^i)^2-\bigg(\max\big(0, m - \text{E}(\text{W}, \overline{\text{Y}}^i,\text{X}^i)\big)\bigg)^2$ | $m$ |
 | Square-Exp | $\text{E}(\text{W}, \text{Y}^i,\text{X}^i)^2 + \beta\exp\big(-\text{E}(\text{W}, \overline{\text{Y}}^i,\text{X}^i)\big)$ | >0 |
@@ -99,15 +98,14 @@ Tableau 1 : Diverses équations de perte
 | MEE |$1-\frac{\exp\big(-\beta E(W,Y^i,X^i)\big)}{\int_{y\in\mathcal{Y}}\exp\big(-\beta E(W,y,X^i)\big)}$ | >0 |
 
 
-La perte de perceptron observée dans le tableau ci-dessus n'a pas de marge, et donc la perte risque de s'effondrer.
+La perte de perceptron observée dans le tableau ci-dessus n'a pas de marge et donc risque de s'effondrer.
 
 * La perte de perceptron consiste à calculer la différence d’énergie entre celle de la réponse la plus offensante et celle de la bonne réponse. Intuitivement, avec une marge m, l’hinge aura une perte de 0 que lorsque l'énergie correcte est inférieure à l'énergie la plus offensante *d'au moins* m.
 * La perte MCE est utilisée dans la reconnaissance vocale, et ressemble à un sigmoïde.
 * La perte NLL vise à rendre l'énergie de la bonne réponse petite et la composante logarithmique de l'équation grande.
 
-**Q** : Comment l’hinge peut-elle être meilleure que la perte NLL ?
-
-**R** : L’hinge est meilleure que la perte NLL parce que NLL essaie de pousser la différence entre la bonne réponse et les autres réponses à l'infini, alors que l'hinge veut seulement la rendre plus grande qu'une certaine valeur (la marge m). 
+**Comment la perte hinge peut-elle être meilleure que la perte NLL ?**
+> La perte hinge est meilleure que la perte NLL parce que NLL essaie de pousser la différence entre la bonne réponse et les autres réponses à l'infini, alors que l'hinge veut seulement la rendre plus grande qu'une certaine valeur (la marge m). 
 
 
 <!--
@@ -122,17 +120,14 @@ A: Language modelling, machine translation, and sequence tagging.
 ### Définition :
 
 Un décodeur entre une séquence de vecteurs qui indiquent les scores ou l'énergie des différents sons ou images, et choisit la meilleure sortie possible.
-
-**Q** : Quels sont des exemples de problèmes pouvant être résolus par des décodeurs ? 
-
-**R** : Modélisation de la langue, traduction automatique et marquage des séquences.
+Il peut êtreutile pour tout ce qui est modélisation du langage, traduction automatique et marquage des séquences.
 
 
 <!--
 ## Forward algorithm in Graph Transformer Networks
 -->
 
-## Algorithme forward dans les réseaux Transformer de graphe
+## Algorithme *forward dans* les réseaux  *Graph Transformer Networks*
 
 
 <!--
@@ -158,13 +153,13 @@ In a similar fasion, graph composition also allows us to combine two knowledge b
 As a side note, if the language model shown in this example is a neural network, we can backpropagate through the entire structure. This becomes an example of a differentiable program where we backpropagate through a program containing loops, if-conditions, recursions etc.
 -->
 
-### Composition des graphes
+### Composition de graphes
 
-La composition des graphes nous permet de combiner deux graphes. Dans cet exemple, nous pouvons voir un lexique de modèle de langage représenté par un $trie$ (un graphe) et un graphe de reconnaissance qui est produit par un réseau de neurones.
+La composition de graphes nous permet de combiner deux graphes. Dans cet exemple, nous pouvons voir un lexique de modèle de langage représenté par un $trie$ (un graphe) et un graphe de reconnaissance qui est produit par un réseau de neurones.
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-2/graph_composition.png" height="50%" width="50%" /><br>
-<b>Figure 2</b> : Composition de graphe
+<b>Figure 2 :</b> Composition de graphes
 </center>
 
 Le graphe de reconnaissance spécifie avec différentes valeurs d'énergie (associées à chaque arc) la probabilité qu'un personnage se trouve à une étape particulière.
@@ -203,7 +198,7 @@ Toute l'architecture d'un lecteur de chèques du milieu des années 90 est assez
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-2/check_reader.png"/><br>
-<b>Figure 3</b> : Lecteur de chèque
+<b>Figure 3 :</b> Lecteur de chèque
 </center>
 
 Ce graphe de reconnaissance subit deux opérations de composition distinctes, la première avec l'interprétation correcte (ou la vérité de base) et la seconde avec la grammaire qui crée un graphe de toutes les interprétations possibles.
@@ -262,13 +257,13 @@ $$F_{\beta} (x, y) = -\frac{1}{\beta} \; \log \; \sum_{z \, \in \, \text{paths}}
 
 Cela est marginalisant par rapport à la variable latente z, qui définit les chemins dans un graphe d'interprétation. Cette approche calcule la valeur exponentielle de cette somme logarithmique sur tous les chemins possibles vers un nœud particulier. C'est comme si l'on peignait le coût de tous les chemins possibles d'une manière douce et minimale.
 
-L'algorithme de forward est peu coûteux à mettre en œuvre et ne coûte pas plus cher que l'algorithme de Viterbi. De plus, nous pouvons faire une rétropropagation à travers le nœud de l'algorithme direct dans le graphe.
+L'algorithme *forward* est peu coûteux à mettre en œuvre et ne coûte pas plus cher que l'algorithme de Viterbi. De plus, nous pouvons faire une rétropropagation à travers le nœud de l'algorithme direct dans le graphe.
 
 Le fonctionnement de l'algorithme avancé peut être montré à l'aide de l'exemple suivant défini sur un graphe d'interprétation.
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-2/interpretation_graph.png" height="50%" width="50%" /><br>
-<b>Figure 4</b> : Graphe d'interprétation
+<b>Figure 4 :</b> Graphe d'interprétation
 </center>
 
 
@@ -319,12 +314,12 @@ Nous pouvons effectuer une rétropropagation à travers le graphe d'interprétat
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-2/check_reader.png" /><br>
-<b>Figure 5</b> : Lecteur de chèque
+<b>Figure 5 :</b> Lecteur de chèque
 </center>
 
-Pour revenir à l'exemple du lecteur de chèque, nous appliquons l'algorithme de forward sur les deux compositions de graphes et obtenons la valeur énergétique au dernier nœud en utilisant la log sum exponentielle forumla. La différence entre ces valeurs énergétiques est la perte de log-vraisemblance négative.
+Pour revenir à l'exemple du lecteur de chèque, nous appliquons l'algorithme *forward* sur les deux compositions de graphes et obtenons la valeur énergétique au dernier nœud en utilisant la log sum exponentielle forumla. La différence entre ces valeurs énergétiques est la perte de log-vraisemblance négative.
 
-La valeur obtenue en appliquant l'algorithme de forward sur la composition du graphe entre la bonne réponse et le graphe de reconnaissance est la valeur exponentielle de la somme logarithmique de la bonne réponse. En revanche, la valeur exponentielle de la somme des logarithmes au dernier nœud de la composition du graphe entre le graphe de reconnaissance et la grammaire est la valeur marginale de toutes les interprétations valides possibles.
+La valeur obtenue en appliquant l'algorithme *forward* sur la composition du graphe entre la bonne réponse et le graphe de reconnaissance est la valeur exponentielle de la somme logarithmique de la bonne réponse. En revanche, la valeur exponentielle de la somme des logarithmes au dernier nœud de la composition du graphe entre le graphe de reconnaissance et la grammaire est la valeur marginale de toutes les interprétations valides possibles.
 
 <!--
 # [Lagrangian formulation of Backpropagation](https://www.youtube.com/watch?v=gYayCG6YyO8&t=5573s)
@@ -352,12 +347,12 @@ Pour une entrée $x$ et une sortie cible $y$, nous pouvons formuler un réseau c
 
 Le Lagrangien peut être écrit :
 $$ \mathcal{L}(x, y, \lambda_i, z_i, w_i) = C(z_n, y) + \sum\limits_{k=0}^{n-1} \lambda^T_{k+1}(z_{k+1} - f_k(z_k, w_k)) $$
-où les termes $ \lambda $ désignent les multiplicateurs de Lagrange (voir [les notes en ligne de Paul](http://tutorial.math.lamar.edu/Classes/CalcIII/LagrangeMultipliers.aspx) pour un rafraîchissement si besoin).
+où les termes $ \lambda $ désignent les multiplicateurs de Lagrange (voir [ce site](http://tutorial.math.lamar.edu/Classes/CalcIII/LagrangeMultipliers.aspx) (en anglais) pour un rafraîchissement si besoin).
 
 Pour minimiser $\mathcal{L}$, nous devons mettre à zéro les dérivées partielles de $\mathcal{L}$ par rapport à chacun de ses arguments et les résoudre.
 
 - Pour $\lambda$, nous récupérons simplement la contrainte : $\frac{\partial{\mathcal{L}}}{\partial \lambda_{k+1}} = 0 \rightarrow z_{k+1} = f_k(z_k, w_k)$.
-- Pour $z_k$, $\frac{\partial \mathcal{L}}{\partiel z_k} = 0 \rightarrow\lambda^T_k - \lambda^T_{k+1} \frac{\partiel f_k(z_k, w)}{\partial z_k} \rightarrow \lambda_k = \frac{\partial f_k(z_k, w_k)^T}{\partial z_k}\lambda_{k+1}$, qui est juste la formule standard de rétropropagation.
+- Pour $z_k$, $\frac{\partial \mathcal{L}}{\partial z_k} = 0 \rightarrow \lambda^T_k - \lambda^T_{k+1} \frac{\partial f_k(z_k, w)}{\partial z_k} \rightarrow \lambda_k = \frac{\partial f_k(z_k, w_k)^T}{\partial z_k}\lambda_{k+1}$, qui est juste la formule standard de rétropropagation.
 
 Cette approche est née avec Lagrange et Hamilton dans le contexte de la mécanique classique, où la minimisation est supérieure à l'énergie du système et où les termes $\lambda$ désignent les contraintes physiques du système, comme par exemple deux boules qui sont forcées de rester à une distance fixe l'une de l'autre parce qu'elles sont attachées par une barre métallique, par exemple.
 
@@ -373,12 +368,12 @@ $ z_{t+\text{d}t} = z_t + f(z_t, W) dt  $, where $ W$ represents some set of fix
 Training such a network using the Lagrangian formulation is very straightforward. If we have a target, $y$, and want the state of the system to reach $y$ by time $T$, we simply establish the cost function as the distance between $z_T$ and $y$. Another goal of the network could be to find a stable state of the system, *i.e.* one that ceases to change after a certain point. Mathematically, this is equivalent to setting $\frac{\text{d}z}{\text{d}t} = f(y, W) = 0$. In general, finding a solution, $y$ to this equation is much easier than back propagation through time, because the network need not remember the gradient with respect to the whole sequence, and only has to minimize $f$ or $\lvert f \rvert^2$. For more information about training neural ODE's to reach fixed points, see [(Lecun88)](http://yann.lecun.com/exdb/publis/pdf/lecun-88.pdf).
 -->
 
-# Equation différentielle ordinaire (ODE) neurale 
+# Equation différentielle ordinaire (ODE) neuronale 
 
 En utilisant cette formulation de la rétropropagation, nous pouvons maintenant parler d'une nouvelle classe de modèles, les ODEs neuronales. Il s'agit essentiellement de réseaux récurrents où l'état, $z$, au moment $t$ est donné par
 $ z_{t+\text{d}t} = z_t + f(z_t, W) dt $, où $ W$ représente un ensemble de paramètres fixes. Cela peut également être exprimé sous la forme d'une équation différentielle ordinaire (sans dérivée partielle) : $\frac{\text{d}z}{\text{d}t} = f(z_t, W)$.
 
-Entraîner un tel réseau en utilisant la formulation lagrangienne est très simple. Si nous avons un objectif, $y$, et que nous voulons que l'état du système atteigne $y$ dans le temps $T$, nous établissons simplement la fonction de coût comme étant la distance entre $z_T$ et $y$. Un autre objectif du réseau pourrait être de trouver un état stable du système, *c'est-à-dire un état qui cesse de changer après un certain point. Mathématiquement, cela équivaut à fixer $\frac{\text{d}z}{\text{d}t} = f(y, W) = 0$. En général, trouver une solution, $y$ à cette équation est beaucoup plus facile que la propagation dans le temps, car le réseau n'a pas besoin de se souvenir du gradient par rapport à l'ensemble de la séquence, et doit seulement minimiser $f$ ou $\lvert f \rvert^2$. Pour plus d'informations sur l'entraînement des ODE neuronales pour atteindre des points fixes, voir [(Lecun88)](http://yann.lecun.com/exdb/publis/pdf/lecun-88.pdf).
+Entraîner un tel réseau en utilisant la formulation lagrangienne est très simple. Si nous avons un objectif, $y$, et que nous voulons que l'état du système atteigne $y$ dans le temps $T$, nous établissons simplement la fonction de coût comme étant la distance entre $z_T$ et $y$. Un autre objectif du réseau pourrait être de trouver un état stable du système, c'est-à-dire un état qui cesse de changer après un certain point. Mathématiquement, cela équivaut à fixer $\frac{\text{d}z}{\text{d}t} = f(y, W) = 0$. En général, trouver une solution, $y$ à cette équation est beaucoup plus facile que la propagation dans le temps, car le réseau n'a pas besoin de se souvenir du gradient par rapport à l'ensemble de la séquence, et doit seulement minimiser $f$ ou $\lvert f \rvert^2$. Pour plus d'informations sur l'entraînement des ODE neuronales pour atteindre des points fixes, voir [Le Cun (1988)](http://yann.lecun.com/exdb/publis/pdf/lecun-88.pdf).
 
 <!--
 # [Variational Inference in terms of Energy](https://www.youtube.com/watch?v=gYayCG6YyO8&t=6522s)
@@ -449,11 +444,11 @@ Great! Now we have an upper bound to our loss function $L(x,y)$, composed of two
 
 ## L'inégalité de Jensen
 
-L'inégalité de Jensen est une observation géométrique qui dit : si nous avons une fonction convexe, alors l' *attention* de cette fonction sur un intervalle, est inférieure à la moyenne de la fonction évaluée au début et à la fin de l'intervalle. Illustrée géométriquement, cette observation est très intuitive :
+L'inégalité de Jensen est une observation géométrique qui dit : si nous avons une fonction convexe, alors l'attention de cette fonction sur un intervalle, est inférieure à la moyenne de la fonction évaluée au début et à la fin de l'intervalle. Illustrée géométriquement, cette observation est très intuitive :
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-2/wikipedia_jensens_inequality.png" height="50%" width="50%" style="background-color:#DCDCDC;" /><br>
-<b>Figure 6:</b> L'inégalité de Jensen (extrait de [Wikipedia](https://en.wikipedia.org/wiki/Jensen%27s_inequality))
+<b>Figure 6 :</b> L'inégalité de Jensen
 </center>
 
 De même, si $F$ est convexe, pour une distribution de probabilité fixe $q$, nous pouvons déduire de l'inégalité de Jensen que sur la gamme $z$,
@@ -475,7 +470,7 @@ $$\leq \int_z q(z)[E(x,y,z) + \frac{1}{\beta}\log(q(z))]$$
 
 $$\leq \int_z q(z)E(x,y,z) + \frac{1}{\beta}\int_z q(z)\log(q(z))$$
 
-Super ! Nous avons maintenant une limite supérieure à notre fonction de perte $L(x,y)$, composée de deux termes que nous comprenons. Le premier terme $\int_z q(z)E(x,y,z)$ est l'énergie *moyenne*. Et le second terme $\frac{1}{\beta}\int_z\log(q(z))$ est juste un facteur ($-\frac{1}{\beta}$) multiplié par la *entropie* de la distribution $q$.
+Super ! Nous avons maintenant une limite supérieure à notre fonction de perte $L(x,y)$, composée de deux termes que nous comprenons. Le premier terme $\int_z q(z)E(x,y,z)$ est l'énergie *moyenne*. Et le second terme $\frac{1}{\beta}\int_z\log(q(z))$ est juste un facteur ($-\frac{1}{\beta}$) multiplié par l'*entropie* de la distribution $q$.
 
 <!--
 ## What's the point?
@@ -507,5 +502,5 @@ This is the "energy view" of variational inference. If you need to compute the l
 
 ## Résumé
 
-C'est la "vue énergétique" de l'inférence variationnelle. Si vous devez calculer le logarithme d'une somme d'exponentielles, remplacez-le par la moyenne de votre fonction plus un terme d'entropie. Cela nous donne une limite supérieure. Nous minimisons ensuite cette limite supérieure et, ce faisant, nous minimisons la fonction qui nous intéresse réellement.
+Ceci est la vue énergétique de l'inférence variationnelle. Si vous devez calculer le logarithme d'une somme d'exponentielles, remplacez-le par la moyenne de votre fonction plus un terme d'entropie. Cela nous donne une limite supérieure. Nous minimisons ensuite cette limite supérieure et, ce faisant, nous minimisons la fonction qui nous intéresse réellement.
 
diff --git a/docs/fr/week14/14-3.md b/docs/fr/week14/14-3.md
index 5836ea8ce..edd5f5bce 100644
--- a/docs/fr/week14/14-3.md
+++ b/docs/fr/week14/14-3.md
@@ -57,10 +57,9 @@ Another definition of regularization from Ian Goodfellow:
 
 Nous pouvons essayer de lutter contre le surentraînement en introduisant une régularisation. L'ampleur de la régularisation aura une incidence sur les performances de validation du modèle. Une régularisation trop faible ne résoudra pas le problème du surentraînement. Trop de régularisation rendra le modèle beaucoup moins efficace.
 
-La *régularisation* ajoute des connaissances préalables à un modèle ; une distribution préalable est spécifiée pour les paramètres. Elle agit comme une restriction sur l'ensemble des fonctions pouvant être apprises.
+La *régularisation* ajoute des connaissances préalables à un modèle, une distribution préalable est spécifiée pour les paramètres. Elle agit comme une restriction sur l'ensemble des fonctions pouvant être apprises.
 
-Une autre définition de la régularisation de Ian Goodfellow :
-> La régularisation est toute modification que nous apportons à un algorithme d'apprentissage qui vise à réduire son erreur de généralisation mais pas son erreur d'entraînement.
+Une autre définition de la régularisation de Ian Goodfellow : « la régularisation est toute modification que nous apportons à un algorithme d'apprentissage qui vise à réduire son erreur de généralisation mais pas son erreur d'entraînement ».
 
 
 <!--
@@ -105,10 +104,9 @@ This new term in the update drives the parameters $\theta$ slightly toward zero,
 
 ### Régularisation du taux de décroissance des poids
 
-Le taux de décroissance des poids (weight decay) est notre première technique de régularisation. Elle est largement utilisée dans l'apprentissage machine, mais moins dans les réseaux de neurones.  Dans PyTorch, cela est fourni comme paramètre à l'optimiseur (voir par exemple le paramètre "weight_decay" pour [SGD](https://pytorch.org/docs/stable/optim.html#torch.optim.SGD)).
+Le taux de décroissance des poids (*weight decay*) est notre première technique de régularisation. Elle est largement utilisée dans l'apprentissage machine, mais moins dans les réseaux de neurones. Dans PyTorch, cela est fourni comme paramètre à l'optimiseur (voir par exemple le paramètre `weight_decay` pour [`SGD`](https://pytorch.org/docs/stable/optim.html#torch.optim.SGD)).
 
 Ce paramètre est également appelé :
-
 - L2
 - Ridge
 - Gaussian prior
@@ -130,7 +128,7 @@ qui produit une mise à jour
 $$\theta \gets \theta - \eta \nabla_{\theta} J^{\text{old}}_{\text{train}}(\theta) - \underbrace{\eta\lambda\theta}_{\text{decay}}$$
 
 
-Ce nouveau terme dans la mise à jour conduit les paramètres $\theta$ légèrement vers zéro, en ajoutant une certaine "décroissance" dans les poids à chaque mise à jour.
+Ce nouveau terme dans la mise à jour conduit les paramètres $\theta$ légèrement vers zéro, en ajoutant une certaine décroissance dans les poids à chaque mise à jour.
 
 
 <!--
@@ -163,7 +161,7 @@ Disponible en option pour PyTorch [optimiseurs](https://pytorch.org/docs/stable/
 
 Aussi appelé :
 
-- LASSO : Opérateur de sélection de la rétraction la moins absolue
+- LASSO
 - Laplacian prior
 - Sparsity prior
 
@@ -177,7 +175,7 @@ qui produit une mise à jour
 
 $$\theta \gets \theta - \eta \nabla_{\theta} J^{\text{old}}_{\text{train}}(\theta) - \underbrace{\eta\lambda\cdot\mathrm{sign}(\theta)}_{\text{penalty}}$$
 
-Contrairement au taux de décroissance $L_2$, la régularisation $L_1$ "tuera" les composantes qui sont proches d'un axe dans l'espace de paramètres, plutôt que de réduire de manière égale la longueur du vecteur de paramètres.
+Contrairement au taux de décroissance $L_2$, la régularisation $L_1$ « tuera » les composantes qui sont proches d'un axe dans l'espace de paramètres, plutôt que de réduire de manière égale la longueur du vecteur de paramètres.
 
 <!--
 ### Dropout
@@ -204,28 +202,28 @@ Figure 3: Dropout code
 After training, during inference, dropout is not used any more. In order to create the final network for inference, we average over all of the individual networks created during dropout and use that for inference. We can similarly multiply all of the weights by $1/1-p$ where $p$ is the dropout rate.
 -->
 
-### Dropout
+### *Dropout*
 
-Le dropout consiste à mettre à zéro un certain nombre de neurones de façon aléatoire pendant l'entraînement. Cela empêche le réseau d'apprendre un chemin singulier de l'entrée à la sortie. De même, en raison de la grande paramétrisation des réseaux de neurones, il est possible pour le réseau de neurones de mémoriser efficacement l'entrée. Cependant, avec le dropout, cela est beaucoup plus difficile car l'entrée est mise dans un réseau différent à chaque fois, puisque le dropout entraîne effectivement un nombre infini de réseaux qui sont différents à chaque fois. Par conséquent, le dropout peut être un moyen efficace de contrôler le surentraînement et d'être plus résistant aux petites variations de l'entrée.
+Le *dropout* consiste à mettre à zéro un certain nombre de neurones de façon aléatoire pendant l'entraînement. Cela empêche le réseau d'apprendre un chemin singulier de l'entrée à la sortie. De même, en raison de la grande paramétrisation des réseaux de neurones, il est possible pour le réseau de neurones de mémoriser efficacement l'entrée. Cependant, avec le *dropout*, cela est beaucoup plus difficile car l'entrée est mise dans un réseau différent à chaque fois, puisque le *dropout* entraîne effectivement un nombre infini de réseaux qui sont différents à chaque fois. Par conséquent, le *dropout* peut être un moyen efficace de contrôler le surentraînement et d'être plus résistant aux petites variations de l'entrée.
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-3/network_without_dropout.JPG" style="background-color:#DCDCDC ;" /><br>
-Figure 1 : Réseau sans dropout
+  <b> Figure 1 :</b> Réseau sans dropout
 </center>
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-3/network_with_dropout.JPG" style="background-color:#DCDCDC ;" /><br>
-Figure 2 : Réseau avec dropout
+<b> Figure 2 :</b> Réseau avec dropout
 </center>
 
 Dans PyTorch, nous pouvons fixer un taux de dropout aléatoire des neurones.
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-3/code.JPG" style="background-color:#DCDCDCDC ;" /><br>
-Figure 3 : Code pour le dropout
+<b> Figure 3 :</b> Code pour le dropout
 </center>
 
-Après l'entraînement, lors de l'inférence, le dropout n'est plus utilisé. Afin de créer le réseau final pour l'inférence, nous faisons la moyenne de tous les réseaux individuels créés pendant le dropout et nous l'utilisons pour l'inférence. Nous pouvons également multiplier tous les poids par 1/1-p$, où $p$ est le taux de dropout.
+Après l'entraînement, lors de l'inférence, le *dropout* n'est plus utilisé. Afin de créer le réseau final pour l'inférence, nous faisons la moyenne de tous les réseaux individuels créés pendant le *dropout* et nous l'utilisons pour l'inférence. Nous pouvons également multiplier tous les poids par 1/1-p$, où $p$ est le taux de *dropout*.
 
 
 <!--
@@ -246,7 +244,7 @@ Pendant l'entraînement, si la perte de validation commence à augmenter, nous p
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-3/early_stop.JPG" style="background-color:#DCDCDCDC ;" /><br>
-Figure 4 : Arrêt anticipé
+<b> Figure 4 :</b> Arrêt anticipé
 </center>
 
 <!--
@@ -280,23 +278,20 @@ Regarding the regularizing effect, due to each batch being different, each sampl
 Another benefit of batch normalisation is that training is a lot faster.
 -->
 
-## Batch normalisation
-
-Q. Comment la batch normalisation rend-elle l’entraînement plus efficace ?
-A. Nous pouvons utiliser un taux d'apprentissage plus élevé lorsque nous appliquons la batch-norm.
+## Normalisation par batch
 
-La batch-norm est utilisée pour empêcher le déplacement des covariables internes d'un réseau neuronal, mais la question de savoir si elle permet réellement d'atteindre cet objectif et quel en est le véritable avantage fait l'objet de nombreux débats.
+**Comment la normalisation par batch rend-elle l’entraînement plus efficace ?**
+> Nous pouvons utiliser un taux d'apprentissage plus élevé lorsque nous appliquons la normalisation par batch. Elle est utilisée pour empêcher le déplacement des covariables internes d'un réseau neuronal, mais la question de savoir si elle permet réellement d'atteindre cet objectif et quel en est le véritable avantage fait l'objet de nombreux débats.
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-3/BN.JPG" style="background-color:#DCDCDCDC ;" /><br>
-Figure 5 : Batch-normalisation
+<b> Figure 5 :</b> Batch-normalisation
 </center>
 
-La batch normalisation étend essentiellement la logique de normalisation de l'entrée du réseau neuronal à la normalisation de l'entrée de chaque couche cachée du réseau. L'idée de base est d'avoir une distribution fixe qui alimente chaque couche suivante d'un réseau neuronal puisque l'apprentissage se fait mieux lorsque nous avons une distribution fixe. Pour ce faire, nous calculons la moyenne et la variance de chaque batch avant chaque couche cachée et nous normalisons les valeurs entrantes par ces statistiques spécifiques aux batchs, ce qui réduit la quantité par laquelle les valeurs vont finalement se déplacer pendant l'entraînement.
+> La normalisation par batch étend essentiellement la logique de normalisation de l'entrée du réseau neuronal à la normalisation de l'entrée de chaque couche cachée du réseau. L'idée de base est d'avoir une distribution fixe qui alimente chaque couche suivante d'un réseau neuronal puisque l'apprentissage se fait mieux lorsque nous avons une distribution fixe. Pour ce faire, nous calculons la moyenne et la variance de chaque batch avant chaque couche cachée et nous normalisons les valeurs entrantes par ces statistiques spécifiques aux batchs, ce qui réduit la quantité par laquelle les valeurs vont finalement se déplacer pendant l'entraînement.
 
-En ce qui concerne l'effet de régularisation, étant donné que chaque batch est différent, chaque échantillon sera normalisé par des statistiques légèrement différentes en fonction du lot dans lequel il se trouve.  Ainsi, le réseau verra différentes versions légèrement modifiées d'une même entrée, ce qui l'aidera à apprendre à être plus robuste contre de légères variations de l'entrée et à éviter le sur-apprentissage.
-
-Un autre avantage de la batch normalisation est que l'entraînement est beaucoup plus rapide.
+> En ce qui concerne l'effet de régularisation, étant donné que chaque batch est différent, chaque échantillon sera normalisé par des statistiques légèrement différentes en fonction du lot dans lequel il se trouve.  Ainsi, le réseau verra différentes versions légèrement modifiées d'une même entrée, ce qui l'aidera à apprendre à être plus robuste contre de légères variations de l'entrée et à éviter le surentraînement.
+> Un autre avantage de la *batch normalisation* est que l'entraînement est beaucoup plus rapide.
 
 
 <!--
@@ -326,7 +321,7 @@ Les transformations réalisées à l'aide de Torchvision peuvent avoir un effet
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-3/augmentation.JPG" style="background-color:#DCDCDC;" /><br>
-Figure 6: L’augmentation de données
+<b> Figure 6 :</b> L’augmentation de données
 </center>
 
 
@@ -377,15 +372,14 @@ In Figure 9, we observe the effect that regularisation (L1 & L2) have on the wei
 - When there is no regularisation (lavender) the weights are much more flexible and spread out around zero resembling a normal distribution.
 -->
 
-### Transfer learning (TF) et fine-tuning (FT)
-
-L'apprentissage par transfert (TF) consiste simplement à entraîner un classifieur final en plus d'un réseau pré-entraîné (utilisé généralement dans les cas où les données sont peu nombreuses).
+### L'apprentissage par transfert et le *finetuning*
 
-Le fine-tuning (FT) consiste à entraîner également des parties partielles ou complètes du réseau pré-entraîné (utilisé dans les cas où nous disposons de beaucoup de données en général).
+L'apprentissage par transfert (TF pour *Transfert learning*) consiste simplement à entraîner un classifieur final en plus d'un réseau pré-entraîné (utilisé généralement dans les cas où les données sont peu nombreuses).
 
-**Q** : En général, quand devrions-nous geler les couches d'un modèle pré entraîné ?
+Le *finetuning* (FT) consiste à entraîner également des parties partielles ou complètes du réseau pré-entraîné (utilisé dans les cas où nous disposons de beaucoup de données en général).
 
-**R** : Si nous avons peu de données d'entraînement.
+**En général, quand devrions-nous geler les couches d'un modèle pré entraîné ?**
+> Si nous avons peu de données d'entraînement.
 
 4 cas généraux :
 
@@ -396,27 +390,27 @@ Le fine-tuning (FT) consiste à entraîner également des parties partielles ou
 
 Notez que nous pouvons également utiliser des taux d'apprentissage différents pour les différentes couches afin d'améliorer les performances.
 
-Pour approfondir notre discussion sur le sur-apprentissage et la régularisation, examinons les visualisations ci-dessous. Ces visualisations ont été générées avec le code de [notebook](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/12-regularization.ipynb).
+Pour approfondir notre discussion sur le sur-apprentissage et la régularisation, examinons les visualisations ci-dessous. Ces visualisations ont été générées avec le code de la version anglaise de ce [*notebook*](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/12-regularization.ipynb). Une version en français est disponible [ici](https://github.com/lbourdois/pytorch-Deep-Learning-Notebooks-in-French/blob/master/12-regularization.ipynb).
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-3/loss_wo_dropout.png" style="zoom : 60% ; background-color:#DCDCDC;" /><br>
-<b>Figure 7:</b> Courbes de perte sans dropout
+<b> Figure 7 :</b> Courbes de perte sans dropout
 </center>
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-3/loss_w_dropout.png" style="zoom : 60% ; background-color:#DCDCDC;" /><br>
-<b>Figure 8:</b> Courbes de perte avec dropout
+<b> Figure 8 :</b> Courbes de perte avec dropout
 </center>
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-3/regularization_weights.png" style="zoom : 60% ; background-color:#DCDCDC;" /><br>
-<b>Figure 9:</b> Effet de la régularisation sur les poids
+<b> Figure 9 :</b> Effet de la régularisation sur les poids
 </center>
 
 
-Les figures 7 et 8 nous permettent de comprendre l'effet spectaculaire que le dropout a sur l'erreur de généralisation, c'est-à-dire la différence entre la perte d'entraînement et la perte de validation. Dans la figure 7, sans dropout, il y a un surentraînement évident car la perte d’entraînement est beaucoup plus faible que la perte de validation. Cependant, dans la figure 8, avec le dropout, la perte d’entraînement et la perte de validation se chevauchent presque continuellement, ce qui indique que le modèle se généralise bien à l'ensemble de validation, qui nous sert de substitut pour l'ensemble hors échantillon. Bien entendu, nous pouvons mesurer la performance réelle hors échantillon en utilisant un ensemble de tests de résistance distinct.
+Les figures 7 et 8 nous permettent de comprendre l'effet spectaculaire que le *dropout* a sur l'erreur de généralisation, c'est-à-dire la différence entre la perte d'entraînement et la perte de validation. Dans la figure 7, sans *dropout*, il y a un surentraînement évident car la perte d’entraînement est beaucoup plus faible que la perte de validation. Cependant, dans la figure 8, avec le *dropout*, la perte d’entraînement et la perte de validation se chevauchent presque continuellement, ce qui indique que le modèle se généralise bien à l'ensemble de validation, qui nous sert de substitut pour l'ensemble hors échantillon. Bien entendu, nous pouvons mesurer la performance réelle hors échantillon en utilisant un ensemble de tests de résistance distinct.
 
-Dans la figure 9, nous observons l'effet que la régularisation (L1 & L2) a sur les poids du réseau.
+Dans la figure 9, nous observons l'effet que la régularisation (L1 et L2) a sur les poids du réseau.
 
 - Lorsque nous appliquons la régularisation L1, à partir du pic rouge à zéro, nous pouvons comprendre que la plupart des poids sont nuls. Les petits points rouges plus proches de zéro sont les poids non nuls du modèle.
 
@@ -457,24 +451,24 @@ As you can observe in the above images, these uncertainty estimations are not ca
 
 Nous nous soucions de l'incertitude dans les réseaux de neurones car un réseau a besoin de savoir à quel point il est certain/confident de ses prévisions.
 
-Ex : Si vous construisez un réseau de neurones pour prédire le contrôle de la direction, vous devez connaître le degré de confiance des prédictions du réseau.
+Par exemple, si vous construisez un réseau de neurones pour prédire le contrôle de la direction, vous devez connaître le degré de confiance des prédictions du réseau.
 
-Nous pouvons utiliser un réseau de neurones avec dropout pour obtenir un intervalle de confiance autour de nos prédictions. Entraînons un réseau avec dropout, $r$ étant le taux de dropout.
+Nous pouvons utiliser un réseau de neurones avec *dropout* pour obtenir un intervalle de confiance autour de nos prédictions. Entraînons un réseau avec *dropout*, $r$ étant le taux de *dropout*.
 
 Habituellement, lors de l'inférence, nous mettons le réseau en mode de validation et utilisons tous les neurones pour obtenir la prédiction finale. Tout en faisant la prédiction, nous échelonnons les poids $\delta$ par $\dfrac{1}{1-r}$ pour tenir compte des neurones abandonnés pendant l'entraînement.
 
-Cette méthode nous permet d'obtenir une seule prédiction pour chaque entrée. Cependant, pour obtenir un intervalle de confiance autour de notre prédiction, nous avons besoin de plusieurs prédictions pour la même entrée. Ainsi, au lieu de mettre le réseau en mode de validation pendant l'inférence, nous le gardons en mode d'entraînement c'est-à-dire que nous faisons toujours tomber des neurones de manière aléatoire et obtenons une prédiction. Lorsque nous faisons plusieurs prédictions en utilisant ce réseau de dropout, pour la même entrée, nous obtiendrons des prédictions différentes selon les neurones qui sont dropés. Nous utilisons ces prédictions pour estimer la prédiction finale moyenne et un intervalle de confiance autour de celle-ci.
+Cette méthode nous permet d'obtenir une seule prédiction pour chaque entrée. Cependant, pour obtenir un intervalle de confiance autour de notre prédiction, nous avons besoin de plusieurs prédictions pour la même entrée. Ainsi, au lieu de mettre le réseau en mode de validation pendant l'inférence, nous le gardons en mode d'entraînement c'est-à-dire que nous faisons toujours tomber des neurones de manière aléatoire et obtenons une prédiction. Lorsque nous faisons plusieurs prédictions en utilisant ce réseau de *dropout*, pour la même entrée, nous obtiendrons des prédictions différentes selon les neurones qui sont dropés. Nous utilisons ces prédictions pour estimer la prédiction finale moyenne et un intervalle de confiance autour de celle-ci.
 
-Dans les images ci-dessous, nous avons estimé les intervalles de confiance autour des prédictions des réseaux. Ces visualisations ont été générées avec le code du [notebook « Bayesian Neural Network »](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/13-bayesian_nn.ipynb). La ligne rouge représente les prédictions. La région en violet autour des prédictions représente l'incertitude c'est-à-dire la variance des prédictions.
+Dans les images ci-dessous, nous avons estimé les intervalles de confiance autour des prédictions des réseaux. Ces visualisations ont été générées avec la version anglaise de ce [notebook](https://github.com/Atcold/pytorch-Deep-Learning/blob/master/13-bayesian_nn.ipynb). Une version en français est disponible [ici](https://github.com/lbourdois/pytorch-Deep-Learning-Notebooks-in-French/blob/master/13-bayesian_nn..ipynb). La ligne rouge représente les prédictions. La région en violet autour des prédictions représente l'incertitude c'est-à-dire la variance des prédictions.
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-3/relu_bayesian_nn.png" style="zoom: 60%; background-color:#DCDCDC;" /><br>
-<b>Figure 10:</b> Estimation de l'incertitude en utilisant l'activation ReLU
+<b> Figure 10 :</b> Estimation de l'incertitude en utilisant l'activation ReLU
 </center>
 
 <center>
 <img src="{{site.baseurl}}/images/week14/14-3/tanh_bayesian_nn.png" style="zoom: 60%; background-color:#DCDCDC;" /><br>
-<b>Figure 11:</b> Estimation de l'incertitude en utilisant l'activation Tanh
+<b> Figure 11 :</b> Estimation de l'incertitude en utilisant l'activation Tanh
 </center>
 
 
@@ -493,7 +487,7 @@ In EBM models, we can simply and conveniently sum the different terms to estimat
 
 Dans les modèles EBM, nous pouvons simplement et commodément additionner les différents termes pour estimer la perte totale.
 
-**Digression** : Un terme qui pénalise la longueur de la variable latente peut agir comme l'un des nombreux termes de perte dans un modèle. La longueur d'un vecteur est à peu près proportionnelle au nombre de dimensions qu'il possède. Ainsi, si vous diminuez le nombre de dimensions, la longueur du vecteur diminue et, par conséquent, il code moins d'informations. Dans un paramétrage d'auto-encodeur, cela permet de s'assurer que le modèle conserve les informations les plus importantes. Ainsi, une façon de bloquer l'information dans les espaces latents est de réduire la dimensionnalité de l'espace latent.
+**Digression** : un terme qui pénalise la longueur de la variable latente peut agir comme l'un des nombreux termes de perte dans un modèle. La longueur d'un vecteur est à peu près proportionnelle au nombre de dimensions qu'il possède. Ainsi, si vous diminuez le nombre de dimensions, la longueur du vecteur diminue et, par conséquent, il code moins d'informations. Dans un paramétrage d'auto-encodeur, cela permet de s'assurer que le modèle conserve les informations les plus importantes. Ainsi, une façon de bloquer l'information dans les espaces latents est de réduire la dimensionnalité de l'espace latent.
 
 
 <!--
@@ -509,8 +503,8 @@ While doing these searches, the first few epochs are usually enough to give us a
 -->
 
 #### Comment déterminer l'hyperparamètre pour la régularisation ?
-En pratique, pour déterminer l'hyperparamètre optimal pour la régularisation, c'est-à-dire la force de régularisation, nous pouvons utiliser
+En pratique, pour déterminer l'hyperparamètre optimal pour la régularisation, c'est-à-dire la force de régularisation, nous pouvons utiliser :
 - Optimisation des hyperparamètres bayésiens
-- Recherche de grille
+- Recherche par grille
 - Recherche aléatoire
 Lors de ces recherches, les premières époques sont généralement suffisantes pour nous donner une idée du fonctionnement de la régularisation. Nous devons donc entraîner le modèle de façon intensive.
diff --git a/docs/fr/week14/14.md b/docs/fr/week14/14.md
index f6d910bcd..7d3991abc 100644
--- a/docs/fr/week14/14.md
+++ b/docs/fr/week14/14.md
@@ -13,9 +13,9 @@ In this section, we discussed the structured prediction. We first introduced the
 -->
 
 
-## Conférence partie A
+## Cours magistral partie A
 
-Dans cette section, nous discutons de la prédiction structurée. Nous présentons d'abord le graphe des facteurs à base d’énergie et l'inférence efficace pour celui-ci. Ensuite, nous donnons quelques exemples simples avec des facteurs "peu profonds". Enfin, nous discutons du réseau transformer de graphe.
+Dans cette section, nous discutons de prédiction utilisant la structure. Nous présentons d'abord le graphe factoriel à base d’énergie et l'inférence efficace pour celui-ci. Ensuite, nous donnons quelques exemples simples avec des facteurs peu profonds. Enfin, nous discutons du *Graph Transformer Network* (GTN).
 
 <!--
 ## Lecture part B
@@ -23,9 +23,9 @@ Dans cette section, nous discutons de la prédiction structurée. Nous présento
 The second leg of the lecture further discusses the application of graphical model methods to energy-based models. After spending some time comparing different loss functions, we discuss the application of the Viterbi algorithm and forward algorithm to graphical transformer networks. We then transition to discussing the Lagrangian formulation of backpropagation and then variational inference for energy-based models.
 -->
 
-## Conférence partie B
+## Cours magistral partie B
 
-La deuxième partie de la conférence traite plus en détail de l'application des méthodes de modélisation graphique aux modèles à base d’énergie. Après avoir passé un certain temps à comparer différentes fonctions de perte, nous discutons de l'application de l'algorithme de Viterbi et de l'algorithme de retransmission aux réseaux transformer de graphe. Nous passons ensuite à la discussion de la formulation lagrangienne de la rétropropagation, puis à l'inférence variationnelle pour les EBM.
+La deuxième partie du cours traite plus en détail de l'application des méthodes de modélisation graphique aux modèles à base d’énergie (EBMs). Après avoir passé un certain temps à comparer différentes fonctions de perte, nous discutons de l'application de l'algorithme de Viterbi et de l'algorithme *forward* aux GTNs. Nous passons ensuite à la discussion de la formulation lagrangienne de la rétropropagation, puis à l'inférence variationnelle pour les EBMs.
 
 <!--
 ## Practicum
@@ -34,9 +34,6 @@ La deuxième partie de la conférence traite plus en détail de l'application de
 When training highly parametrised models such as deep neural networks there is a risk of overfitting to the training data. This leads to greater generalization error. To help reduce overfitting we can introduce regularization into our training, discouraging certain solutions to decrease the extent to which our models will fit to noise.
 -->
 
-## Pratique
-Lors de l’entraînement de modèles hautement paramétrés tels que les réseaux neuronaux profonds, il existe un risque de surentraînement des données d’entraînement. Cela conduit à une plus grande erreur de généralisation. Pour aider à réduire cela, nous pouvons introduire une régularisation dans notre entraînement, en décourageant certaines solutions pour diminuer la mesure dans laquelle nos modèles s'adapteront au bruit.
-
-
-
+## Travaux dirigés
+Lors de l’entraînement de modèles hautement paramétrés tels que les réseaux neuronaux profonds, il existe un risque de surentraînement sur les données d’entraînement. Cela conduit à une plus grande erreur de généralisation. Pour aider à réduire cela, nous pouvons introduire une régularisation dans notre entraînement, en décourageant certaines solutions pour diminuer la mesure dans laquelle nos modèles s'adapteront au bruit.
 
diff --git a/docs/fr/week14/lecture14.sbv b/docs/fr/week14/lecture14.sbv
index 26ea4c71e..1a41f9ea5 100644
--- a/docs/fr/week14/lecture14.sbv
+++ b/docs/fr/week14/lecture14.sbv
@@ -20,7 +20,7 @@ l’IA, l’apprentissage profonde, etc. Peut-être des questions
 laissez-moi commencer par quelque chose de plus concret.
 
 0:00:25.000,0:00:28.800
-Donc je veux parler de la prédiction de structure. J'ai fait allusion à ce sujet de
+Donc je veux parler de la prédiction utilisant la structure. J'ai fait allusion à ce sujet de
 
 0:00:28.800,0:00:33.360
 nombre de fois au cours des cours précédents, mais je pense que ce n'était pas suffisamment
@@ -29,7 +29,7 @@ nombre de fois au cours des cours précédents, mais je pense que ce n'était pa
 en profondeur pour que la plupart des gens puissent comprendre. Donc je veux
 
 0:00:36.880,0:00:42.079
-revenir sur ce point. Donc la prédiction de structure est en gros
+revenir sur ce point. Donc la prédiction utilisant la structure est en gros
 
 0:00:42.079,0:00:47.200
 le problème de prédire une variable qui elle-même n'est pas
@@ -67,7 +67,7 @@ car c'est combinatoire, il n'y a pas moyen d'énumérer toutes les sorties
 différentes possibles. Donc pour exprimer le type de contrainte que la sortie a
 
 0:01:38.560,0:01:42.640
-à refléter, c’est ce qu'on appelle la prédiction de structure.
+à refléter, c’est ce qu'on appelle la prédiction utilisant la structure.
 
 0:01:42.640,0:01:49.600
 Il y a beaucoup de travail sur ça, datant dès les premiers jours de la reconnaissance vocale.
@@ -79,7 +79,7 @@ Ce n'est donc pas un problème récent.
 Et en fait le je vais commencer par un peu d'histoire.
 
 0:01:57.920,0:02:01.680 
-A mon avis, le premier modèle à faire de la prédiction de structure
+A mon avis, le premier modèle à faire de la prédiction en utilisant la structure
 
 0:02:01.680,0:02:04.079
 avec des choses combinées à des réseaux neurones
@@ -115,7 +115,7 @@ Ce réseau ici, TDNN, signifiant « Time Data Neural Net »
 [réseau neuronal de données temporelles] est en gros un réseau convolutif temporel.
 
 0:02:46.160,0:02:56.080
-C’est donc le premier modèle que je peux trouver sur des prédictions de structure étant, en quelque sorte,
+C’est donc le premier modèle que je peux trouver sur des prédictions utilisant la structure étant, en quelque sorte,
 
 0:02:56.080,0:02:58.080
 hybridé avec des réseaux neuronaux.
@@ -538,13 +538,13 @@ comme vous indiquant laquelle des réponses est la bonne.
 Donc ce n'est rien de plus qu'un modèle basé sur l'énergie.
 
 0:12:57.120,0:13:01.480
-Alors pourquoi je présente ça avant de parler
+Alors pourquoi je présente ça avant de parler de 
 
 0:13:01.480,0:13:04.750
-de la prédiction de structure ? Car il s'agit d'une
+prédiction utilisant la structure ? Car il s'agit d'une
 
 0:13:04.750,0:13:08.320
-forme simple de prédiction de structure, surtout si le problème n'est pas
+forme simple de prédiction utilisant la structure, surtout si le problème n'est pas
 
 0:13:08.320,0:13:12.399
 de reconnaître un seul mot mais de reconnaître une séquence de mots.
@@ -592,7 +592,7 @@ qui est composé d'une entrée x, il prend une entrée x.
 C'est un modèle d’énergie dans lequel l'énergie est une somme de trois termes dans ce cas.
 
 0:14:29.600,0:14:36.880
-Donc ces carrés bleus ici sont en gros les facteurs dans un graphe de facteurs,
+Donc ces carrés bleus ici sont en gros les facteurs dans un graphe factoriel,
 
 0:14:36.880,0:14:40.079
 des termes d'énergie additifs dans votre fonction d’énergie.
@@ -721,7 +721,7 @@ et y est observé pendant l’entraînement à droite. Toutes les variables inte
 intermédiaires ne sont jamais observées, ce sont des variables latentes dont vous avez besoin pour minimiser.
 
 0:17:54.400,0:18:00.799
-Mais ici encore, ce graphe de facteurs est factorisé au sens que l'énergie est une somme de différents
+Mais ici encore, ce graphe factoriel est factorisé au sens que l'énergie est une somme de différents
 
 0:18:00.799,0:18:06.640
 termes qui ne prennent en compte que des sous-ensembles des variables.
@@ -991,10 +991,10 @@ vous essayez de la faire baisser et puis vous prenez les énergies des
 réponses incorrectes et essayez de les rendre plus grandes. C'est un 
 
 0:26:13.919,0:26:17.919
-entraînement discriminatoire pour la prédiction de structure.
+entraînement discriminatoire pour la prédiction utilisant la structure.
 
 0:26:17.919,0:26:22.720
-Prédiction de structure car la structure ici est représentée par cette
+Prédiction utilisant la structure car la structure ici est représentée par cette
 
 0:26:22.720,0:26:28.320
 séquence de coûts. Mais conceptuellement, à un niveau élevé, ce n'est pas
@@ -1387,7 +1387,7 @@ littérature vous saurez ce que c'est : cela s'appelle un
 champ aléatoire conditionnel. Un champ aléatoire conditionnel
 
 0:36:22.000,0:36:27.119
-est un type très particulier de modèle de prédiction de structure.
+est un type très particulier de modèle de prédiction utilisant la structure.
 
 0:36:27.119,0:36:30.880
 Ici vous avez les Y de Z, cela n’a pas d'importance.
@@ -1492,7 +1492,7 @@ réponses de l'exponentielle moins les énergies.
 Donc ici le champ aléatoire conditionnel est en gros un exemple de cela mais
 
 0:39:00.000,0:39:03.200
-vous ne faites pas de classification. Vous faites une sorte de prédiction de structure.
+vous ne faites pas de classification. Vous faites une sorte de prédiction utilisant la structure.
 
 0:39:03.200,0:39:07.200
 Dans le cas positif, vous avez la bonne configuration
@@ -1576,7 +1576,7 @@ Michael Collins qui est un célèbre professeur en NLP à Columbia
 à en quelque sorte réussi à construire sa carrière autour de cela.
 
 0:41:03.599,0:41:07.000
-L'idée d'utiliser la perte de perception pour la prédiction de structure.
+L'idée d'utiliser la perte de perception pour la prédiction utilisant la structure.
 
 0:41:07.000,0:41:11.200
 La perte de perception ne fonctionne que si vous disposez d'une paramétrisation linéaire
@@ -1636,7 +1636,7 @@ Alors, comme je l'ai dit, au début des années 90, les gens ont commencé à tr
 l'utilisation de réseaux neuronaux pour alimenter un de ces systèmes de
 
 0:42:34.240,0:42:38.720
-prédiction de structure. Comme je l'ai dit le premier que je connais est 
+prédiction utilisant la structure. Comme je l'ai dit le premier que je connais est 
 
 0:42:38.720,0:42:41.599
 par Xavier Driancourt et Léon Bottou pour la reconnaissance vocale.
@@ -1660,7 +1660,7 @@ car je les ai tous les trois embauchés à AT&T pour travailler sur ce problème
 Ils ont compris comment faire ça dans le cadre de leur thèse et je savais que c'était le truc qui devait être appliqué pour
 
 0:43:18.720,0:43:24.000
-des choses comme la reconnaissance de l'écriture manuscrite, la prédiction de structure avec les réseaux neuronaux.
+des choses comme la reconnaissance de l'écriture manuscrite, la prédiction utilisant la structure avec les réseaux neuronaux.
 
 0:43:31.280,0:43:38.240
 Donc voici quelque chose dont j'ai fait rapidement allusion dans un cours précédent.
@@ -1741,7 +1741,7 @@ Le 2 suivant être regroupé et puis
 le dernier est lui-même. Donc qu'est-ce que j'ai fait ici ?
 
 0:45:44.560,0:45:51.040
-La façon dont j'ai fait l’inférence dans le contexte de la prédiction de structure
+La façon dont j'ai fait l’inférence dans le contexte de la prédiction utilisant la structure
 
 0:45:51.040,0:45:59.359
 c'est en ayant des termes énergétiques qui me disent
@@ -2176,7 +2176,7 @@ Et bien il y aura une deuxième phase où, dans ce cas, nous allons juste
 laisser le système choisir la réponse qu'il veut.
 
 0:56:37.119,0:56:46.240
-C'est une sorte de forme simplifiée d’entraînement discriminant pour la prévision de structure.
+C'est une sorte de forme simplifiée d’entraînement discriminant pour la prédiction utilisant la structure.
 
 0:56:46.240,0:56:51.040
 Cela utilise une forme de perte de perceptron si vous voulez.
@@ -2590,7 +2590,7 @@ j’ai expliquée. Vous prenez juste l’entrée et ne la segmentez jamais.
 Il suffit d'appliquer le réseau neuronal à chaque emplacement de l'entrée
 
 1:06:47.599,1:06:51.599
-enregistrer la sortie. Puis faire une prédiction de structure au-dessus de ça.
+enregistrer la sortie. Puis faire une prédiction utilisant la structure au-dessus de ça.
 
 1:06:51.599,1:06:55.599
 Donc vous devez avoir une sorte de modèle de séquence qui vous dit :
diff --git a/docs/fr/week15/15-1.md b/docs/fr/week15/15-1.md
index df5afa8c0..766cdd5e3 100644
--- a/docs/fr/week15/15-1.md
+++ b/docs/fr/week15/15-1.md
@@ -2,7 +2,7 @@
 lang: fr
 lang-ref: ch.15-1
 lecturer: Alfredo Canziani
-title: Inférence pour les modèles à base d’énergie à varaible latente
+title: Inférence pour les modèles à base d’énergie à variable latente
 authors: Yilang Hao, Binfeng Xu, Ebrahim Rasromani, Mars Wei-Lun Huang
 date: 18 Oct 2020
 translation-date: 6 Dec 2020
@@ -79,7 +79,7 @@ $$
 $$
 
 où $x \sim \mathcal{U}(0,1),\space \theta \sim \mathcal{U}(0,2\pi),\space  \epsilon \sim \mathcal{N}[0, (\frac{1}{20})^2]$
-et  $\rho : \mathbb{R} \mapsto \mathbb{R}^2$ maps $x$ into $$\begin{bmatrix}\alpha x + \beta (1-x) \\
+et  $\rho : \mathbb{R} \mapsto \mathbb{R}^2$ associe $x$ à $$\begin{bmatrix}\alpha x + \beta (1-x) \\
 \beta x + \alpha (1-x)
 \end{bmatrix}\exp(2x)$$.
 
@@ -90,26 +90,26 @@ et  $\rho : \mathbb{R} \mapsto \mathbb{R}^2$ maps $x$ into $$\begin{bmatrix}\alp
 
 <br>
 
-La figure 1 montre clairement qu'avec une seule entrée $x$, il y a plusieurs sorties possibles $\vect{y}$. En d'autres termes, nous ne pouvons pas identifier un mappage un à un des vecteurs comme nous l'avions prévu pour les réseaux neuronaux de type feed forward (par exemple, il y a presque toujours deux $y_2$ possibles avec $y_1$ fixé et étant donné l'entrée $x$). C'est ici que nous introduisons les modèles à base d’énergie à variable latente.
+La figure 1 montre clairement qu'avec une seule entrée $x$, il y a plusieurs sorties possibles $\vect{y}$. En d'autres termes, nous ne pouvons pas identifier une association un à un des vecteurs comme nous l'avions prévu pour les réseaux neuronaux de type feed forward (par exemple, il y a presque toujours deux $y_2$ possibles avec $y_1$ fixé et étant donné l'entrée $x$). C'est ici que nous introduisons les modèles à base d’énergie à variable latente.
 
 Pour simplifier, nous fixons l'entrée $x = 0$ et nous laissons $\alpha = 1,5, \beta = 2$, induisant $$\vect{y} =
 \begin{bmatrix} 2\cos(\theta) + \epsilon \\
 1.5\sin(\theta) + \epsilon
 \end{bmatrix}$$, à partir de laquelle nous échantillonnons aléatoirement 24 points de données $Y = [\vect{y}^{(1)},\ldots,\vect{y}^{(24)}]$. 
-Entre-temps, nous prenons la variable latente $z = [0:\frac{\pi}{24}:2\pi)$ et l'introduisons dans un décodeur pour produire $\tilde{\vect{y}}$ (figures 2 et 3).
+Entre-temps, nous prenons la variable latente $z = [0:\frac{\pi}{24}:2\pi]$ et l'introduisons dans un décodeur pour produire $\tilde{\vect{y}}$ (figures 2 et 3).
 Ensuite, la fonction d'énergie est calculée comme le carré de la distance euclidienne entre $\vect{y}$ et $\tilde{\vect{y}}$ :
 
 $$
 E(\vect{y},z) \equiv E(\vect{y},\tilde{\vect{y}}(z)) = [y_1 - g_1(z)]^2 + [y_2 - g_2(z)]^2, \space  \vect{y} \in Y,
 $$
 
-où $\vect{g} = [g_1 \space\space g_2]^{\top} : \mathbb{R} \mapsto \mathbb{R}^2$ and $\vect{g}(z) =  \ [w_1 \cos(z) \space\space w_2 \sin(z)]^{\top}$.
+où $\vect{g} = [g_1 \space\space g_2]^{\top} : \mathbb{R} \mapsto \mathbb{R}^2$ et $\vect{g}(z) =  \ [w_1 \cos(z) \space\space w_2 \sin(z)]^{\top}$.
 
 <center>
 <img src="{{site.baseurl}}/images/week15/15-1/Figure2.png" style="zoom: 100%; background-color:#DCDCDC;" />
 <br><b>Figure 2 :</b> Exemple de visualisation
 </center>
-
+<br>
 <center>
 <img src="{{site.baseurl}}/images/week15/15-1/Figure3.png" style="zoom: 100%; background-color:#DCDCDC;" /><br>
 <b>Figure 3 :</b> Graphique du calcul de l'énergie
@@ -203,7 +203,7 @@ Nous exprimerons également la variable latente qui donne l'énergie libre sous
 $$\check{z} = \arg \min_{z} E(\vect{y}, z)$$
 
 Comme le montre la figure 5, pour trouver l'énergie libre associée à $\vect{y}^{(23)}$, nous commençons par une variable initiale latente $\tilde{z}$. 
-$\check{z}$ peut être évalué par des algorithmes d'optimisation tels que la recherche exhaustive, le gradient conjugué, la recherche de lignes ou le BFGS à mémoire limitée. 
+$\check{z}$ peut être évalué par des algorithmes d'optimisation tels que la recherche exhaustive, le gradient conjugué, la recherche linéaire ou le BFGS à mémoire limitée. 
 L'énergie libre est la valeur minimale de l'énergie par rapport à la variable latente.
 
 La figure 7 ci-dessous montre l'évaluation de l'énergie libre dans l'espace $\vect{y}$. 
@@ -281,7 +281,7 @@ Pour mieux comprendre la fonction d’énergie libre, nous commençons par l'exe
 </center>
 <br>
 
-Pour calculer l'énergie libre, $F_\infty$, à chaque point de grille de maille par rapport à la variété en bleue (qui est également l'ensemble des choix possibles des variables latentes $z$), nous rappelons d'abord la définition de la fonction d'énergie libre ci-dessous :
+Pour calculer l'énergie libre, $F_\infty$, à chaque point de la grille de maille par rapport à la variété en bleue (qui est également l'ensemble des choix possibles des variables latentes $z$), nous rappelons d'abord la définition de la fonction d'énergie libre ci-dessous :
 
 $$
 F_\infty = \min_z E(\vect{y},z) = E(\vect{y},\check{z}).
@@ -291,11 +291,11 @@ $$
 Sur le graphique de la figure 8, nous commençons par un point arbitraire $z$ sur la variété en bleue, puis nous nous déplaçons autour pour trouver sur la variété le point $\check{z}$ qui est le plus proche de notre emplacement (échantillon), $\vect{y}$. 
 Par conséquent, l'énergie libre est la distance euclidienne entre notre point d'échantillonnage $\vect{y}$ et le point choisi $\tilde{\vect{y}}(\check{z})$.
 
-Maintenant, nous considérons 5 points échantillons spécifiques dans la grille de maillage, illustrés sur la figure 9 avec des couleurs différentes.
+Maintenant, nous considérons 5 points échantillons spécifiques dans la grille de maille, illustrés sur la figure 9 avec des couleurs différentes.
 
 <center>
 <img src="{{site.baseurl}}/images/week15/15-1/Figure9.png" style="zoom: 100%; background-color:#DCDCDC;" /><br> 
-<b>Figure 9 :</b> Cinq points d'échantillonnage sur la grille de maillage
+<b>Figure 9 :</b> Cinq points d'échantillonnage sur la grille de maille
 </center>
 <br>
 
@@ -311,11 +311,11 @@ L'aspect complet des cinq fonctions d’énergie est donné comme suit dans la f
 <br>
 
 En poursuivant l'exemple ci-dessus, nous devons noter que notre fonction d'énergie libre, $F_\infty$, ne prend que des valeurs scalaires non négatives pour son domaine (parce que nous utilisons la distance euclidienne pour $E(\vect{y},z)$), et le domaine de notre fonction d'énergie libre, $F_\infty$, est $\mathbb{R}^2$ (seulement l'espace $\vect{y}$), donc généralement nous avons $F_\infty : \mathbb{R}^2 \rightarrow \mathbb{R}^+$. 
-Nous utilisons maintenant les valeurs d'énergie libre comme inférence pour tracer la grille de maillage comme la carte thermique illustrée à la figure 11.À noter que les flèches représentent les valeurs de gradient.
+Nous utilisons maintenant les valeurs d'énergie libre comme inférence pour tracer la grille de maille comme la carte thermique illustrée à la figure 11. À noter que les flèches représentent les valeurs de gradient.
 
 <center>
 <img src="{{site.baseurl}}/images/week15/15-1/Figure11.png" style="zoom: 100%; background-color:#DCDCDC;" /><br>
-<b>Figure 11:</b> Carte thermique de l’énergie libre
+<b>Figure 11 :</b> Carte thermique de l’énergie libre
 </center>
 <br>
 
@@ -343,14 +343,12 @@ One typical example is language translation. We can translate a sentence in diff
 If the model has learnt from the real manifold, then you can find the denoised version of your input by minimizing energy.
 -->
 
-## Questions et réponses sur la compréhension
-#### Question 1 : Pourquoi la surface énergétique est-elle évaluée de manière scalaire ?
-La surface énergétique, qui prend la valeur de l'énergie libre, $F_\infty$, est exactement la valeur minimale de notre fonction d’énergie $E(\vect{y},z)$ parmi toutes les variables latentes possibles, $z$. Par conséquent, $F_\infty$ ne dépend pas de $z$, mais seulement de $\vect{y}$, qui produit une valeur scalaire pour chaque choix de $\vect{y}$.
-En considérant l'exemple de maillage ci-dessus, le maillage a $17\times 25 = 425$ points, nous avons donc 425 valeurs d'énergie libre et chaque valeur est la distance euclidienne quadratique de chaque point de la variété.
+## Réponses aux questions des étudiants
+**Question 1 : Pourquoi la surface énergétique est-elle évaluée de manière scalaire ?**
+> La surface énergétique, qui prend la valeur de l'énergie libre, $F_\infty$, est exactement la valeur minimale de notre fonction d’énergie $E(\vect{y},z)$ parmi toutes les variables latentes $z$ possibles. Par conséquent, $F_\infty$ ne dépend pas de $z$, mais seulement de $\vect{y}$, qui produit une valeur scalaire pour chaque choix de $\vect{y}$. En considérant l'exemple de maillage ci-dessus, le maillage a $17\times 25 = 425$ points, nous avons donc 425 valeurs d'énergie libre et chaque valeur est la distance euclidienne quadratique de chaque point de la variété.
 
-#### Question 2 : Comment choisissez-vous la fonction pour représenter la variété ?
-Il existe de nombreuses recherches sur les choix de la variable latente et nous pouvons avoir quelques couches de réseaux de neurones pour représenter les choix des variables latentes.
-Un exemple typique est celui de la traduction linguistique. Nous pouvons traduire une phrase de différentes manières et nous ne pouvons pas utiliser une fonction softmax pour l'entraînement de notre modèle car il y aura une infinité de phrases possibles après la traduction. Par conséquent, nous pouvons utiliser ici l'EBM et la fonction d'énergie nous dit dans quelle mesure la phrase originale et la phrase traduite sont compatibles.
+**Question 2 : Comment choisir la fonction pour représenter la variété ?**
+> Il existe de nombreuses recherches sur les choix de la variable latente et nous pouvons avoir quelques couches de réseaux de neurones pour représenter les choix des variables latentes. Un exemple typique est celui de la traduction linguistique. Nous pouvons traduire une phrase de différentes manières et nous ne pouvons pas utiliser une fonction softmax pour l'entraînement de notre modèle car il y aura une infinité de phrases possibles après la traduction. Par conséquent, nous pouvons utiliser ici l'EBM et la fonction d'énergie nous dit dans quelle mesure la phrase originale et la phrase traduite sont compatibles.
 
-#### Question 3 : Est-ce que la minimisation de l'énergie par rapport à la variété entraînée signifie-t-elle débruitage ?
-Si le modèle a tiré des leçons de la variété réelle, vous pouvez trouver la version débruitée de votre entrée en minimisant l'énergie.
+**Question 3 : Est-ce que la minimisation de l'énergie par rapport à la variété entraînée signifie-t-elle débruitage ?**
+> Si le modèle a tiré des leçons de la variété réelle, vous pouvez trouver la version débruitée de votre entrée en minimisant l'énergie.
diff --git a/docs/fr/week15/15-2.md b/docs/fr/week15/15-2.md
index 1b17ebeeb..d8e291838 100644
--- a/docs/fr/week15/15-2.md
+++ b/docs/fr/week15/15-2.md
@@ -37,23 +37,23 @@ If we take $y_2=0.4$, then $F_\beta(\vect{y})=0$ and as we move linearly away fr
 -->
 
 ## [Énergie libre](https://www.youtube.com/watch?v=XLSb1Cs1Jao&t=11s)
-L'énergie libre:
+L'énergie libre :
 
 $$F_\infty (\vect{y})=\min_z E(\vect{y},z) = E(\vect{y},\check z)$$
 
-Ici, $F_\infty$ est la limite de la température zéro de l'énergie libre et $\vect{y}$ est un vecteur 2D. Cette énergie libre est la distance euclidienne quadratique par rapport à la variété du modèle. Tous les points qui se trouvent dans la variété du modèle ont une énergie nulle. En s'éloignant, elle augmente de façon quadratique.
+Ici, $F_\infty$ est la limite vers zéro de la température de l'énergie libre et $\vect{y}$ est un vecteur 2D. Cette énergie libre est la distance euclidienne quadratique par rapport à la variété du modèle. Tous les points qui se trouvent dans la variété du modèle ont une énergie nulle. En s'éloignant, elle augmente de façon quadratique.
 
 <center>
 <img src="{{site.baseurl}}/images/week15/15-2/Figure1.png" style="zoom: 40%; background-color:#DCDCDC;" /><br> 
-<b>Figure 1 :</b> Carte en couleur froid-chaud
+<b>Figure 1 :</b> Carte thermique froid-chaud
 </center>
 
-Froid : $F_\infty = 0$, chaud : $F_\infty = 0,5$, chaud : $F_\infty \geq 1$
+Froid : $F_\infty = 0$, chaud : $F_\infty = 0,5$, brûlant : $F_\infty \geq 1$
 
-Toutes les régions autour de l'ellipse qui se trouve avec la multiplicité des ellipses ont une énergie nulle. 
-Au centre, il y a une énergie libre infinie de limite de température zéro. Pour éviter cela, nous devons détendre l'énergie libre à une énergie sans minima locaux afin qu'elle devienne plus régulière.
+Toutes les régions autour de l'ellipse qui se trouve avec la variété en ellipse ont une énergie nulle. 
+Au centre, il y a une limite vers zéro de la température de l'énergie libre qui est infinie. Pour éviter cela, nous devons détendre l'énergie libre à une énergie sans minima locaux afin qu'elle devienne plus lisse.
 
-Regardons de plus près $y_1=0$, avec la carte froid-chaud suivante :
+Regardons de plus près $y_1=0$, avec la carte themrique suivante :
 
 <center>
 <img src="{{site.baseurl}}/images/week15/15-2/Figure2.png" style="zoom: 40%; background-color:#DCDCDC;" /><br>
@@ -131,7 +131,7 @@ où $\beta=(k_B T)^{-1}$ est la température inverse, constituée de la constant
 
 $$\tilde{F}_\beta(\vect{y})=-\frac{1}{\beta} \log \frac{1}{\vert\mathcal{Z}\vert}\underset{z\in\mathcal{Z}}{\sum} \exp[{-\beta}E(y,z)]\Delta z$$
 
-Ici, nous définissons $-\frac{1}{\beta} \log \frac{1}{\vert\mathcal{Z}\vert}\underset{z\in\mathcal{Z}}{\sum} \exp[{-\beta}E(\vect{y},z)]$ pour être le $\smash{\underset{z}{\text{softmin}}}_\beta[E(\vect{y},z)]$, de sorte que l'assouplissement de la limite de température zéro de l'énergie libre devienne le *réel*-softmin.
+Ici, nous définissons $-\frac{1}{\beta} \log \frac{1}{\vert\mathcal{Z}\vert}\underset{z\in\mathcal{Z}}{\sum} \exp[{-\beta}E(\vect{y},z)]$ pour être le $\smash{\underset{z}{\text{softmin}}}_\beta[E(\vect{y},z)]$, de sorte que la relaxation de la limite vers zéro de la température de l'énergie libre devienne le softmin *réel*.
 
 **Exemples :**
 
@@ -204,7 +204,7 @@ In technical terms, if free energy is
 
 ## Nomenclature et PyTorch
 
-Formellement, nous définissons le <u>réel</u>-softmax comme :
+Formellement, nous définissons le softmax *réel* comme :
 
 $$\smash{\underset{z}{\text{softmax}}}_\beta[E(y,z)] \doteq \frac{1}{\beta} \log \underset{z\in\mathcal{Z}}{\sum} \exp[{\beta}E(\vect{y},z)] - \frac{1}{\beta} \log{N_z}$$
 
@@ -214,7 +214,7 @@ Pour implémenter la fonction ci-dessus dans PyTorch, nous utilisons `torch.logs
 
 $$\smash{\underset{z}{\text{softmax}}}_\beta[E(y,z)] \doteq \frac{1}{\beta} \texttt{torch.logsumexp}({\beta}E(\vect{y},z),\texttt{dim=}z) - \frac{1}{\beta} \log{N_z}$$
 
-<u>réel</u>-softmin :
+Le softmin *réel* :
 
 $$\smash{\underset{z}{\text{softmin}}}_\beta[E(y,z)] \doteq -\frac{1}{\beta}\log\frac{1}{N_z}\underset{z\in\mathcal{Z}}{\sum}\exp[-{\beta}E(\vect{y},z)]$$
 
@@ -224,9 +224,9 @@ $$\smash{\underset{z}{\text{softmin}}}_\beta[E(y,z)] = -\smash{\underset{z}{\tex
 
 $$\texttt{torch.softmax}(l(j),\texttt{dim=j}) = \smash{\underset{j}{\text{softargmax}_{\beta=1}}}[l(j)]$$
 
-En termes techniques, si l'énergie libre est
-- chaude, cela fait référence à la moyenne.
-- tiède, cela se réfère à la marginalisation de la latente.
+En termes techniques, si l'énergie libre est :
+- brûlante, cela fait référence à la moyenne.
+- chaude, cela se réfère à la marginalisation de la latente.
 - froide, cela se réfère à la valeur minimale.
 
 
@@ -306,30 +306,30 @@ La fonction d’énergie doit être petite pour les données qui proviennent de
 
 $$l_{\text{hinge}}(F(\cdot),\check{\vect{y}},\hat{\vect{y}}) = \big(m - [F(\hat{\vect{y}})-F(\check{\vect{y}})]\big)^{+}$$
 
-où $m$ est la marge et $F(\check{\vect{y}})$ et $F(\hat{\vect{y}})$ sont les énergies libres pour les énergies "froides" (pour les étiquettes correctes) et "chaudes" (pour les étiquettes incorrectes) respectivement.
+où $m$ est la marge et $F(\check{\vect{y}})$ et $F(\hat{\vect{y}})$ sont les énergies libres pour les énergies froides (pour les étiquettes correctes) et chaudes (pour les étiquettes incorrectes) respectivement.
 
 Le modèle essaie de faire en sorte que la différence entre deux énergies soit supérieure à la marge $m$.
 
 Il existe une fonction `ReLU` $[\cdot]^{+}$ utilisée sur la sortie de $m - [F(\hat{\vect{y}}) - F(\check{\vect{y}})]$, ce qui signifie que la valeur de cette fonction de perte *hinge* sera toujours non négative. 
 Cela implique que s'il y a des valeurs négatives, elles deviendront nulles en raison de cette fonction.
 
-L’entraînement rend $F(\hat{\vect{y}}})-F(\check{\vect{y}})$ égal ou supérieur à $m$. 
+L’entraînement rend $F(\hat{\vect{y}}) - F(\check{\vect{y}})$ égal ou supérieur à $m$. 
 Si la différence devient supérieure à $m$, la valeur globale de $[m - [F(\hat{\vect{y}}) - F(\check{\vect{y}})]]$ devient négative, la perte *hinge* devient nulle. On peut aussi dire que nous poussons les énergies tant que la différence est inférieure à $m$. Cependant, si la différence devient supérieure à la marge $m$, nous cessons de pousser. La fonction de perte *hinge* n'a pas une marge lisse.
 
 La fonction de perte de logarithme a une marge lisse, comme indiqué ci-dessous :
 
 $$l_{\log}(F(\cdot),\check{\vect{y}},\hat{\vect{y}}) = \log(1+\exp[F(\check{\vect{y}})-F(\hat{\vect{y}})]) $$
 
-Comme nous avons une fonction exponentielle, cette perte a une marge plus lisse. En d'autres termes, elle semble être une version "douce" de la perte hinge avec une marge infinie.
+Comme nous avons une fonction exponentielle, cette perte a une marge plus lisse. En d'autres termes, elle semble être une version "douce" de la perte *hinge* avec une marge infinie.
 
 <center>
 <img src="{{site.baseurl}}/images/week15/15-2/Figure7.png" style="zoom: 80%; background-color:#DCDCDC;" /><br>
 <b>Figure 7</b>
 </center>
 
-Le côté gauche est la version non entraînée où, pour chaque point d’entraînement, il y a un x correspondant qui est, sur la surface du modèle, l'emplacement le plus proche du point d’entraînement.
+Le côté gauche est la version non entraînée où, pour chaque point d’entraînement, il y a un *x* correspondant qui est, sur la surface du modèle, l'emplacement le plus proche du point d’entraînement.
 Pendant l’entraînement à la ZTL (*Zero Temperature Limit*), le gradient fait que le point de données sur la variété qui est le plus proche du point d’entraînement est poussé vers le point d’entraînement.
-On peut voir qu'après une époque sur l'image de droite, la version entraînée du modèle montre les x points pour arriver à l'endroit désiré. L'énergie passe à zéro correspondant ainsi aux points d'entraînement (points bleus dans la figure).
+On peut voir qu'après une époque sur l'image de droite, la version entraînée du modèle montre les *x* points pour arriver à l'endroit désiré. L'énergie passe à zéro correspondant ainsi aux points d'entraînement (points bleus dans la figure).
 
 Lorsque le modèle est entraîné à la ZTL et que la température est augmentée, les points sont choisis individuellement pour être poussés vers le point d’entraînement. Cependant, en cas de marginalisation, si nous choisissons un point $\vect{y}$ (le point vert en croix sur l'image en bas à gauche), le gradient est juste la moyenne de toutes les flèches pointant vers ce point particulier $\vect{y}$). 
 Tous les points sont tirés vers $\vect{y}$, en s'assurant que cela ne surcharge pas les données d'entraînement. La version entraînée ne s'adapte pas à tous les points d’entraînement.
@@ -442,7 +442,7 @@ $z$ prend des valeurs de façon linéaire, et est introduit dans le décodeur po
 
 $$x = [0:\frac{1}{50} :1]$$
 
-Le prédicteur prend le x observé, et donne le résultat au décodeur.
+Le prédicteur prend le *x* observé, et donne le résultat au décodeur.
 Nous effectuons un entraînement de l'énergie sans température zéro, ce qui donne un résultat :
 
 <center>
diff --git a/docs/fr/week15/15.md b/docs/fr/week15/15.md
index fc2abb013..0a7933dc2 100644
--- a/docs/fr/week15/15.md
+++ b/docs/fr/week15/15.md
@@ -18,7 +18,7 @@ Then, we applied latent-variable EBMs to inference the best latent variables tha
 ## Travaux dirigés partie A
 
 Lorsque les réseaux *feed-forward* rencontrent des données à sorties multiples pour une seule entrée, ils ne peuvent pas saisir les dépendances implicites. 
-C’est pourquoi les modèles à base d'énergie à variable latente (LV-EBMs pour *Latent variable energy based models*) viennent à la rescousse. 
+C’est là que les modèles à base d'énergie à variable latente (LV-EBMs pour *Latent variable energy based models*) viennent à la rescousse. 
 Nous développons un exemple d'ellipse avec une entrée fixe et la formulation optimale du modèle. 
 Ensuite, nous appliquons les EBMs à variables latentes pour inférer les meilleures variables latentes pouvant apprendre les relations implicites.
 
@@ -32,6 +32,6 @@ Finally we give a concrete example of self-supervised learning, where we train a
 -->
 
 ## Travaux dirigés partie B
-Cette section introduit une version détendue de l'énergie libre en modifiant la "température" pour lisser la fonction d’énergie.
+Cette section introduit une version détendue de l'énergie libre en modifiant la "température" afin de lisser la fonction d’énergie.
 Ensuite, nous montrons comment entraîner les EBMs en minimisant les pertes fonctionnelles à l'aide de plusieurs exemples. 
 Enfin, nous donnons un exemple concret d'apprentissage autosupervisé, où nous entraînons un EBM à l'apprentissage d'une variété de type conique.
diff --git a/docs/fr/week15/practicum15A.sbv b/docs/fr/week15/practicum15A.sbv
index 84104940e..94673517c 100644
--- a/docs/fr/week15/practicum15A.sbv
+++ b/docs/fr/week15/practicum15A.sbv
@@ -1068,7 +1068,6 @@ Donc c'est un peu comme s’il dépassait un peu.
 0:36:54.160,0:37:03.280
 L’énergie libre de cet endroit ici, est de 0,25. 0,5 au carré.
 
-
 0:37:03.520,0:37:07.520
 Coo, cool, cool. Donc que reste-t-il à vous montrer ?
 
@@ -1097,7 +1096,7 @@ comme ma première localisation. Donc étant donné cette localisation là…
 prenons du orange… il n’y pas l’orange. Désolé. Prenons du rouge alors. 
 
 0:38:10.680,0:38:22.880
-Donc alors disons que j'initialise ma variable latente telle que le g, la version décodée, de z tilde est ce point par ici
+Donc alors disons que j'initialise ma variable latente telle que le g, la version décodée, de z̃ est ce point par ici
 
 0:38:22.880,0:38:30.320
 Puis nous exécutons notre processus de minimisation pour effectuer une inférence. Pour connaître le z^check.
diff --git a/docs/images/week01/01-3/initial_scatter_lab1.png b/docs/images/week01/01-3/initial_scatter_lab1.png
index 5defc2349..5349ecf59 100644
Binary files a/docs/images/week01/01-3/initial_scatter_lab1.png and b/docs/images/week01/01-3/initial_scatter_lab1.png differ
diff --git a/docs/images/week01/01-3/matrix_multiplication_lab1.png b/docs/images/week01/01-3/matrix_multiplication_lab1.png
index 468ec4346..cf95db8b7 100644
Binary files a/docs/images/week01/01-3/matrix_multiplication_lab1.png and b/docs/images/week01/01-3/matrix_multiplication_lab1.png differ
diff --git a/docs/images/week01/01-3/matrix_multiplication_lab1_2.png b/docs/images/week01/01-3/matrix_multiplication_lab1_2.png
index c09b6ff4c..2001db7de 100644
Binary files a/docs/images/week01/01-3/matrix_multiplication_lab1_2.png and b/docs/images/week01/01-3/matrix_multiplication_lab1_2.png differ
diff --git a/docs/images/week01/01-3/matrix_multiplication_with_nonlinearity_s=1_lab1.png b/docs/images/week01/01-3/matrix_multiplication_with_nonlinearity_s=1_lab1.png
index 3e1d9a7a3..2007cddb6 100644
Binary files a/docs/images/week01/01-3/matrix_multiplication_with_nonlinearity_s=1_lab1.png and b/docs/images/week01/01-3/matrix_multiplication_with_nonlinearity_s=1_lab1.png differ
diff --git a/docs/images/week01/01-3/matrix_multiplication_with_nonlinearity_s=5_lab1.png b/docs/images/week01/01-3/matrix_multiplication_with_nonlinearity_s=5_lab1.png
index 7e386a7b8..10482a26a 100644
Binary files a/docs/images/week01/01-3/matrix_multiplication_with_nonlinearity_s=5_lab1.png and b/docs/images/week01/01-3/matrix_multiplication_with_nonlinearity_s=5_lab1.png differ
diff --git a/docs/images/week01/01-3/tanh_lab1.png b/docs/images/week01/01-3/tanh_lab1.png
index f5facfc3e..929087d3a 100644
Binary files a/docs/images/week01/01-3/tanh_lab1.png and b/docs/images/week01/01-3/tanh_lab1.png differ
diff --git a/docs/images/week01/01-3/untrained_nn_transformation_lab1.png b/docs/images/week01/01-3/untrained_nn_transformation_lab1.png
index 3192f9d82..e1d451d19 100644
Binary files a/docs/images/week01/01-3/untrained_nn_transformation_lab1.png and b/docs/images/week01/01-3/untrained_nn_transformation_lab1.png differ
diff --git a/docs/images/week02/02-1/Average_Loss.png b/docs/images/week02/02-1/Average_Loss.png
index df404a2a8..cfbbdf9fa 100644
Binary files a/docs/images/week02/02-1/Average_Loss.png and b/docs/images/week02/02-1/Average_Loss.png differ
diff --git a/docs/images/week02/02-1/deterministic_function.png b/docs/images/week02/02-1/deterministic_function.png
new file mode 100644
index 000000000..10790fe9d
Binary files /dev/null and b/docs/images/week02/02-1/deterministic_function.png differ
diff --git a/docs/images/week02/02-1/y.png b/docs/images/week02/02-1/y.png
new file mode 100644
index 000000000..a7d025258
Binary files /dev/null and b/docs/images/week02/02-1/y.png differ
diff --git a/docs/images/week02/02-2/02-2-1.png b/docs/images/week02/02-2/02-2-1.png
index e6b734818..e83dd8395 100644
Binary files a/docs/images/week02/02-2/02-2-1.png and b/docs/images/week02/02-2/02-2-1.png differ
diff --git a/docs/images/week02/02-2/02-2-3.png b/docs/images/week02/02-2/02-2-3.png
index dd3820879..a9ce2a5c2 100644
Binary files a/docs/images/week02/02-2/02-2-3.png and b/docs/images/week02/02-2/02-2-3.png differ
diff --git a/docs/images/week02/02-3/6-nn-confidence.png b/docs/images/week02/02-3/6-nn-confidence.png
index e46557d99..fe9f2d610 100644
Binary files a/docs/images/week02/02-3/6-nn-confidence.png and b/docs/images/week02/02-3/6-nn-confidence.png differ
diff --git a/docs/images/week02/02-3/clean-spiral.png b/docs/images/week02/02-3/clean-spiral.png
index 4bb2a337d..73ccefd83 100644
Binary files a/docs/images/week02/02-3/clean-spiral.png and b/docs/images/week02/02-3/clean-spiral.png differ
diff --git a/docs/images/week03/03-1/Gallant_and_Van_Essen.png b/docs/images/week03/03-1/Gallant_and_Van_Essen.png
index dff4b7488..2a3b02d53 100644
Binary files a/docs/images/week03/03-1/Gallant_and_Van_Essen.png and b/docs/images/week03/03-1/Gallant_and_Van_Essen.png differ
diff --git a/docs/images/week03/03-1/HyperNetwork.png b/docs/images/week03/03-1/HyperNetwork.png
index e347d4977..a303e4265 100644
Binary files a/docs/images/week03/03-1/HyperNetwork.png and b/docs/images/week03/03-1/HyperNetwork.png differ
diff --git a/docs/images/week03/03-1/PT.png b/docs/images/week03/03-1/PT.png
index 4e1de6f9d..98fce4ce7 100644
Binary files a/docs/images/week03/03-1/PT.png and b/docs/images/week03/03-1/PT.png differ
diff --git a/docs/images/week03/03-3/Figure 2(a) Before Applying Sparsity.png b/docs/images/week03/03-3/Figure 2(a) Before Applying Sparsity.png
index 227633c93..3fa1f47f2 100644
Binary files a/docs/images/week03/03-3/Figure 2(a) Before Applying Sparsity.png and b/docs/images/week03/03-3/Figure 2(a) Before Applying Sparsity.png differ
diff --git a/docs/images/week03/03-3/Figure 2(b) After Applying Sparsity.png b/docs/images/week03/03-3/Figure 2(b) After Applying Sparsity.png
index 953ab37ac..2acf82751 100644
Binary files a/docs/images/week03/03-3/Figure 2(b) After Applying Sparsity.png and b/docs/images/week03/03-3/Figure 2(b) After Applying Sparsity.png differ
diff --git a/docs/images/week06/06-2/LSTM.png b/docs/images/week06/06-2/LSTM.png
index e3ab3aef0..c96cdd43e 100644
Binary files a/docs/images/week06/06-2/LSTM.png and b/docs/images/week06/06-2/LSTM.png differ
diff --git a/docs/images/week06/06-3/fourth.png b/docs/images/week06/06-3/fourth.png
index 55fb49cef..819074a8d 100644
Binary files a/docs/images/week06/06-3/fourth.png and b/docs/images/week06/06-3/fourth.png differ
diff --git a/docs/images/week06/06-3/hidden_state_lstm.png b/docs/images/week06/06-3/hidden_state_lstm.png
index 366a50225..845b4d291 100644
Binary files a/docs/images/week06/06-3/hidden_state_lstm.png and b/docs/images/week06/06-3/hidden_state_lstm.png differ
diff --git a/docs/images/week06/06-3/rnn_2.png b/docs/images/week06/06-3/rnn_2.png
index dd3622db7..e6658aacc 100644
Binary files a/docs/images/week06/06-3/rnn_2.png and b/docs/images/week06/06-3/rnn_2.png differ
diff --git a/docs/images/week06/06-3/rnn_3.png b/docs/images/week06/06-3/rnn_3.png
index e9fd5b1a0..da084f10f 100644
Binary files a/docs/images/week06/06-3/rnn_3.png and b/docs/images/week06/06-3/rnn_3.png differ
diff --git a/docs/images/week06/06-3/seq2seq.png b/docs/images/week06/06-3/seq2seq.png
index 3f4a2a303..615651976 100644
Binary files a/docs/images/week06/06-3/seq2seq.png and b/docs/images/week06/06-3/seq2seq.png differ
diff --git a/docs/images/week06/06-3/seq2vec.png b/docs/images/week06/06-3/seq2vec.png
index 032519ea5..df969ffec 100644
Binary files a/docs/images/week06/06-3/seq2vec.png and b/docs/images/week06/06-3/seq2vec.png differ
diff --git a/docs/images/week06/06-3/third_2.png b/docs/images/week06/06-3/third_2.png
index 12f1ca1d8..eac7a7005 100644
Binary files a/docs/images/week06/06-3/third_2.png and b/docs/images/week06/06-3/third_2.png differ
diff --git a/docs/images/week07/07-1/fig3.png b/docs/images/week07/07-1/fig3.png
index a6cf68eca..60ab0253b 100644
Binary files a/docs/images/week07/07-1/fig3.png and b/docs/images/week07/07-1/fig3.png differ
diff --git a/docs/images/week07/07-1/fig4.png b/docs/images/week07/07-1/fig4.png
index 0934bf6a7..3c06e31fa 100644
Binary files a/docs/images/week07/07-1/fig4.png and b/docs/images/week07/07-1/fig4.png differ
diff --git a/docs/images/week07/07-2/2_cv_eg.png b/docs/images/week07/07-2/2_cv_eg.png
index e33555f89..6022ece9b 100644
Binary files a/docs/images/week07/07-2/2_cv_eg.png and b/docs/images/week07/07-2/2_cv_eg.png differ
diff --git a/docs/images/week07/07-2/5_spiral.png b/docs/images/week07/07-2/5_spiral.png
index bb21ccb19..6f1e766a7 100644
Binary files a/docs/images/week07/07-2/5_spiral.png and b/docs/images/week07/07-2/5_spiral.png differ
diff --git a/docs/images/week07/07-3/10_facepatch.png b/docs/images/week07/07-3/10_facepatch.png
new file mode 100644
index 000000000..a52092a8d
Binary files /dev/null and b/docs/images/week07/07-3/10_facepatch.png differ
diff --git a/docs/images/week07/07-3/11_fixfacepatch.png b/docs/images/week07/07-3/11_fixfacepatch.png
new file mode 100644
index 000000000..d0d0a3dbd
Binary files /dev/null and b/docs/images/week07/07-3/11_fixfacepatch.png differ
diff --git a/docs/images/week07/07-3/16_relation1.png b/docs/images/week07/07-3/16_relation1.png
index 3a0b5a782..3d6a7911b 100644
Binary files a/docs/images/week07/07-3/16_relation1.png and b/docs/images/week07/07-3/16_relation1.png differ
diff --git a/docs/images/week07/07-3/18_contractive_ae.png b/docs/images/week07/07-3/18_contractive_ae.png
index c2979ae39..015e2b1ec 100644
Binary files a/docs/images/week07/07-3/18_contractive_ae.png and b/docs/images/week07/07-3/18_contractive_ae.png differ
diff --git a/docs/images/week07/07-3/19_basic_ae.png b/docs/images/week07/07-3/19_basic_ae.png
index 4b2e7e6e6..1b004b1c3 100644
Binary files a/docs/images/week07/07-3/19_basic_ae.png and b/docs/images/week07/07-3/19_basic_ae.png differ
diff --git a/docs/images/week07/07-3/1_faces_gen.png b/docs/images/week07/07-3/1_faces_gen.png
new file mode 100644
index 000000000..4eca7dd1e
Binary files /dev/null and b/docs/images/week07/07-3/1_faces_gen.png differ
diff --git a/docs/images/week07/07-3/21_output_stae.png b/docs/images/week07/07-3/21_output_stae.png
index 2474a3dad..33fcf3cb4 100644
Binary files a/docs/images/week07/07-3/21_output_stae.png and b/docs/images/week07/07-3/21_output_stae.png differ
diff --git a/docs/images/week07/07-3/22_out_denoising_ae.png b/docs/images/week07/07-3/22_out_denoising_ae.png
index 2a201ea11..217e22508 100644
Binary files a/docs/images/week07/07-3/22_out_denoising_ae.png and b/docs/images/week07/07-3/22_out_denoising_ae.png differ
diff --git a/docs/images/week07/07-3/2_bird.png b/docs/images/week07/07-3/2_bird.png
new file mode 100644
index 000000000..d140ed3bc
Binary files /dev/null and b/docs/images/week07/07-3/2_bird.png differ
diff --git a/docs/images/week07/07-3/2_dog.png b/docs/images/week07/07-3/2_dog.png
new file mode 100644
index 000000000..f5a641396
Binary files /dev/null and b/docs/images/week07/07-3/2_dog.png differ
diff --git a/docs/images/week07/07-3/3_dog2bird.png b/docs/images/week07/07-3/3_dog2bird.png
new file mode 100644
index 000000000..f88cdd9b8
Binary files /dev/null and b/docs/images/week07/07-3/3_dog2bird.png differ
diff --git a/docs/images/week07/07-3/4_model_d2b.png b/docs/images/week07/07-3/4_model_d2b.png
new file mode 100644
index 000000000..fb2c54e4d
Binary files /dev/null and b/docs/images/week07/07-3/4_model_d2b.png differ
diff --git a/docs/images/week07/07-3/5_zoom1.png b/docs/images/week07/07-3/5_zoom1.png
new file mode 100644
index 000000000..a54b801a8
Binary files /dev/null and b/docs/images/week07/07-3/5_zoom1.png differ
diff --git a/docs/images/week07/07-3/5_zoom2.png b/docs/images/week07/07-3/5_zoom2.png
new file mode 100644
index 000000000..c9f5bc4ac
Binary files /dev/null and b/docs/images/week07/07-3/5_zoom2.png differ
diff --git a/docs/images/week07/07-3/6_shift1.png b/docs/images/week07/07-3/6_shift1.png
new file mode 100644
index 000000000..8044716fa
Binary files /dev/null and b/docs/images/week07/07-3/6_shift1.png differ
diff --git a/docs/images/week07/07-3/6_shift2.png b/docs/images/week07/07-3/6_shift2.png
new file mode 100644
index 000000000..a336d5722
Binary files /dev/null and b/docs/images/week07/07-3/6_shift2.png differ
diff --git a/docs/images/week07/07-3/7_bright1.png b/docs/images/week07/07-3/7_bright1.png
new file mode 100644
index 000000000..c8b5a7eb2
Binary files /dev/null and b/docs/images/week07/07-3/7_bright1.png differ
diff --git a/docs/images/week07/07-3/7_bright2.png b/docs/images/week07/07-3/7_bright2.png
new file mode 100644
index 000000000..61b708290
Binary files /dev/null and b/docs/images/week07/07-3/7_bright2.png differ
diff --git a/docs/images/week07/07-3/8_rotation1.png b/docs/images/week07/07-3/8_rotation1.png
new file mode 100644
index 000000000..2d16f31d0
Binary files /dev/null and b/docs/images/week07/07-3/8_rotation1.png differ
diff --git a/docs/images/week07/07-3/8_rotation2.png b/docs/images/week07/07-3/8_rotation2.png
new file mode 100644
index 000000000..ac8a3f0e5
Binary files /dev/null and b/docs/images/week07/07-3/8_rotation2.png differ
diff --git a/docs/images/week07/07-3/9_reconstruct.png b/docs/images/week07/07-3/9_reconstruct.png
new file mode 100644
index 000000000..c4c5009cd
Binary files /dev/null and b/docs/images/week07/07-3/9_reconstruct.png differ
diff --git a/docs/images/week08/08-1/fig1.png b/docs/images/week08/08-1/fig1.png
index ff409cc8d..2beee3cb0 100644
Binary files a/docs/images/week08/08-1/fig1.png and b/docs/images/week08/08-1/fig1.png differ
diff --git a/docs/images/week08/08-1/fig2.png b/docs/images/week08/08-1/fig2.png
index 50f88e5ab..6b8793988 100644
Binary files a/docs/images/week08/08-1/fig2.png and b/docs/images/week08/08-1/fig2.png differ
diff --git a/docs/images/week08/08-3/fig_8.png b/docs/images/week08/08-3/fig_8.png
index 8233a894d..41ff21f6e 100644
Binary files a/docs/images/week08/08-3/fig_8.png and b/docs/images/week08/08-3/fig_8.png differ
diff --git a/docs/images/week10/10-1/img09.png b/docs/images/week10/10-1/img09.png
index 1b035e5e4..50aa2dbbd 100644
Binary files a/docs/images/week10/10-1/img09.png and b/docs/images/week10/10-1/img09.png differ
diff --git a/docs/images/week10/10-1/img10.png b/docs/images/week10/10-1/img10.png
index 521439dd1..8d21fb912 100644
Binary files a/docs/images/week10/10-1/img10.png and b/docs/images/week10/10-1/img10.png differ
diff --git a/docs/images/week10/10-1/img13.png b/docs/images/week10/10-1/img13.png
index 29a555a18..417dc691c 100644
Binary files a/docs/images/week10/10-1/img13.png and b/docs/images/week10/10-1/img13.png differ
diff --git a/docs/images/week10/10-2/fig07.png b/docs/images/week10/10-2/fig07.png
index d0789f108..593e62896 100644
Binary files a/docs/images/week10/10-2/fig07.png and b/docs/images/week10/10-2/fig07.png differ
diff --git a/docs/images/week10/10-2/fig08.png b/docs/images/week10/10-2/fig08.png
index b4a9edcd6..92a5abb15 100644
Binary files a/docs/images/week10/10-2/fig08.png and b/docs/images/week10/10-2/fig08.png differ
diff --git a/docs/images/week10/10-2/fig14.png b/docs/images/week10/10-2/fig14.png
index cd24ecc17..e20a521d9 100644
Binary files a/docs/images/week10/10-2/fig14.png and b/docs/images/week10/10-2/fig14.png differ
diff --git a/docs/images/week10/10-2/fig15.png b/docs/images/week10/10-2/fig15.png
index 1b69b3d40..dbfda0b89 100644
Binary files a/docs/images/week10/10-2/fig15.png and b/docs/images/week10/10-2/fig15.png differ
diff --git a/docs/images/week10/10-2/fig17.png b/docs/images/week10/10-2/fig17.png
index 1f78434b4..2f44144d1 100644
Binary files a/docs/images/week10/10-2/fig17.png and b/docs/images/week10/10-2/fig17.png differ
diff --git a/docs/images/week10/10-2/fig18.png b/docs/images/week10/10-2/fig18.png
index 02e22d437..42bec04ae 100644
Binary files a/docs/images/week10/10-2/fig18.png and b/docs/images/week10/10-2/fig18.png differ
diff --git a/docs/images/week10/10-2/fig20.png b/docs/images/week10/10-2/fig20.png
index 618fe2727..b62cbc9b8 100644
Binary files a/docs/images/week10/10-2/fig20.png and b/docs/images/week10/10-2/fig20.png differ
diff --git a/docs/images/week10/10-2/fig23.png b/docs/images/week10/10-2/fig23.png
index bfcea97eb..ad9647dff 100644
Binary files a/docs/images/week10/10-2/fig23.png and b/docs/images/week10/10-2/fig23.png differ
diff --git a/docs/images/week11/11-3/figure4.png b/docs/images/week11/11-3/figure4.png
index 553f8c11c..dfc47589a 100644
Binary files a/docs/images/week11/11-3/figure4.png and b/docs/images/week11/11-3/figure4.png differ
diff --git a/docs/images/week11/11-3/figure7.png b/docs/images/week11/11-3/figure7.png
index 7ed2a53ce..5b442d45d 100644
Binary files a/docs/images/week11/11-3/figure7.png and b/docs/images/week11/11-3/figure7.png differ
diff --git a/docs/images/week11/11-3/figure9.png b/docs/images/week11/11-3/figure9.png
index 5631f23e2..7958d55e0 100644
Binary files a/docs/images/week11/11-3/figure9.png and b/docs/images/week11/11-3/figure9.png differ
diff --git a/docs/images/week14/14-1/Fig1.png b/docs/images/week14/14-1/Fig1.png
index 2cacb30eb..ea20ce95c 100644
Binary files a/docs/images/week14/14-1/Fig1.png and b/docs/images/week14/14-1/Fig1.png differ
diff --git a/docs/images/week14/14-1/Fig8.png b/docs/images/week14/14-1/Fig8.png
index adc6c318b..ca07dd9de 100644
Binary files a/docs/images/week14/14-1/Fig8.png and b/docs/images/week14/14-1/Fig8.png differ
diff --git a/docs/images/week14/14-3/code.jpg b/docs/images/week14/14-3/code.jpg
new file mode 100644
index 000000000..38a5790c2
Binary files /dev/null and b/docs/images/week14/14-3/code.jpg differ
diff --git a/docs/images/week14/14-3/early_stop.jpg b/docs/images/week14/14-3/early_stop.jpg
new file mode 100644
index 000000000..1646fbd9c
Binary files /dev/null and b/docs/images/week14/14-3/early_stop.jpg differ
diff --git a/docs/images/week14/14-3/network_without_dropout.jpg b/docs/images/week14/14-3/network_without_dropout.jpg
new file mode 100644
index 000000000..d3be17f8a
Binary files /dev/null and b/docs/images/week14/14-3/network_without_dropout.jpg differ
diff --git a/docs/images/week14/14-3/regularization_weights.jpg b/docs/images/week14/14-3/regularization_weights.jpg
new file mode 100644
index 000000000..9e4ce0ff3
Binary files /dev/null and b/docs/images/week14/14-3/regularization_weights.jpg differ
diff --git a/docs/images/week15/15-2/Figure4.png b/docs/images/week15/15-2/Figure4.png
index f5acff743..95310dd08 100644
Binary files a/docs/images/week15/15-2/Figure4.png and b/docs/images/week15/15-2/Figure4.png differ
diff --git a/docs/images/week15/15-2/Figure6.png b/docs/images/week15/15-2/Figure6.png
index 27abd1b6f..643e5f7e5 100644
Binary files a/docs/images/week15/15-2/Figure6.png and b/docs/images/week15/15-2/Figure6.png differ
diff --git a/docs/images/week15/15-2/Figure7.png b/docs/images/week15/15-2/Figure7.png
index 408b1adea..847fe043d 100644
Binary files a/docs/images/week15/15-2/Figure7.png and b/docs/images/week15/15-2/Figure7.png differ