From: Benjamin Auder <benjamin.auder@somewhere>
Date: Tue, 14 Feb 2017 13:05:25 +0000 (+0100)
Subject: updated report for 01/03
X-Git-Url: https://git.auder.net/doc/html/pieces/current/git-favicon.png?a=commitdiff_plain;h=56999439dbbf561d5ae066810bc6fdae5c6528c6;p=talweg.git

updated report for 01/03
---

diff --git a/reports/report_2017-03-01.ipynb b/reports/report_2017-03-01.ipynb
index 4eecb50..22e7dc4 100644
--- a/reports/report_2017-03-01.ipynb
+++ b/reports/report_2017-03-01.ipynb
@@ -27,7 +27,19 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "## Pollution par chauffage"
+    "## Introduction\n",
+    "\n",
+    "J'ai fait quelques essais dans diffÃ©rentes configurations pour la mÃ©thode \"Neighbors\" (la seule dont on a parlÃ©).<br>Il semble que le mieux soit\n",
+    "\n",
+    " * simtype=\"mix\" : on utilise les similaritÃ©s endogÃ¨nes et exogÃ¨nes (fenÃªtre optimisÃ©e par VC)\n",
+    " * same_season=FALSE : les indices pour la validation croisÃ©e ne tiennent pas compte des saisons\n",
+    " * mix_strategy=\"mult\" : on multiplie les poids (au lieu d'en Ã©teindre)\n",
+    "\n",
+    "J'ai systÃ©matiquement comparÃ© Ã  deux autres approches : la persistence et la moyenne de tous les futurs des jours similaires du passÃ© ; Ã  chaque fois sans prÃ©diction du saut (sauf pour Neighbors : prÃ©diction basÃ©e sur les poids calculÃ©s).\n",
+    "\n",
+    "Ensuite j'affiche les erreurs, quelques courbes prÃ©vues/mesurÃ©es, quelques filaments puis les histogrammes de quelques poids. Concernant les graphes de filaments, la moitiÃ© gauche du graphe correspond aux jours similaires au jour courant, tandis que la moitiÃ© droite affiche les lendemains : ce sont donc les voisinages tels qu'utilisÃ©s dans l'algorithme.\n",
+    "\n",
+    "<h2 style=\"color:blue;font-size:2em\">Pollution par chauffage</h2>"
    ]
   },
   {
@@ -58,7 +70,16 @@
     "e_ch_pz = getError(data, p_ch_pz, 17)\n",
     "e_ch_az = getError(data, p_ch_az, 17)\n",
     "options(repr.plot.width=9, repr.plot.height=6)\n",
-    "plotError(list(e_ch_nn, e_ch_pz, e_ch_az), cols=c(1,2,colors()[258]))"
+    "plotError(list(e_ch_nn, e_ch_pz, e_ch_az), cols=c(1,2,colors()[258]))\n",
+    "\n",
+    "#Noir: neighbors, rouge: persistence, vert: moyenne"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "La mÃ©thode Neighbors fait assez nettement mieux qu'une simple moyenne dans ce cas."
    ]
   },
   {
@@ -72,7 +93,16 @@
     "par(mfrow=c(1,2))\n",
     "options(repr.plot.width=9, repr.plot.height=4)\n",
     "plotPredReal(data, p_ch_nn, 3)\n",
-    "plotPredReal(data, p_ch_nn, 4)"
+    "plotPredReal(data, p_ch_nn, 4)\n",
+    "\n",
+    "#Bleu: prÃ©vue, noir: rÃ©alisÃ©e"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "PrÃ©dictions d'autant plus lisses que le jour Ã  prÃ©voir est atypique (polluÃ©)."
    ]
   },
   {
@@ -88,6 +118,13 @@
     "plotFilaments(data, p_ch_nn$getIndexInData(4))"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Beaucoup de courbes similaires dans le cas peu polluÃ©, trÃ¨s peu pour un jour polluÃ©."
+   ]
+  },
   {
    "cell_type": "code",
    "execution_count": null,
@@ -99,14 +136,36 @@
     "par(mfrow=c(1,3))\n",
     "plotSimils(p_ch_nn, 3)\n",
     "plotSimils(p_ch_nn, 4)\n",
-    "plotSimils(p_ch_nn, 5)"
+    "plotSimils(p_ch_nn, 5)\n",
+    "\n",
+    "#Non polluÃ© Ã  gauche, polluÃ© au milieu, autre polluÃ© Ã  droite"
    ]
   },
   {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "## Pollution par Ã©pandage"
+    "La plupart des poids trÃ¨s proches de zÃ©ro ; pas pour le jour 5 : autre type de jour, cf. ci-dessous."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "par(mfrow=c(1,2))\n",
+    "plotPredReal(data, p_ch_nn, 5)\n",
+    "plotFilaments(data, p_ch_nn$getIndexInData(5))"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "<h2 style=\"color:blue;font-size:2em\">Pollution par Ã©pandage</h2>"
    ]
   },
   {
@@ -137,7 +196,16 @@
     "e_ep_pz = getError(data, p_ep_pz, 17)\n",
     "e_ep_az = getError(data, p_ep_az, 17)\n",
     "options(repr.plot.width=9, repr.plot.height=6)\n",
-    "plotError(list(e_ep_nn, e_ep_pz, e_ep_az), cols=c(1,2,colors()[258]))"
+    "plotError(list(e_ep_nn, e_ep_pz, e_ep_az), cols=c(1,2,colors()[258]))\n",
+    "\n",
+    "#Noir: neighbors, rouge: persistence, vert: moyenne"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Cette fois les deux mÃ©thodes naÃ¯ves font en moyenne moins d'erreurs que Neighbors. PrÃ©diction trop difficile ?"
    ]
   },
   {
@@ -150,8 +218,15 @@
    "source": [
     "par(mfrow=c(1,2))\n",
     "options(repr.plot.width=9, repr.plot.height=4)\n",
-    "plotPredReal(data, p_ep_nn, 3)\n",
-    "plotPredReal(data, p_ep_nn, 4)"
+    "plotPredReal(data, p_ep_nn, 4)\n",
+    "plotPredReal(data, p_ep_nn, 6)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Ã gauche un jour \"bien\" prÃ©vu, Ã  droite le pic d'erreur (jour 6)."
    ]
   },
   {
@@ -163,8 +238,8 @@
    "outputs": [],
    "source": [
     "par(mfrow=c(1,2))\n",
-    "plotFilaments(data, p_ep_nn$getIndexInData(3))\n",
-    "plotFilaments(data, p_ep_nn$getIndexInData(4))"
+    "plotFilaments(data, p_ep_nn$getIndexInData(4))\n",
+    "plotFilaments(data, p_ep_nn$getIndexInData(6))"
    ]
   },
   {
@@ -175,10 +250,16 @@
    },
    "outputs": [],
    "source": [
-    "par(mfrow=c(1,3))\n",
-    "plotSimils(p_ep_nn, 3)\n",
+    "par(mfrow=c(1,2))\n",
     "plotSimils(p_ep_nn, 4)\n",
-    "plotSimils(p_ep_nn, 5)"
+    "plotSimils(p_ep_nn, 6)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "MÃªme observation concernant les poids : concentrÃ©s prÃ¨s de zÃ©ro pour les prÃ©dictions avec peu de voisins."
    ]
   },
   {
@@ -216,7 +297,16 @@
     "e_np_pz = getError(data, p_np_pz, 17)\n",
     "e_np_az = getError(data, p_np_az, 17)\n",
     "options(repr.plot.width=9, repr.plot.height=6)\n",
-    "plotError(list(e_np_nn, e_np_pz, e_np_az), cols=c(1,2,colors()[258]))"
+    "plotError(list(e_np_nn, e_np_pz, e_np_az), cols=c(1,2,colors()[258]))\n",
+    "\n",
+    "#Noir: neighbors, rouge: persistence, vert: moyenne"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Performances des mÃ©thodes \"Average\" et \"Neighbors\" comparables ; mauvais rÃ©sultats pour la persistence."
    ]
   },
   {
@@ -230,7 +320,14 @@
     "par(mfrow=c(1,2))\n",
     "options(repr.plot.width=9, repr.plot.height=4)\n",
     "plotPredReal(data, p_np_nn, 3)\n",
-    "plotPredReal(data, p_np_nn, 4)"
+    "plotPredReal(data, p_np_nn, 6)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Les \"bonnes\" prÃ©dictions (Ã  gauche) sont tout de mÃªme trop lissÃ©es."
    ]
   },
   {
@@ -243,7 +340,14 @@
    "source": [
     "par(mfrow=c(1,2))\n",
     "plotFilaments(data, p_np_nn$getIndexInData(3))\n",
-    "plotFilaments(data, p_np_nn$getIndexInData(4))"
+    "plotFilaments(data, p_np_nn$getIndexInData(6))"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Jours \"typiques\", donc beaucoup de voisins."
    ]
   },
   {
@@ -257,7 +361,25 @@
     "par(mfrow=c(1,3))\n",
     "plotSimils(p_np_nn, 3)\n",
     "plotSimils(p_np_nn, 4)\n",
-    "plotSimils(p_np_nn, 5)"
+    "plotSimils(p_np_nn, 6)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "RÃ©partition idÃ©ale des poids : quelques uns au-delÃ  de 0.3-0.4, le reste trÃ¨s proche de zÃ©ro."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Bilan\n",
+    "\n",
+    "ProblÃ¨me difficile : on ne fait guÃ¨re mieux qu'une naÃ¯ve moyenne des lendemains des jours similaires dans le passÃ©.\n",
+    "\n",
+    "Comment amÃ©liorer la mÃ©thode ?"
    ]
   }
  ],