From: Benjamin Auder <benjamin.auder@somewhere>
Date: Thu, 16 Feb 2017 14:24:25 +0000 (+0100)
Subject: update report: no memory on average
X-Git-Url: https://git.auder.net/%7B%7B%20asset%28%27mixstore/css/img/pieces/cr.svg?a=commitdiff_plain;h=1b25210ff672f0fc1abf5e91815bb9926e005e27;p=talweg.git

update report: no memory on average
---

diff --git a/reports/report_2017-03-01.ipynb b/reports/report_2017-03-01.ipynb
index bd2e25e..acbdfd0 100644
--- a/reports/report_2017-03-01.ipynb
+++ b/reports/report_2017-03-01.ipynb
@@ -53,7 +53,7 @@
     "indices = seq(as.Date(\"2015-01-18\"),as.Date(\"2015-01-24\"),\"days\")\n",
     "p_ch_nn = getForecast(data,indices,\"Neighbors\",\"Neighbors\",simtype=\"mix\",same_season=FALSE,mix_strategy=\"mult\")\n",
     "p_ch_pz = getForecast(data, indices, \"Persistence\", \"Zero\", same_day=TRUE)\n",
-    "p_ch_az = getForecast(data, indices, \"Average\", \"Zero\", memory=183)\n",
+    "p_ch_az = getForecast(data, indices, \"Average\", \"Zero\") #, memory=183)\n",
     "#p_ch_zz = getForecast(data, indices, \"Zero\", \"Zero\")\n",
     "#p_ch_l = getForecast(data, indices, \"Level\", same_day=FALSE)"
    ]
@@ -181,7 +181,7 @@
     "indices = seq(as.Date(\"2015-03-15\"),as.Date(\"2015-03-21\"),\"days\")\n",
     "p_ep_nn = getForecast(data,indices,\"Neighbors\",\"Neighbors\",simtype=\"mix\",same_season=FALSE,mix_strategy=\"mult\")\n",
     "p_ep_pz = getForecast(data, indices, \"Persistence\", \"Zero\", same_day=TRUE)\n",
-    "p_ep_az = getForecast(data, indices, \"Average\", \"Zero\", memory=183)\n",
+    "p_ep_az = getForecast(data, indices, \"Average\", \"Zero\") #, memory=183)\n",
     "#p_ep_zz = getForecast(data, indices, \"Zero\", \"Zero\")\n",
     "#p_ep_l = getForecast(data, indices, \"Level\", same_day=TRUE)"
    ]
@@ -223,7 +223,9 @@
     "par(mfrow=c(1,2))\n",
     "options(repr.plot.width=9, repr.plot.height=4)\n",
     "plotPredReal(data, p_ep_nn, 4)\n",
-    "plotPredReal(data, p_ep_nn, 6)"
+    "plotPredReal(data, p_ep_nn, 6)\n",
+    "\n",
+    "#Bleu: prÃ©vue, noir: rÃ©alisÃ©e"
    ]
   },
   {
@@ -284,7 +286,7 @@
     "indices = seq(as.Date(\"2015-04-26\"),as.Date(\"2015-05-02\"),\"days\")\n",
     "p_np_nn = getForecast(data,indices,\"Neighbors\",\"Neighbors\",simtype=\"mix\",same_season=FALSE,mix_strategy=\"mult\")\n",
     "p_np_pz = getForecast(data, indices, \"Persistence\", \"Zero\", same_day=FALSE)\n",
-    "p_np_az = getForecast(data, indices, \"Average\", \"Zero\", memory=183)\n",
+    "p_np_az = getForecast(data, indices, \"Average\", \"Zero\") #, memory=183)\n",
     "#p_np_zz = getForecast(data, indices, \"Zero\", \"Zero\")\n",
     "#p_np_l = getForecast(data, indices, \"Level\", same_day=FALSE)"
    ]
@@ -326,7 +328,9 @@
     "par(mfrow=c(1,2))\n",
     "options(repr.plot.width=9, repr.plot.height=4)\n",
     "plotPredReal(data, p_np_nn, 3)\n",
-    "plotPredReal(data, p_np_nn, 6)"
+    "plotPredReal(data, p_np_nn, 6)\n",
+    "\n",
+    "#Bleu: prÃ©vue, noir: rÃ©alisÃ©e"
    ]
   },
   {
@@ -336,6 +340,19 @@
     "Les \"bonnes\" prÃ©dictions (Ã  gauche) sont tout de mÃªme trop lissÃ©es."
    ]
   },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "par(mfrow=c(1,2))\n",
+    "plotPredReal(data, p_np_az, 3)\n",
+    "plotPredReal(data, p_np_az, 6)"
+   ]
+  },
   {
    "cell_type": "code",
    "execution_count": null,
diff --git a/reports/report_2017-03-01.nbconvert.ipynb b/reports/report_2017-03-01.nbconvert.ipynb
new file mode 100644
index 0000000..bd2e25e
--- /dev/null
+++ b/reports/report_2017-03-01.nbconvert.ipynb
@@ -0,0 +1,409 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "library(talweg)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "data = getData(ts_data=\"../data/pm10_mesures_H_loc.csv\", exo_data=\"../data/meteo_extra_noNAs.csv\",\n",
+    "               input_tz = \"Europe/Paris\", working_tz=\"Europe/Paris\", predict_at=7)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Introduction\n",
+    "\n",
+    "J'ai fait quelques essais dans diffÃ©rentes configurations pour la mÃ©thode \"Neighbors\" (la seule dont on a parlÃ©).<br>Il semble que le mieux soit\n",
+    "\n",
+    " * simtype=\"mix\" : on utilise les similaritÃ©s endogÃ¨nes et exogÃ¨nes (fenÃªtre optimisÃ©e par VC)\n",
+    " * same_season=FALSE : les indices pour la validation croisÃ©e ne tiennent pas compte des saisons\n",
+    " * mix_strategy=\"mult\" : on multiplie les poids (au lieu d'en Ã©teindre)\n",
+    "\n",
+    "J'ai systÃ©matiquement comparÃ© Ã  deux autres approches : la persistence et la moyennes des lendemains des jours \"similaires\" dans tout le passÃ© ; Ã  chaque fois sans prÃ©diction du saut (sauf pour Neighbors : prÃ©diction basÃ©e sur les poids calculÃ©s).\n",
+    "\n",
+    "Ensuite j'affiche les erreurs, quelques courbes prÃ©vues/mesurÃ©es, quelques filaments puis les histogrammes de quelques poids. Concernant les graphes de filaments, la moitiÃ© gauche du graphe correspond aux jours similaires au jour courant, tandis que la moitiÃ© droite affiche les lendemains : ce sont donc les voisinages tels qu'utilisÃ©s dans l'algorithme.\n",
+    "\n",
+    "<h2 style=\"color:blue;font-size:2em\">Pollution par chauffage</h2>"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "indices = seq(as.Date(\"2015-01-18\"),as.Date(\"2015-01-24\"),\"days\")\n",
+    "p_ch_nn = getForecast(data,indices,\"Neighbors\",\"Neighbors\",simtype=\"mix\",same_season=FALSE,mix_strategy=\"mult\")\n",
+    "p_ch_pz = getForecast(data, indices, \"Persistence\", \"Zero\", same_day=TRUE)\n",
+    "p_ch_az = getForecast(data, indices, \"Average\", \"Zero\", memory=183)\n",
+    "#p_ch_zz = getForecast(data, indices, \"Zero\", \"Zero\")\n",
+    "#p_ch_l = getForecast(data, indices, \"Level\", same_day=FALSE)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "e_ch_nn = getError(data, p_ch_nn)\n",
+    "e_ch_pz = getError(data, p_ch_pz)\n",
+    "e_ch_az = getError(data, p_ch_az)\n",
+    "#e_ch_zz = getError(data, p_ch_zz)\n",
+    "#e_ch_l = getError(data, p_ch_l)\n",
+    "options(repr.plot.width=9, repr.plot.height=6)\n",
+    "plotError(list(e_ch_nn, e_ch_pz, e_ch_az), cols=c(1,2,colors()[258]))\n",
+    "\n",
+    "#Noir: neighbors, rouge: persistence, vert: moyenne"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "La mÃ©thode Neighbors fait assez nettement mieux que les autres dans ce cas."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "par(mfrow=c(1,2))\n",
+    "options(repr.plot.width=9, repr.plot.height=4)\n",
+    "plotPredReal(data, p_ch_nn, 3)\n",
+    "plotPredReal(data, p_ch_nn, 4)\n",
+    "\n",
+    "#Bleu: prÃ©vue, noir: rÃ©alisÃ©e"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "PrÃ©dictions d'autant plus lisses que le jour Ã  prÃ©voir est atypique (polluÃ©)."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "par(mfrow=c(1,2))\n",
+    "plotFilaments(data, p_ch_nn$getIndexInData(3))\n",
+    "plotFilaments(data, p_ch_nn$getIndexInData(4))"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Beaucoup de courbes similaires dans le cas peu polluÃ©, trÃ¨s peu pour un jour polluÃ©."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "par(mfrow=c(1,3))\n",
+    "plotSimils(p_ch_nn, 3)\n",
+    "plotSimils(p_ch_nn, 4)\n",
+    "plotSimils(p_ch_nn, 5)\n",
+    "\n",
+    "#Non polluÃ© Ã  gauche, polluÃ© au milieu, autre polluÃ© Ã  droite"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "La plupart des poids trÃ¨s proches de zÃ©ro ; pas pour le jour 5 : autre type de jour, cf. ci-dessous."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "par(mfrow=c(1,2))\n",
+    "plotPredReal(data, p_ch_nn, 5)\n",
+    "plotFilaments(data, p_ch_nn$getIndexInData(5))"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "<h2 style=\"color:blue;font-size:2em\">Pollution par Ã©pandage</h2>"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "indices = seq(as.Date(\"2015-03-15\"),as.Date(\"2015-03-21\"),\"days\")\n",
+    "p_ep_nn = getForecast(data,indices,\"Neighbors\",\"Neighbors\",simtype=\"mix\",same_season=FALSE,mix_strategy=\"mult\")\n",
+    "p_ep_pz = getForecast(data, indices, \"Persistence\", \"Zero\", same_day=TRUE)\n",
+    "p_ep_az = getForecast(data, indices, \"Average\", \"Zero\", memory=183)\n",
+    "#p_ep_zz = getForecast(data, indices, \"Zero\", \"Zero\")\n",
+    "#p_ep_l = getForecast(data, indices, \"Level\", same_day=TRUE)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "e_ep_nn = getError(data, p_ep_nn)\n",
+    "e_ep_pz = getError(data, p_ep_pz)\n",
+    "e_ep_az = getError(data, p_ep_az)\n",
+    "#e_ep_zz = getError(data, p_ep_zz)\n",
+    "#e_ep_l = getError(data, p_ep_l)\n",
+    "options(repr.plot.width=9, repr.plot.height=6)\n",
+    "plotError(list(e_ep_nn, e_ep_pz, e_ep_az), cols=c(1,2,colors()[258]))\n",
+    "\n",
+    "#Noir: neighbors, rouge: persistence, vert: moyenne"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Cette fois les deux mÃ©thodes naÃ¯ves font en moyenne moins d'erreurs que Neighbors. PrÃ©diction trop difficile ?"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "par(mfrow=c(1,2))\n",
+    "options(repr.plot.width=9, repr.plot.height=4)\n",
+    "plotPredReal(data, p_ep_nn, 4)\n",
+    "plotPredReal(data, p_ep_nn, 6)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Ã gauche un jour \"bien\" prÃ©vu, Ã  droite le pic d'erreur (jour 6)."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "par(mfrow=c(1,2))\n",
+    "plotFilaments(data, p_ep_nn$getIndexInData(4))\n",
+    "plotFilaments(data, p_ep_nn$getIndexInData(6))"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "par(mfrow=c(1,2))\n",
+    "plotSimils(p_ep_nn, 4)\n",
+    "plotSimils(p_ep_nn, 6)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "MÃªme observation concernant les poids : concentrÃ©s prÃ¨s de zÃ©ro pour les prÃ©dictions avec peu de voisins."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Semaine non polluÃ©e"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "indices = seq(as.Date(\"2015-04-26\"),as.Date(\"2015-05-02\"),\"days\")\n",
+    "p_np_nn = getForecast(data,indices,\"Neighbors\",\"Neighbors\",simtype=\"mix\",same_season=FALSE,mix_strategy=\"mult\")\n",
+    "p_np_pz = getForecast(data, indices, \"Persistence\", \"Zero\", same_day=FALSE)\n",
+    "p_np_az = getForecast(data, indices, \"Average\", \"Zero\", memory=183)\n",
+    "#p_np_zz = getForecast(data, indices, \"Zero\", \"Zero\")\n",
+    "#p_np_l = getForecast(data, indices, \"Level\", same_day=FALSE)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "e_np_nn = getError(data, p_np_nn)\n",
+    "e_np_pz = getError(data, p_np_pz)\n",
+    "e_np_az = getError(data, p_np_az)\n",
+    "#e_np_zz = getError(data, p_np_zz)\n",
+    "#e_np_l = getError(data, p_np_l)\n",
+    "options(repr.plot.width=9, repr.plot.height=6)\n",
+    "plotError(list(e_np_nn, e_np_pz, e_np_az), cols=c(1,2,colors()[258]))\n",
+    "\n",
+    "#Noir: neighbors, rouge: persistence, vert: moyenne"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Performances des mÃ©thodes \"Average\" et \"Neighbors\" comparables ; mauvais rÃ©sultats pour la persistence."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "par(mfrow=c(1,2))\n",
+    "options(repr.plot.width=9, repr.plot.height=4)\n",
+    "plotPredReal(data, p_np_nn, 3)\n",
+    "plotPredReal(data, p_np_nn, 6)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Les \"bonnes\" prÃ©dictions (Ã  gauche) sont tout de mÃªme trop lissÃ©es."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "par(mfrow=c(1,2))\n",
+    "plotFilaments(data, p_np_nn$getIndexInData(3))\n",
+    "plotFilaments(data, p_np_nn$getIndexInData(6))"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Jours \"typiques\", donc beaucoup de voisins."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": false
+   },
+   "outputs": [],
+   "source": [
+    "par(mfrow=c(1,3))\n",
+    "plotSimils(p_np_nn, 3)\n",
+    "plotSimils(p_np_nn, 4)\n",
+    "plotSimils(p_np_nn, 6)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "RÃ©partition idÃ©ale des poids : quelques uns au-delÃ  de 0.3-0.4, le reste trÃ¨s proche de zÃ©ro."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Bilan\n",
+    "\n",
+    "ProblÃ¨me difficile : on ne fait guÃ¨re mieux qu'une naÃ¯ve moyenne des lendemains des jours similaires dans le passÃ©, ce qui n'est pas loin de prÃ©dire une sÃ©rie constante Ã©gale Ã  la derniÃ¨re valeur observÃ©e (mÃ©thode \"zÃ©ro\"). La persistence donne parfois de bons rÃ©sultats mais est trop instable (sensibilitÃ© Ã  l'argument <code>same_day</code>).\n",
+    "\n",
+    "Comment amÃ©liorer la mÃ©thode ?"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "R",
+   "language": "R",
+   "name": "ir"
+  },
+  "language_info": {
+   "codemirror_mode": "r",
+   "file_extension": ".r",
+   "mimetype": "text/x-r-source",
+   "name": "R",
+   "pygments_lexer": "r",
+   "version": "3.3.2"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}