X-Git-Url: https://git.auder.net/?a=blobdiff_plain;f=reports%2FOLD%2Freport_2017-02-02.Rnw;fp=reports%2FOLD%2Freport_2017-02-02.Rnw;h=bba8896b269788e769496a6763c4e05c71b0b628;hb=5daea0f76cfba71d02a0f8ebef619d6d3d9d1737;hp=0000000000000000000000000000000000000000;hpb=e64fcae579a969d17da0c05f02a8c67a626b9102;p=talweg.git

diff --git a/reports/OLD/report_2017-02-02.Rnw b/reports/OLD/report_2017-02-02.Rnw
new file mode 100644
index 0000000..bba8896
--- /dev/null
+++ b/reports/OLD/report_2017-02-02.Rnw
@@ -0,0 +1,158 @@
+\documentclass[a4paper,12pt]{article}
+\usepackage[utf8]{inputenc}
+\usepackage[T1]{fontenc}
+
+\renewcommand*\familydefault{\sfdefault}
+
+\marginparwidth 0pt
+\oddsidemargin 0pt
+\evensidemargin 0pt
+\marginparsep 0pt
+\topmargin 0pt
+\textwidth 16cm
+\textheight 23cm
+\parindent 5mm
+
+\begin{document}
+
+\section{Package R "ppmfun"}
+
+Le package $-$ Predict PM10 with FUNctional methods $-$ contient le code permettant de (re)lancer
+les expÃ©riences numÃ©riques dÃ©crites dans ce document. La fonction principale \emph{predictPM10}
+se divise en trois parties, dÃ©crites successivement au cours des trois paragraphes suivants.\\
+
+<<setup, out.width='7cm', out.height='7cm'>>=
+#Chargement de la librairie (aprÃ¨s compilation, "R CMD INSTALL ppmfun/")
+library(ppmfun)
+@
+
+Note : sur la base de nos derniÃ¨res expÃ©riences, on considÃ¨re que
+\begin{itemize}
+  \item on ne touche pas Ã  la fenÃªtre obtenue par optim() ;}
+  \item on oublie la mÃ©thode consistant Ã  prÃ©dire forme et niveau de maniÃ¨re complÃ¨tement
+    dÃ©connectÃ©e : il faut relier les deux.
+\end{itemize}
+
+\subsection{Acquisition des donnÃ©es}
+
+Compte-tenu de la nature hÃ©tÃ©rogÃ¨ne des donnÃ©es utilisÃ©es $-$ fonctionnelles pour les PM10,
+vectorielles pour les variables exogÃ¨nes $-$, celles-ci sont organisÃ©es sous forme d'une liste
+\emph{data}, la $i^{eme}$ cellule correspondant aux donnÃ©es disponibles au $i^{eme}$ jour Ã 
+l'heure $H$ de prÃ©diction choisie (1h00, 8h00 ou 14h00) : c'est-Ã -dire les valeurs des PM10 de
+$H-24h$ Ã  $H-1H$, ainsi que les variables mÃ©tÃ©o prÃ©dites pour la pÃ©riode de $1h00$ Ã  $0h$ du
+jour courant (sauf si on prÃ©dit Ã  0h : on prend alors les valeurs mesurÃ©es de la veille).\\
+
+Exemple :\\
+<<data>>=
+#Le premier argument indique la zone horaire souhaitÃ©e ; "GMT" ou "local"
+#pour l'heure franÃ§aise, ou tout autre fuseau horaire.
+data = getData("local", "7h")
+@
+
+\subsection{PrÃ©diction}
+
+Deux types de prÃ©visions du prochain bloc de $24h$ sont Ã  distinguer :
+\begin{itemize}
+  \item prÃ©vision de la forme (centrÃ©e) ;
+  \item prÃ©vision du saut d'une fin de sÃ©rie au dÃ©but de la suivante.
+\end{itemize}
+
+\noindent Il faut ainsi prÃ©ciser Ã  la fois une mÃ©thode de prÃ©vision de forme ("Persistence" et
+"Neighbors" implÃ©mentÃ©es), et une mÃ©thode de prÃ©diction de saut ("Zero", "Persistence" ou
+"Neighbors"). On dÃ©taille surtout la mÃ©thode Ã  voisins ci-aprÃ¨s.\\
+
+\begin{enumerate}
+  \item \textbf{PrÃ©paration des donnÃ©es} : calcul des niveaux sur 24h, fenÃªtrage si demandÃ©
+    (paramÃ¨tre "memory").
+  \item \textbf{Optimisation des paramÃ¨tres d'Ã©chelle} : via la fonction \emph{optim()}
+    minimisant la somme des 45 derniÃ¨res erreurs jounaliÃ¨res L2.
+  \item \textbf{PrÃ©diction finale} : une fois le (ou les, si "simtype" vaut "mix") paramÃ¨tre
+    d'Ã©chelle $h$ dÃ©terminÃ©, les similaritÃ©s sont Ã©valuÃ©es sur les variables exogÃ¨nes et/ou
+    endogÃ¨nes, sous la forme $s(i,j) = \mbox{exp}\left(-\frac{\mbox{dist}^2(i,j)}{h^2}\right)$.
+    La formule indiquÃ©e plus haut dans le rapport est alors appliquÃ©e.
+\end{enumerate}
+
+\subsection{Calcul des erreurs}
+
+Pour chacun des instants Ã  prÃ©voir jusqu'Ã  minuit du jour courant, on calcule l'erreur moyenne
+sur tous les instants similaires du passÃ© (sur la plage prÃ©dite). Trois
+types d'erreurs sont considÃ©rÃ©es :
+\begin{itemize}
+  \item l'erreur "abs" Ã©gale Ã  la valeur absolue moyenne entre la mesure et la prÃ©diction ;
+  \item l'erreur "MAPE" Ã©gale Ã  l'erreur absolue normalisÃ©e par la mesure.
+  \item l'erreur "RMSE" Ã©gale Ã  la racine carrÃ©e de l'erreur quadratique moyenne.
+\end{itemize}
+
+\subsection{ExpÃ©riences numÃ©riques}
+
+%, fig.show='hold'>>=
+<<xp1, out.width='18cm', out.height='6cm'>>=
+p_endo = predictPM10(data, 2200, 2230, 0,0, "Neighbors", "Neighbors", simtype="endo")
+p_exo = predictPM10(data, 2200, 2230, 0,0, "Neighbors", "Neighbors", simtype="exo")
+p_mix = predictPM10(data, 2200, 2230, 0,0, "Neighbors", "Neighbors", simtype="mix")
+p = c(p_endo, p_exo, p_mix)
+yrange_MAPE = range(p_mix$errors$MAPE, p_endo$errors$MAPE, p_exo$errors$MAPE)
+yrange_abs = range(p_mix$errors$abs, p_endo$errors$abs, p_exo$errors$abs)
+yrange_RMSE = range(p_mix$errors$RMSE, p_endo$errors$RMSE, p_exo$errors$RMSE)
+ranges = c(yrange_MAPE,yrange_abs,yrange_RMSE)
+par(mfrow=c(1,3))
+titles = paste("Erreur",c("MAPE","abs","RMSE"))
+for (i in 1:3) #error type (MAPE,abs,RMSE)
+{
+  for (j in 1:3) #model (mix,endo,exo)
+  {
+    plot(p[j]$errors[[i]], type="l", col=j, main=titles[i], xlab="Temps",
+      ylab="Erreur", ylim=ranges[i])
+    par(new=TRUE)
+  }
+}
+
+#Ne tenir compte que des similaritÃ©s sur les variables exogÃ¨nes semble
+#conduire Ã  l'erreur la plus faible.
+@
+
+<<xp2, out.width='18cm', out.height='6cm'>>=
+p_nn = predictPM10(data, 2200, 2230, 0, 0, "Neighbors", "Neighbors", sameSeaon=TRUE)
+p_np = predictPM10(data, 2200, 2230, 0, 0, "Neighbors", "Persistence", sameSeaon=TRUE)
+p_nz = predictPM10(data, 2200, 2230, 0, 0, "Neighbors", "Zero", sameSeaon=TRUE)
+p_pp = predictPM10(data, 2200, 2230, 0, 0, "Persistence", "Persistence")
+p_pz = predictPM10(data, 2200, 2230, 0, 0, "Persistence", "Zero")
+p = c(p_nn, p_np, p_nz, p_pp, p_pz)
+yrange_MAPE = range(p_nn$errors$MAPE, p_nz$errors$MAPE, p_np$errors$MAPE, p_pp$errors$MAPE, p_pz$errors$MAPE)
+yrange_abs = range(p_nn$errors$abs, p_nz$errors$abs, p_np$errors$abs, p_pp$errors$abs, p_pz$errors$abs)
+yrange_RMSE = range(p_nn$errors$RMSE, p_nz$errors$RMSE, p_np$errors$RMSE, p_pp$errors$RMSE, p_pz$errors$RMSE)
+ranges = c(yrange_MAPE,yrange_abs,yrange_RMSE)
+par(mfrow=c(1,3))
+for (i in 1:3) #error type (MAPE,abs,RMSE)
+{
+  for (j in 1:5) #model (nn,np,nz,pp,pz)
+  {
+    plot(p[j]$errors[[i]], type="l", col=j, main=titles[i], xlab="Temps",
+      ylab="Erreur", ylim=ranges[i])
+    if (j<5)
+      par(new=TRUE)
+  }
+}
+
+#Meilleurs results: nn et nz (np moins bon)
+@
+
+%%TODO: analyse sur les trois pÃ©riodes indiquÃ©es par Michel ; simtype=="exo" par defaut
+16/03/2015
+p_nn_epandage = predictPM10(data, 2200, 2200, 0, 0, "Neighbors", "Neighbors", sameSeaon=FALSE)
+19/01/2015
+p_nn_chauffage = predictPM10(data, 2200, 2200, 0, 0, "Neighbors", "Neighbors", sameSeaon=FALSE)
+23/02/2015
+p_nn_nonpollue = predictPM10(data, 2200, 2200, 0, 0, "Neighbors", "Neighbors", sameSeaon=FALSE)
+
+\subsection{Suite du travail}
+
+Le type de jour n'est pas pris en compte dans la recherche de voisins ; cela diminuerait
+nettement le nombre de similaritÃ©s retenues, mais pourrait significativement amÃ©liorer les
+prÃ©visions. \textcolor{blue}{OK : on le prend dÃ©sormais en compte}\\
+
+\noindent Il serait intÃ©ressant Ã©galement de disposer de plusieurs mÃ©thodes de prÃ©diction, pour
+par exemple les agrÃ©ger Ã  l'aide de mÃ©thodes similaires Ã  celles du prÃ©cÃ©dent contrat.
+\textcolor{blue}{OK : on commence Ã  en avoir quelques-unes}
+
+\end{document}