[talweg.git] / reports / OLD / report_2017-02-02.Rnw

\documentclass[a4paper,12pt]{article}
\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}

\renewcommand*\familydefault{\sfdefault}

\marginparwidth 0pt
\oddsidemargin 0pt
\evensidemargin 0pt
\marginparsep 0pt
\topmargin 0pt
\textwidth 16cm
\textheight 23cm
\parindent 5mm

\begin{document}

\section{Package R "ppmfun"}

Le package $-$ Predict PM10 with FUNctional methods $-$ contient le code permettant de (re)lancer
les expériences numériques décrites dans ce document. La fonction principale \emph{predictPM10}
se divise en trois parties, décrites successivement au cours des trois paragraphes suivants.\\

<<setup, out.width='7cm', out.height='7cm'>>=
#Chargement de la librairie (après compilation, "R CMD INSTALL ppmfun/")
library(ppmfun)
@

Note : sur la base de nos dernières expériences, on considère que
\begin{itemize}
  \item on ne touche pas à la fenêtre obtenue par optim() ;}
  \item on oublie la méthode consistant à prédire forme et niveau de manière complètement
    déconnectée : il faut relier les deux.
\end{itemize}

\subsection{Acquisition des données}

Compte-tenu de la nature hétérogène des données utilisées $-$ fonctionnelles pour les PM10,
vectorielles pour les variables exogènes $-$, celles-ci sont organisées sous forme d'une liste
\emph{data}, la $i^{eme}$ cellule correspondant aux données disponibles au $i^{eme}$ jour à
l'heure $H$ de prédiction choisie (1h00, 8h00 ou 14h00) : c'est-à-dire les valeurs des PM10 de
$H-24h$ à $H-1H$, ainsi que les variables météo prédites pour la période de $1h00$ à $0h$ du
jour courant (sauf si on prédit à 0h : on prend alors les valeurs mesurées de la veille).\\

Exemple :\\
<<data>>=
#Le premier argument indique la zone horaire souhaitée ; "GMT" ou "local"
#pour l'heure française, ou tout autre fuseau horaire.
data = getData("local", "7h")
@

\subsection{Prédiction}

Deux types de prévisions du prochain bloc de $24h$ sont à distinguer :
\begin{itemize}
  \item prévision de la forme (centrée) ;
  \item prévision du saut d'une fin de série au début de la suivante.
\end{itemize}

\noindent Il faut ainsi préciser à la fois une méthode de prévision de forme ("Persistence" et
"Neighbors" implémentées), et une méthode de prédiction de saut ("Zero", "Persistence" ou
"Neighbors"). On détaille surtout la méthode à voisins ci-après.\\

\begin{enumerate}
  \item \textbf{Préparation des données} : calcul des niveaux sur 24h, fenêtrage si demandé
    (paramètre "memory").
  \item \textbf{Optimisation des paramètres d'échelle} : via la fonction \emph{optim()}
    minimisant la somme des 45 dernières erreurs jounalières L2.
  \item \textbf{Prédiction finale} : une fois le (ou les, si "simtype" vaut "mix") paramètre
    d'échelle $h$ déterminé, les similarités sont évaluées sur les variables exogènes et/ou
    endogènes, sous la forme $s(i,j) = \mbox{exp}\left(-\frac{\mbox{dist}^2(i,j)}{h^2}\right)$.
    La formule indiquée plus haut dans le rapport est alors appliquée.
\end{enumerate}

\subsection{Calcul des erreurs}

Pour chacun des instants à prévoir jusqu'à minuit du jour courant, on calcule l'erreur moyenne
sur tous les instants similaires du passé (sur la plage prédite). Trois
types d'erreurs sont considérées :
\begin{itemize}
  \item l'erreur "abs" égale à la valeur absolue moyenne entre la mesure et la prédiction ;
  \item l'erreur "MAPE" égale à l'erreur absolue normalisée par la mesure.
  \item l'erreur "RMSE" égale à la racine carrée de l'erreur quadratique moyenne.
\end{itemize}

\subsection{Expériences numériques}

%, fig.show='hold'>>=
<<xp1, out.width='18cm', out.height='6cm'>>=
p_endo = predictPM10(data, 2200, 2230, 0,0, "Neighbors", "Neighbors", simtype="endo")
p_exo = predictPM10(data, 2200, 2230, 0,0, "Neighbors", "Neighbors", simtype="exo")
p_mix = predictPM10(data, 2200, 2230, 0,0, "Neighbors", "Neighbors", simtype="mix")
p = c(p_endo, p_exo, p_mix)
yrange_MAPE = range(p_mix$errors$MAPE, p_endo$errors$MAPE, p_exo$errors$MAPE)
yrange_abs = range(p_mix$errors$abs, p_endo$errors$abs, p_exo$errors$abs)
yrange_RMSE = range(p_mix$errors$RMSE, p_endo$errors$RMSE, p_exo$errors$RMSE)
ranges = c(yrange_MAPE,yrange_abs,yrange_RMSE)
par(mfrow=c(1,3))
titles = paste("Erreur",c("MAPE","abs","RMSE"))
for (i in 1:3) #error type (MAPE,abs,RMSE)
{
  for (j in 1:3) #model (mix,endo,exo)
  {
    plot(p[j]$errors[[i]], type="l", col=j, main=titles[i], xlab="Temps",
      ylab="Erreur", ylim=ranges[i])
    par(new=TRUE)
  }
}

#Ne tenir compte que des similarités sur les variables exogènes semble
#conduire à l'erreur la plus faible.
@

<<xp2, out.width='18cm', out.height='6cm'>>=
p_nn = predictPM10(data, 2200, 2230, 0, 0, "Neighbors", "Neighbors", sameSeaon=TRUE)
p_np = predictPM10(data, 2200, 2230, 0, 0, "Neighbors", "Persistence", sameSeaon=TRUE)
p_nz = predictPM10(data, 2200, 2230, 0, 0, "Neighbors", "Zero", sameSeaon=TRUE)
p_pp = predictPM10(data, 2200, 2230, 0, 0, "Persistence", "Persistence")
p_pz = predictPM10(data, 2200, 2230, 0, 0, "Persistence", "Zero")
p = c(p_nn, p_np, p_nz, p_pp, p_pz)
yrange_MAPE = range(p_nn$errors$MAPE, p_nz$errors$MAPE, p_np$errors$MAPE, p_pp$errors$MAPE, p_pz$errors$MAPE)
yrange_abs = range(p_nn$errors$abs, p_nz$errors$abs, p_np$errors$abs, p_pp$errors$abs, p_pz$errors$abs)
yrange_RMSE = range(p_nn$errors$RMSE, p_nz$errors$RMSE, p_np$errors$RMSE, p_pp$errors$RMSE, p_pz$errors$RMSE)
ranges = c(yrange_MAPE,yrange_abs,yrange_RMSE)
par(mfrow=c(1,3))
for (i in 1:3) #error type (MAPE,abs,RMSE)
{
  for (j in 1:5) #model (nn,np,nz,pp,pz)
  {
    plot(p[j]$errors[[i]], type="l", col=j, main=titles[i], xlab="Temps",
      ylab="Erreur", ylim=ranges[i])
    if (j<5)
      par(new=TRUE)
  }
}

#Meilleurs results: nn et nz (np moins bon)
@

%%TODO: analyse sur les trois périodes indiquées par Michel ; simtype=="exo" par defaut
16/03/2015
p_nn_epandage = predictPM10(data, 2200, 2200, 0, 0, "Neighbors", "Neighbors", sameSeaon=FALSE)
19/01/2015
p_nn_chauffage = predictPM10(data, 2200, 2200, 0, 0, "Neighbors", "Neighbors", sameSeaon=FALSE)
23/02/2015
p_nn_nonpollue = predictPM10(data, 2200, 2200, 0, 0, "Neighbors", "Neighbors", sameSeaon=FALSE)

\subsection{Suite du travail}

Le type de jour n'est pas pris en compte dans la recherche de voisins ; cela diminuerait
nettement le nombre de similarités retenues, mais pourrait significativement améliorer les
prévisions. \textcolor{blue}{OK : on le prend désormais en compte}\\

\noindent Il serait intéressant également de disposer de plusieurs méthodes de prédiction, pour
par exemple les agréger à l'aide de méthodes similaires à celles du précédent contrat.
\textcolor{blue}{OK : on commence à en avoir quelques-unes}

\end{document}
Commit	Line	Data
	1	\documentclass[a4paper,12pt]{article}
	2	\usepackage[utf8]{inputenc}
	3	\usepackage[T1]{fontenc}
	4
	5	\renewcommand*\familydefault{\sfdefault}
	6
	7	\marginparwidth 0pt
	8	\oddsidemargin 0pt
	9	\evensidemargin 0pt
	10	\marginparsep 0pt
	11	\topmargin 0pt
	12	\textwidth 16cm
	13	\textheight 23cm
	14	\parindent 5mm
	15
	16	\begin{document}
	17
	18	\section{Package R "ppmfun"}
	19
	20	Le package $-$ Predict PM10 with FUNctional methods $-$ contient le code permettant de (re)lancer
	21	les expériences numériques décrites dans ce document. La fonction principale \emph{predictPM10}
	22	se divise en trois parties, décrites successivement au cours des trois paragraphes suivants.\\
	23
	24	<<setup, out.width='7cm', out.height='7cm'>>=
	25	#Chargement de la librairie (après compilation, "R CMD INSTALL ppmfun/")
	26	library(ppmfun)
	27	@
	28
	29	Note : sur la base de nos dernières expériences, on considère que
	30	\begin{itemize}
	31	\item on ne touche pas à la fenêtre obtenue par optim() ;}
	32	\item on oublie la méthode consistant à prédire forme et niveau de manière complètement
	33	déconnectée : il faut relier les deux.
	34	\end{itemize}
	35
	36	\subsection{Acquisition des données}
	37
	38	Compte-tenu de la nature hétérogène des données utilisées $-$ fonctionnelles pour les PM10,
	39	vectorielles pour les variables exogènes $-$, celles-ci sont organisées sous forme d'une liste
	40	\emph{data}, la $i^{eme}$ cellule correspondant aux données disponibles au $i^{eme}$ jour à
	41	l'heure $H$ de prédiction choisie (1h00, 8h00 ou 14h00) : c'est-à-dire les valeurs des PM10 de
	42	$H-24h$ à $H-1H$, ainsi que les variables météo prédites pour la période de $1h00$ à $0h$ du
	43	jour courant (sauf si on prédit à 0h : on prend alors les valeurs mesurées de la veille).\\
	44
	45	Exemple :\\
	46	<<data>>=
	47	#Le premier argument indique la zone horaire souhaitée ; "GMT" ou "local"
	48	#pour l'heure française, ou tout autre fuseau horaire.
	49	data = getData("local", "7h")
	50	@
	51
	52	\subsection{Prédiction}
	53
	54	Deux types de prévisions du prochain bloc de $24h$ sont à distinguer :
	55	\begin{itemize}
	56	\item prévision de la forme (centrée) ;
	57	\item prévision du saut d'une fin de série au début de la suivante.
	58	\end{itemize}
	59
	60	\noindent Il faut ainsi préciser à la fois une méthode de prévision de forme ("Persistence" et
	61	"Neighbors" implémentées), et une méthode de prédiction de saut ("Zero", "Persistence" ou
	62	"Neighbors"). On détaille surtout la méthode à voisins ci-après.\\
	63
	64	\begin{enumerate}
	65	\item \textbf{Préparation des données} : calcul des niveaux sur 24h, fenêtrage si demandé
	66	(paramètre "memory").
	67	\item \textbf{Optimisation des paramètres d'échelle} : via la fonction \emph{optim()}
	68	minimisant la somme des 45 dernières erreurs jounalières L2.
	69	\item \textbf{Prédiction finale} : une fois le (ou les, si "simtype" vaut "mix") paramètre
	70	d'échelle $h$ déterminé, les similarités sont évaluées sur les variables exogènes et/ou
	71	endogènes, sous la forme $s(i,j) = \mbox{exp}\left(-\frac{\mbox{dist}^2(i,j)}{h^2}\right)$.
	72	La formule indiquée plus haut dans le rapport est alors appliquée.
	73	\end{enumerate}
	74
	75	\subsection{Calcul des erreurs}
	76
	77	Pour chacun des instants à prévoir jusqu'à minuit du jour courant, on calcule l'erreur moyenne
	78	sur tous les instants similaires du passé (sur la plage prédite). Trois
	79	types d'erreurs sont considérées :
	80	\begin{itemize}
	81	\item l'erreur "abs" égale à la valeur absolue moyenne entre la mesure et la prédiction ;
	82	\item l'erreur "MAPE" égale à l'erreur absolue normalisée par la mesure.
	83	\item l'erreur "RMSE" égale à la racine carrée de l'erreur quadratique moyenne.
	84	\end{itemize}
	85
	86	\subsection{Expériences numériques}
	87
	88	%, fig.show='hold'>>=
	89	<<xp1, out.width='18cm', out.height='6cm'>>=
	90	p_endo = predictPM10(data, 2200, 2230, 0,0, "Neighbors", "Neighbors", simtype="endo")
	91	p_exo = predictPM10(data, 2200, 2230, 0,0, "Neighbors", "Neighbors", simtype="exo")
	92	p_mix = predictPM10(data, 2200, 2230, 0,0, "Neighbors", "Neighbors", simtype="mix")
	93	p = c(p_endo, p_exo, p_mix)
	94	yrange_MAPE = range(p_mix$errors$MAPE, p_endo$errors$MAPE, p_exo$errors$MAPE)
	95	yrange_abs = range(p_mix$errors$abs, p_endo$errors$abs, p_exo$errors$abs)
	96	yrange_RMSE = range(p_mix$errors$RMSE, p_endo$errors$RMSE, p_exo$errors$RMSE)
	97	ranges = c(yrange_MAPE,yrange_abs,yrange_RMSE)
	98	par(mfrow=c(1,3))
	99	titles = paste("Erreur",c("MAPE","abs","RMSE"))
	100	for (i in 1:3) #error type (MAPE,abs,RMSE)
	101	{
	102	for (j in 1:3) #model (mix,endo,exo)
	103	{
	104	plot(p[j]$errors[[i]], type="l", col=j, main=titles[i], xlab="Temps",
	105	ylab="Erreur", ylim=ranges[i])
	106	par(new=TRUE)
	107	}
	108	}
	109
	110	#Ne tenir compte que des similarités sur les variables exogènes semble
	111	#conduire à l'erreur la plus faible.
	112	@
	113
	114	<<xp2, out.width='18cm', out.height='6cm'>>=
	115	p_nn = predictPM10(data, 2200, 2230, 0, 0, "Neighbors", "Neighbors", sameSeaon=TRUE)
	116	p_np = predictPM10(data, 2200, 2230, 0, 0, "Neighbors", "Persistence", sameSeaon=TRUE)
	117	p_nz = predictPM10(data, 2200, 2230, 0, 0, "Neighbors", "Zero", sameSeaon=TRUE)
	118	p_pp = predictPM10(data, 2200, 2230, 0, 0, "Persistence", "Persistence")
	119	p_pz = predictPM10(data, 2200, 2230, 0, 0, "Persistence", "Zero")
	120	p = c(p_nn, p_np, p_nz, p_pp, p_pz)
	121	yrange_MAPE = range(p_nn$errors$MAPE, p_nz$errors$MAPE, p_np$errors$MAPE, p_pp$errors$MAPE, p_pz$errors$MAPE)
	122	yrange_abs = range(p_nn$errors$abs, p_nz$errors$abs, p_np$errors$abs, p_pp$errors$abs, p_pz$errors$abs)
	123	yrange_RMSE = range(p_nn$errors$RMSE, p_nz$errors$RMSE, p_np$errors$RMSE, p_pp$errors$RMSE, p_pz$errors$RMSE)
	124	ranges = c(yrange_MAPE,yrange_abs,yrange_RMSE)
	125	par(mfrow=c(1,3))
	126	for (i in 1:3) #error type (MAPE,abs,RMSE)
	127	{
	128	for (j in 1:5) #model (nn,np,nz,pp,pz)
	129	{
	130	plot(p[j]$errors[[i]], type="l", col=j, main=titles[i], xlab="Temps",
	131	ylab="Erreur", ylim=ranges[i])
	132	if (j<5)
	133	par(new=TRUE)
	134	}
	135	}
	136
	137	#Meilleurs results: nn et nz (np moins bon)
	138	@
	139
	140	%%TODO: analyse sur les trois périodes indiquées par Michel ; simtype=="exo" par defaut
	141	16/03/2015
	142	p_nn_epandage = predictPM10(data, 2200, 2200, 0, 0, "Neighbors", "Neighbors", sameSeaon=FALSE)
	143	19/01/2015
	144	p_nn_chauffage = predictPM10(data, 2200, 2200, 0, 0, "Neighbors", "Neighbors", sameSeaon=FALSE)
	145	23/02/2015
	146	p_nn_nonpollue = predictPM10(data, 2200, 2200, 0, 0, "Neighbors", "Neighbors", sameSeaon=FALSE)
	147
	148	\subsection{Suite du travail}
	149
	150	Le type de jour n'est pas pris en compte dans la recherche de voisins ; cela diminuerait
	151	nettement le nombre de similarités retenues, mais pourrait significativement améliorer les
	152	prévisions. \textcolor{blue}{OK : on le prend désormais en compte}\\
	153
	154	\noindent Il serait intéressant également de disposer de plusieurs méthodes de prédiction, pour
	155	par exemple les agréger à l'aide de méthodes similaires à celles du précédent contrat.
	156	\textcolor{blue}{OK : on commence à en avoir quelques-unes}
	157
	158	\end{document}