From 4d376294a6286ca1548d978055731dac175ffa3a Mon Sep 17 00:00:00 2001 From: Benjamin Auder Date: Tue, 18 Apr 2017 16:18:18 +0200 Subject: [PATCH] refactor reports.gj, prepare also 13h report --- pkg/vignettes/talweg.html | 294 +++++++++++++++++++++++ reports/Experiments.gj | 255 ++++++++++++++++++++ reports/{report.gj => OLD/report_OLD.gj} | 167 +++---------- reports/PackageR.gj | 109 +++++++++ reports/report_P7_H17.zip | 1 - reports/run.sh | 12 +- 6 files changed, 703 insertions(+), 135 deletions(-) create mode 100644 pkg/vignettes/talweg.html create mode 100644 reports/Experiments.gj rename reports/{report.gj => OLD/report_OLD.gj} (66%) create mode 100644 reports/PackageR.gj delete mode 100644 reports/report_P7_H17.zip diff --git a/pkg/vignettes/talweg.html b/pkg/vignettes/talweg.html new file mode 100644 index 0000000..aa9cf1c --- /dev/null +++ b/pkg/vignettes/talweg.html @@ -0,0 +1,294 @@ + + + + + + + + + + + + + + + + +Vignette Title + + + + + + + + + + + + + + + + + +

Vignette Title

Vignette Author

2017-03-01

+ + + +

Vignettes are long form documentation commonly included in packages. Because they are part of the distribution of the package, they need to be as compact as possible. The html_vignette output type provides a custom style sheet (and tweaks some options) to ensure that the resulting html is as small as possible. The html_vignette format:

Never uses retina figures
Has a smaller default figure size
Uses a custom CSS stylesheet instead of the default Twitter Bootstrap style

Vignette Info

Note the various macros within the vignette section of the metadata block above. These are required in order to instruct R how to build the vignette. Note that you should change the title field and the \VignetteIndexEntry to match the title of your vignette.

Styles

The html_vignette template includes a basic CSS theme. To override this theme you can specify your own CSS in the document metadata as follows:

output: 
+  rmarkdown::html_vignette:
+    css: mystyles.css

Figures

The figure sizes have been customised so that you can easily put two images side-by-side.

plot(1:10)
+plot(10:1)

You can enable figure captions by fig_caption: yes in YAML:

output:
+  rmarkdown::html_vignette:
+    fig_caption: yes

Then you can use the chunk option fig.cap = "Your figure caption." in knitr.

More Examples

You can write math expressions, e.g. $Y = X\beta + \epsilon$, footnotes¹, and tables, e.g.Â using knitr::kable().

+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +

	mpg	cyl	disp	hp	drat	wt	qsec	vs	am	gear	carb
Mazda RX4	21.0	6	160.0	110	3.90	2.620	16.46	0	1	4	4
Mazda RX4 Wag	21.0	6	160.0	110	3.90	2.875	17.02	0	1	4	4
Datsun 710	22.8	4	108.0	93	3.85	2.320	18.61	1	1	4	1
Hornet 4 Drive	21.4	6	258.0	110	3.08	3.215	19.44	1	0	3	1
Hornet Sportabout	18.7	8	360.0	175	3.15	3.440	17.02	0	0	3	2
Valiant	18.1	6	225.0	105	2.76	3.460	20.22	1	0	3	1
Duster 360	14.3	8	360.0	245	3.21	3.570	15.84	0	0	3	4
Merc 240D	24.4	4	146.7	62	3.69	3.190	20.00	1	0	4	2
Merc 230	22.8	4	140.8	95	3.92	3.150	22.90	1	0	4	2
Merc 280	19.2	6	167.6	123	3.92	3.440	18.30	1	0	4	4

Also a quote using >:

+
âHe who gives up [code] safety for [code] speed deserves neither.â (via)
+

+ + + + + + + + diff --git a/reports/Experiments.gj b/reports/Experiments.gj new file mode 100644 index 0000000..0f102ad --- /dev/null +++ b/reports/Experiments.gj @@ -0,0 +1,255 @@ +----- +# RÃ©sultats numÃ©riques + +Cette partie montre les rÃ©sultats obtenus avec des variantes de l'algorithme dÃ©crit au +chapitre , en utilisant le package prÃ©sentÃ© Ã la section 3. Cet algorithme est +systÃ©matiquement comparÃ© Ã deux approches naÃ¯ves : + + * la moyenne des lendemains des jours "similaires" dans tout le passÃ©, c'est-Ã -dire +prÃ©diction = moyenne de tous les mardis passÃ©s si le jour courant est un lundi. + * la persistence, reproduisant le jour courant ou allant chercher le lendemain de la +derniÃ¨re journÃ©e "similaire" (mÃªme principe que ci-dessus ; argument "same\_day"). + +Concernant l'algorithme principal Ã voisins, trois variantes sont Ã©tudiÃ©es dans cette +partie : + + * avec simtype="mix" et raccordement "Neighbors" dans le cas "non local", i.e. on va +chercher des voisins n'importe oÃ¹ du moment qu'ils correspondent au premier Ã©lÃ©ment d'un +couple de deux jours consÃ©cutifs sans valeurs manquantes. + * avec simtype="endo" + raccordement "Neighbors" puis simtype="none" + raccordement +"Zero" (sans ajustement) dans le cas "local" : voisins de mÃªme niveau de pollution et +mÃªme saison. + +Pour chaque pÃ©riode retenue $-$ chauffage, Ã©pandage, semaine non polluÃ©e $-$ les erreurs +de prÃ©diction sont d'abord affichÃ©es, puis quelques graphes de courbes rÃ©alisÃ©es/prÃ©vues +(sur le jour "en moyenne le plus facile" Ã gauche, et "en moyenne le plus difficile" Ã +droite). Ensuite plusieurs types de graphes apportant des prÃ©cisions sur la nature et la +difficultÃ© du problÃ¨me viennent complÃ©ter ces premiÃ¨res courbes. Concernant les graphes +de filaments, la moitiÃ© gauche du graphe correspond aux jours similaires au jour courant, +tandis que la moitiÃ© droite affiche les lendemains : ce sont donc les voisinages tels +qu'utilisÃ©s dans l'algorithme. +<% +list_titles = ['Pollution par chauffage','Pollution par Ã©pandage','Semaine non polluÃ©e'] +list_indices = ['indices_ch', 'indices_ep', 'indices_np'] +%> +-----r +library(talweg) + +P = ${P} #instant de prÃ©vision +H = ${H} #horizon (en heures) + +ts_data = read.csv(system.file("extdata","pm10_mesures_H_loc_report.csv", + package="talweg")) +exo_data = read.csv(system.file("extdata","meteo_extra_noNAs.csv", + package="talweg")) +# NOTE: 'GMT' because DST gaps are filled and multiple values merged in +# above dataset. Prediction from P+1 to P+H included. +data = getData(ts_data, exo_data, input_tz = "GMT", working_tz="GMT", + predict_at=P) + +indices_ch = seq(as.Date("2015-01-18"),as.Date("2015-01-24"),"days") +indices_ep = seq(as.Date("2015-03-15"),as.Date("2015-03-21"),"days") +indices_np = seq(as.Date("2015-04-26"),as.Date("2015-05-02"),"days") +% for i in range(3): +----- +##

${list_titles[i]}

+${"##"} ${list_titles[i]} +-----r +p1 = computeForecast(data, ${list_indices[i]}, "Neighbors", "Neighbors", horizon=H, + simtype="mix", local=FALSE) +p2 = computeForecast(data, ${list_indices[i]}, "Neighbors", "Neighbors", horizon=H, + simtype="endo", local=TRUE) +p3 = computeForecast(data, ${list_indices[i]}, "Neighbors", "Zero", horizon=H, + simtype="none", local=TRUE) +p4 = computeForecast(data, ${list_indices[i]}, "Average", "Zero", horizon=H) +p5 = computeForecast(data, ${list_indices[i]}, "Persistence", "Zero", horizon=H, + same_day=${'TRUE' if loop.index < 2 else 'FALSE'}) +-----r +e1 = computeError(data, p1, H) +e2 = computeError(data, p2, H) +e3 = computeError(data, p3, H) +e4 = computeError(data, p4, H) +e5 = computeError(data, p5, H) +options(repr.plot.width=9, repr.plot.height=7) +plotError(list(e1, e5, e4, e2, e3), cols=c(1,2,colors()[258],4,6)) + +# noir: Neighbors non-local (p1), bleu: Neighbors local endo (p2), +# mauve: Neighbors local none (p3), vert: moyenne (p4), +# rouge: persistence (p5) + +sum_p123 = e1$abs$indices + e2$abs$indices + e3$abs$indices +i_np = which.min(sum_p123) #indice de (veille de) jour "facile" +i_p = which.max(sum_p123) #indice de (veille de) jour "difficile" +----- +% if i == 0: +L'erreur absolue deÌpasse 20 sur 1 aÌ 2 jours suivant les modeÌles (graphe en haut aÌ +droite). Sur cet exemple le modeÌle aÌ voisins "contraint" (local=TRUE) utilisant des +pondeÌrations baseÌes sur les similariteÌs de forme (simtype="endo") obtient en moyenne les +meilleurs reÌsultats, avec un MAPE restant en geÌneÌral infeÌrieur aÌ 30% de 8h aÌ 19h (7+1 aÌ +7+12 : graphe en bas aÌ gauche). +% elif i == 1: +Il est difficile dans ce cas de deÌterminer une meÌthode meilleure que les autres : elles +donnent toutes de plutoÌt mauvais reÌsultats, avec une erreur absolue moyenneÌe sur la +journeÌe deÌpassant presque toujours 15 (graphe en haut aÌ droite). +% else: +Dans ce cas plus favorable les intensiteÌ des erreurs absolues ont clairement diminueÌ : +elles restent souvent en dessous de 5. En revanche le MAPE moyen reste au-delaÌ de 20%, et +meÌme souvent plus de 30%. Comme dans le cas de l'eÌpandage on constate une croissance +globale de la courbe journalieÌre d'erreur absolue moyenne (en haut aÌ gauche) ; ceci peut +eÌtre duÌ au fait que l'on ajuste le niveau du jour aÌ preÌdire en le recollant sur la +dernieÌre valeur observeÌe. +% endif +-----r +options(repr.plot.width=9, repr.plot.height=4) +par(mfrow=c(1,2)) + +plotPredReal(data, p1, i_np); title(paste("PredReal p1 day",i_np)) +plotPredReal(data, p1, i_p); title(paste("PredReal p1 day",i_p)) + +plotPredReal(data, p2, i_np); title(paste("PredReal p2 day",i_np)) +plotPredReal(data, p2, i_p); title(paste("PredReal p2 day",i_p)) + +plotPredReal(data, p3, i_np); title(paste("PredReal p3 day",i_np)) +plotPredReal(data, p3, i_p); title(paste("PredReal p3 day",i_p)) + +# Bleu : prÃ©vue ; noir : rÃ©alisÃ©e +----- +% if i == 0: +Le jour "facile aÌ preÌvoir", aÌ gauche, se deÌcompose en deux modes : un leÌger vers 10h +(7+3), puis un beaucoup plus marqueÌ vers 19h (7+12). Ces deux modes sont retrouveÌs par +les trois variantes de l'algorithme aÌ voisins, bien que l'amplitude soit mal preÌdite. +Concernant le jour "difficile aÌ preÌvoir" (Ã droite) il y a deux pics en tout deÌbut et +toute fin de journeÌe (aÌ 9h et 23h), qui ne sont pas du tout anticipeÌs par les mÃ©thodes ; +la grande amplitude de ces pics explique alors l'intensiteÌ de l'erreur observeÌe. +% elif i == 1: +Dans le cas d'un jour "facile" aÌ preÌdire $-$ aÌ gauche $-$ la forme est plus ou moins +retrouveÌe, mais le niveau moyen est trop bas (courbe en bleu). Concernant le jour +"difficile" aÌ droite, non seulement la forme n'est pas anticipeÌe mais surtout le niveau +preÌdit est treÌs infeÌrieur au niveau de pollution observeÌ. Comme on le voit ci-dessous +cela deÌcoule d'un manque de voisins au comportement similaire. +% else: +La forme est raisonnablement retrouveÌe pour les meÌthodes "locales", l'autre version +lissant trop les preÌdictions. Le biais reste cependant important, surtout en fin de +journeÌe sur la courbes "difficile Ã prÃ©voir". +% endif +-----r +par(mfrow=c(1,2)) +f_np1 = computeFilaments(data, p1, i_np, plot=TRUE) + title(paste("Filaments p1 day",i_np)) +f_p1 = computeFilaments(data, p1, i_p, plot=TRUE) + title(paste("Filaments p1 day",i_p)) + +f_np2 = computeFilaments(data, p2, i_np, plot=TRUE) + title(paste("Filaments p2 day",i_np)) +f_p2 = computeFilaments(data, p2, i_p, plot=TRUE) + title(paste("Filaments p2 day",i_p)) +----- +% if i == 0: +Les voisins du jour courant (peÌriode de 24h allant de 8h aÌ 7h le lendemain) sont afficheÌs +avec un trait d'autant plus sombre qu'ils sont proches. On constate dans le cas non +contraint (en haut) une grande variabiliteÌ des lendemains, treÌs nette sur le graphe en +haut aÌ droite. Ceci indique une faible correÌlation entre la forme d'une courbe sur une +peÌriode de 24h et la forme sur les 24h suivantes ; **cette observation est la source des +difficulteÌs rencontreÌes par l'algorithme sur ce jeu de donneÌes.** +% elif i == 1: +Les observations sont les meÌmes qu'au paragraphe preÌceÌdent : trop de variabiliteÌ des +lendemains (et meÌme des voisins du jour courant). +% else: +Les graphes de filaments ont encore la meÌme allure, avec une assez grande variabiliteÌ +observeÌe. Cette observation est cependant trompeuse, comme l'indique plus bas le graphe +de variabiliteÌ relative. +% endif +-----r +par(mfrow=c(1,2)) +plotFilamentsBox(data, f_np1); title(paste("FilBox p1 day",i_np)) +plotFilamentsBox(data, f_p1); title(paste("FilBox p1 day",i_p)) + +# En pointilleÌs la courbe du jour courant + lendemain (aÌ preÌdire) +----- +% if i == 0: +Sur cette boxplot fonctionnelle (voir la fonction fboxplot() du package R "rainbow") on +constate essentiellement deux choses : le lendemain d'un voisin "normal" peut se reÌveÌler +eÌtre une courbe atypique, fort eÌloigneÌe de ce que l'on souhaite preÌdire (courbes bleue et +rouge aÌ gauche) ; et, dans le cas d'une courbe aÌ preÌdire atypique (aÌ droite) la plupart +des voisins sont trop eÌloigneÌs de la forme aÌ preÌdire et forcent ainsi un aplatissement de +la preÌdiction. +% elif i == 1: +On constate la preÌsence d'un voisin au lendemain compleÌtement atypique avec un pic en +deÌbut de journeÌe (courbe en vert aÌ gauche), et d'un autre pheÌnomeÌne semblable avec la +courbe rouge sur le graphe de droite. AjouteÌ au fait que le lendemain aÌ preÌvoir est +lui-meÌme un jour "hors norme", cela montre l'impossibiliteÌ de bien preÌvoir une courbe en +utilisant l'algorithme aÌ voisins. +% else: +On peut reÌappliquer les meÌmes remarques qu'auparavant sur les boxplots fonctionnels : +lendemains de voisins atypiques, courbe aÌ preÌvoir elle-meÌme leÌgeÌrement "hors norme". +% endif +-----r +par(mfrow=c(1,2)) +plotRelVar(data, f_np1); title(paste("StdDev p1 day",i_np)) +plotRelVar(data, f_p1); title(paste("StdDev p1 day",i_p)) + +plotRelVar(data, f_np2); title(paste("StdDev p2 day",i_np)) +plotRelVar(data, f_p2); title(paste("StdDev p2 day",i_p)) + +# VariabilitÃ© globale en rouge ; sur les voisins (+ lendemains) en noir +----- +% if i == 0: +Ces graphes viennent confirmer l'impression visuelle apreÌs observation des filaments. En +effet, la variabiliteÌ globale en rouge (eÌcart-type heure par heure sur l'ensemble des +couples "aujourd'hui/lendemain"du passeÌ) devrait rester nettement au-dessus de la +variabiliteÌ locale, calculeÌe respectivement sur un voisinage d'une soixantaine de jours +(pour p1) et d'une dizaine de jours (pour p2). Or on constate que ce n'est pas du tout le +cas sur la peÌriode "lendemain", sauf en partie pour p2 le jour 4 $-$ mais ce n'est pas +suffisant. +% elif i == 1: +Comme preÌceÌdemment les variabiliteÌs locales et globales sont confondues dans les parties +droites des graphes $-$ sauf pour la version "locale" sur le jour "facile"; mais cette +bonne proprieÌteÌ n'est pas suffisante si l'on ne trouve pas les bons poids aÌ appliquer. +% else: +Cette fois la situation ideÌale est observeÌe : la variabiliteÌ globale est nettement +au-dessus de la variabiliteÌ locale. Bien que cela ne suffise pas aÌ obtenir de bonnes +preÌdictions de forme, on constate au moins l'ameÌlioration dans la preÌdiction du niveau. +% endif +-----r +par(mfrow=c(1,2)) +plotSimils(p1, i_np); title(paste("Weights p1 day",i_np)) +plotSimils(p1, i_p); title(paste("Weights p1 day",i_p)) + +plotSimils(p2, i_np); title(paste("Weights p2 day",i_np)) +plotSimils(p2, i_p); title(paste("Weights p2 day",i_p)) +----- +% if i == 0: +Les poids se concentrent preÌs de 0 dans le cas "non local" (p1), et se reÌpartissent assez +uniformeÌment dans [ 0, 0.2 ] dans le cas "local" (p2). C'est ce que l'on souhaite +observer pour eÌviter d'effectuer une simple moyenne. +% elif i == 1: +En comparaison avec le pragraphe preÌceÌdent on retrouve le meÌme (bon) comportement des +poids pour la version "non locale". En revanche la feneÌtre optimiseÌe est trop grande sur +le jour "facile" pour la meÌthode "locale" (voir affichage ci-dessous) : il en reÌsulte des +poids tous semblables autour de 0.084, l'algorithme effectue donc une moyenne simple $-$ +expliquant pourquoi les courbes mauve et bleue sont treÌs proches sur le graphe d'erreurs. +% else: +Concernant les poids en revanche, deux cas a priori mauvais se cumulent : + + * les poids dans le cas "non local" ne sont pas assez concentreÌs autour de 0, menant aÌ +un lissage trop fort $-$ comme observeÌ sur les graphes des courbes reÌaliseÌes/preÌvues ; + * les poids dans le cas "local" sont trop semblables (aÌ cause de la trop grande feneÌtre +optimiseÌe par validation croiseÌe, cf. ci-dessous), reÌsultant encore en une moyenne simple +$-$ mais sur moins de jours, plus proches du jour courant. +% endif +-----r +# FenÃªtres sÃ©lectionnÃ©es dans ]0,7] : +# "non-local" 2 premiÃ¨res lignes, "local" ensuite +p1$getParams(i_np)$window +p1$getParams(i_p)$window + +p2$getParams(i_np)$window +p2$getParams(i_p)$window +% endfor +----- +${"##"} Bilan + +Nos algorithmes aÌ voisins ne sont pas adapteÌs aÌ ce jeu de donneÌes ouÌ la forme varie +consideÌrablement d'un jour aÌ l'autre. Toutefois, un espoir reste permis par exemple en +aggreÌgeant les courbes spatialement (sur plusieurs stations situeÌes dans la meÌme +agglomeÌration ou dans une meÌme zone). diff --git a/reports/report.gj b/reports/OLD/report_OLD.gj similarity index 66% rename from reports/report.gj rename to reports/OLD/report_OLD.gj index e499ece..b8b9233 100644 --- a/reports/report.gj +++ b/reports/OLD/report_OLD.gj @@ -1,125 +1,16 @@ ----- -# Package R "talweg" +# RÃ©sultats numÃ©riques -Le package $-$ Time-series sAmpLes forecasted With ExoGenous variables $-$ contient le -code permettant de (re)lancer les expÃ©riences numÃ©riques dÃ©crites dans cette partie et la -suivante. Les fonctions principales sont respectivement - - * **getData()** pour construire un objet R contenant les donnÃ©es Ã partir de fichiers -CSV (extraits de bases de donnÃ©es). Le format choisi en R est une classe R6 (du package -du mÃªme nom) exposant en particulier les mÃ©thodes *getSerie(i)* et *getExo(i)* qui -renvoient respectivement la $i^{eme}$ sÃ©rie de 24h et les variables exogÃ¨nes (mesurÃ©es) -correspondantes. Voir ?Data pour plus d'information, une fois le package chargÃ©. - * **computeForecast()** pour calculer des prÃ©dictions sur une certaine plage temporelle -contenue dans *data <- getData(...)* - * **computeError()** pour Ã©valuer les erreurs commises par diffÃ©rentes mÃ©thodes. - -Le package contient en outre diverses fonctions graphiques *plotXXX()*, utilisÃ©es dans la -partie suivante. ------r -# Chargement de la librairie (aprÃ¨s compilation, "R CMD INSTALL .") -library(talweg) - -# Acquisition des donnÃ©es (depuis les fichiers CSV) -ts_data <- read.csv(system.file("extdata","pm10_mesures_H_loc.csv", - package="talweg")) -exo_data <- read.csv(system.file("extdata","meteo_extra_noNAs.csv", - package="talweg")) -data <- getData(ts_data, exo_data, input_tz="GMT", - date_format="%d/%m/%Y %H:%M", working_tz="GMT", - predict_at=7, limit=120) -# Plus de dÃ©tails Ã la section 1 ci-aprÃ¨s. - -# PrÃ©diction de 10 courbes (jours 102 Ã 111) -pred <- computeForecast(data, 101:110, "Persistence", "Zero", memory=50, - horizon=12, ncores=1) -# Plus de dÃ©tails Ã la section 2 ci-aprÃ¨s. - -# Calcul des erreurs (sur un horizon arbitraire <= horizon de prÃ©diction) -err <- computeError(data, pred, horizon=6) -# Plus de dÃ©tails Ã la section 3 ci-aprÃ¨s. - -# Puis voir ?plotError et les autres plot dans le paragraphe 'seealso' ------ -${"##"} getData() - -Les arguments de cette fonction sont, dans l'ordre : - - 1. **ts_data** : sÃ©ries temporelles (fichier CSV avec entÃªte ou data.frame) ; la -premiÃ¨re colonne contient les heures, la seconde les valeurs. - 2. **exo_data** : variables exogÃ¨nes (fichier CSV avec entÃªte ou data.frame) ; la -premiÃ¨re colonne contient les jours, les $m$ suivantes les variables mesurÃ©es pour ce -jour, et les $m$ derniÃ¨res les variables prÃ©dites pour ce mÃªme jour. Dans notre cas $m=4$ -: pression, tempÃ©rature, gradient de tempÃ©rature, vitesse du vent. - 3. **input_tz** : zone horaire pour ts_data (dÃ©faut : "GMT"). - 4. **date_format** : format des heures dans ts_data (dÃ©faut : "%d/%m/%Y %H:%M", format -du fichier transmis par Michel). - 5. **working_tz** : zone horaire dans laquelle on souhaite travailler avec les donnÃ©es -(dÃ©faut : "GMT"). - 6. **predict_at** : heure Ã laquelle s'effectue la prÃ©vision $-$ et donc derniÃ¨re heure -d'un bloc de 24h, relativement Ã working_tz. data`$`getSerie(3) renvoit ainsi les 24 -valeurs de 8h Ã 7h pour le $3^{eme}$ bloc de 24h prÃ©sent dans le jeu de donnÃ©es. ------r -print(data) -#?Data ------ -${"##"} computeForecast() - -Les arguments de cette fonction sont, dans l'ordre : - - 1. **data** : le jeu de donnÃ©es renvoyÃ© par getData() - 2. **indices** : l'ensemble de jours dont on veut prÃ©voir les "lendemains" (prochains -blocs de 24h) ; peut Ãªtre donnÃ©e sous forme d'un vecteur de dates ou d'entiers -(correspondants aux numÃ©ros des jours). - 3. **forecaster** : le nom du prÃ©dicteur principal Ã utiliser ; voir ?computeForecast - 4. **pjump** : le nom du prÃ©dicteur de saut d'une sÃ©rie Ã l'autre ; voir -?computeForecast - 5. **memory** : le nombre de jours Ã prendre en compte dans le passÃ© pour chaque -prÃ©vision (par dÃ©faut : Inf, c'est-Ã -dire tout l'historique pris en compte). - 6. **horizon** : le nombre d'heures Ã prÃ©dire ; par dÃ©faut "data`$`getStdHorizon()", -c'est-Ã -dire le nombre d'heures restantes Ã partir de l'instant de prÃ©vision + 1 jusqu'Ã -minuit (17 pour predict_at=7 par exemple). - 7. **ncores** : le nombre de processus parallÃ¨les (utiliser 1 pour une exÃ©cution -sÃ©quentielle) ------r -print(pred) -#?computeForecast ------ -${"##"} computeError() - -Les arguments de cette fonction sont, dans l'ordre : - - 1. **data** : le jeu de donnÃ©es renvoyÃ© par getData() - 2. **pred** : les prÃ©dictions renvoyÃ©es par computeForecast() - 3. **horizon** : le nombre d'heures Ã considÃ©rer pour le calcul de l'erreur ; doit Ãªtre -infÃ©rieur ou Ã©gal Ã l'horizon utilisÃ© pour la prÃ©diction (mÃªme valeur par dÃ©faut : -"data`$`getStdHorizon()") ------r -summary(err) -summary(err$abs) -summary(err$MAPE) ------ -${"##"} Graphiques - -Voir ?plotError : les autres fonctions graphiques sont dans la section 'seealso' : - - âplotCurvesâ, âplotPredRealâ, âplotSimilsâ, âplotFboxâ, - âcomputeFilamentsâ, âplotFilamentsBoxâ, âplotRelVarâ - -?plotXXX, etc. -## $\clearpage$ How to do that? ------ -# ExpÃ©rimentations - -Cette partie montre les rÃ©sultats obtenus via des variantes de l'algorithme dÃ©crit Ã la -section 2, en utilisant le package prÃ©sentÃ© Ã la section 3. Cet algorithme est +Cette partie montre les rÃ©sultats obtenus avec des variantes de l'algorithme dÃ©crit au +chapitre 5, en utilisant le package prÃ©sentÃ© au chapitre 6. +Les ........... options ........... +Cet algorithme est systÃ©matiquement comparÃ© Ã deux approches naÃ¯ves : - * la moyenne des lendemains des jours "similaires" dans tout le passÃ©, c'est-Ã -dire -prÃ©diction = moyenne de tous les mardis passÃ© si le jour courant est un lundi par -exemple. + * la moyenne des lendemains des jours de mÃªme type dans tout le passÃ©, c'est-Ã -dire +prÃ©diction = moyenne de tous les mardis passÃ©s si le jour courant est un lundi. * la persistence, reproduisant le jour courant ou allant chercher le lendemain de la -derniÃ¨re journÃ©e "similaire" (mÃªme principe que ci-dessus ; argument "same\_day"). +derniÃ¨re journÃ©e de mÃªme type (mÃªme principe que ci-dessus ; argument "same\_day"). Concernant l'algorithme principal Ã voisins, trois variantes sont Ã©tudiÃ©es dans cette partie : @@ -188,13 +79,25 @@ plotError(list(e1, e5, e4, e2, e3), cols=c(1,2,colors()[258],4,6)) # mauve: Neighbors local none (p3), vert: moyenne (p4), # rouge: persistence (p5) +##############TODO: expliquer "endo" "none"......etc +## ajouter fenÃªtres essais dans rapport. --> dans chapitre actuel. +## re-ajouter annexe sur ancienne mÃ©thode exo/endo/mix +## ---------> fenetres comment elles sont optimisÃ©es +#--------> ajouter Ã la fin quelques graphes montrant/comparant autres mÃ©thodes +#chapitre rÃ©sumÃ© avec diffÃ©rents essais conclusions. ---> synthÃ¨se des essais rÃ©alisÃ©s, +#avec sous-paragraphes avec conclusions H3/H17 sans surprises on amÃ©liore les choses, +#mais il y a des situations oÃ¹ c'est pas mieux. +#---------> fichier tex rÃ©insÃ©rer synthÃ¨se de l'ensemble des essais rÃ©alisÃ©s. +#++++++++ ajouter Ã 13h + sum_p123 = e1$abs$indices + e2$abs$indices + e3$abs$indices i_np = which.min(sum_p123) #indice de (veille de) jour "facile" i_p = which.max(sum_p123) #indice de (veille de) jour "difficile" ----- % if i == 0: L'erreur absolue deÌpasse 20 sur 1 aÌ 2 jours suivant les modeÌles (graphe en haut aÌ -droite). C'est au-delaÌ de ce que l'on aimerait voir (disons +/- 5 environ). Sur cet +droite). ##C'est au-delaÌ de ce que l'on aimerait voir (disons +/- 5 environ). +Sur cet exemple le modeÌle aÌ voisins "contraint" (local=TRUE) utilisant des pondeÌrations baseÌes sur les similariteÌs de forme (simtype="endo") obtient en moyenne les meilleurs reÌsultats, avec un MAPE restant en geÌneÌral infeÌrieur aÌ 30% de 8h aÌ 19h (7+1 aÌ 7+12 : graphe en bas aÌ @@ -227,11 +130,13 @@ plotPredReal(data, p3, i_p); title(paste("PredReal p3 day",i_p)) # Bleu : prÃ©vue ; noir : rÃ©alisÃ©e ----- % if i == 0: -Le jour "facile aÌ preÌvoir", aÌ gauche, se deÌcompose en deux modes : un leÌger vers 10h +La courbe non centrÃ©e du jour facile Ã prÃ©voir (en noir), +##Le jour "facile aÌ preÌvoir", +aÌ gauche, se deÌcompose en deux modes : un leÌger vers 10h (7+3), puis un beaucoup plus marqueÌ vers 19h (7+12). Ces deux modes sont retrouveÌs par les trois variantes de l'algorithme aÌ voisins, bien que l'amplitude soit mal preÌdite. -Concernant le jour "difficile aÌ preÌvoir" il y a deux pics en tout deÌbut et toute fin de -journeÌe (aÌ 9h et 23h), qui ne sont pas du tout anticipeÌs par le programme ; la grande +Concernant le jour "difficile aÌ preÌvoir" (Ã droite) il y a deux pics en tout deÌbut et toute fin de +journeÌe (aÌ 9h et 23h), qui ne sont pas du tout anticipÃ©s par les mÃ©thodes ; la grande amplitude de ces pics explique alors l'intensiteÌ de l'erreur observeÌe. % elif i == 1: Dans le cas d'un jour "facile" aÌ preÌdire $-$ aÌ gauche $-$ la forme est plus ou moins @@ -276,10 +181,18 @@ par(mfrow=c(1,2)) plotFilamentsBox(data, f_np1); title(paste("FilBox p1 day",i_np)) plotFilamentsBox(data, f_p1); title(paste("FilBox p1 day",i_p)) +## Questions : +#7h VS 13h +#est-ce que prÃ©voir 24h ou 13 ou 3 facilite. +#amplitude erreur raisonnable ? probleme facile difficile ? +#place des exogÃ¨nes ? +#H = ? +#Ã©pandage > chauffage > np + # En pointilleÌs la courbe du jour courant + lendemain (aÌ preÌdire) ----- % if i == 0: -Sur cette boxplot fonctionnelle (voir la fonction fboxplot() du package R "rainbow") l'on +Sur cette boxplot fonctionnelle (voir la fonction fboxplot() du package R "rainbow") on constate essentiellement deux choses : le lendemain d'un voisin "normal" peut se reÌveÌler eÌtre une courbe atypique, fort eÌloigneÌe de ce que l'on souhaite preÌdire (courbes bleue et rouge aÌ gauche) ; et, dans le cas d'une courbe aÌ preÌdire atypique (aÌ droite) la plupart @@ -362,9 +275,9 @@ p2$getParams(i_p)$window ${"##"} Bilan Nos algorithmes aÌ voisins ne sont pas adapteÌs aÌ ce jeu de donneÌes ouÌ la forme varie -consideÌrablement d'un jour aÌ l'autre. Plus geÌneÌralement cette deÌcorreÌlation de forme rend -ardue la taÌche de preÌvision pour toute autre meÌthode $-$ du moins, nous ne savons pas -comment proceÌder pour parvenir aÌ une bonne preÌcision. - -Toutefois, un espoir reste permis par exemple en aggreÌger les courbes spatialement (sur +consideÌrablement d'un jour aÌ l'autre. +Toutefois, un espoir reste permis par exemple en aggreÌgeant les courbes spatialement (sur plusieurs stations situeÌes dans la meÌme agglomeÌration ou dans une meÌme zone). +##Plus geÌneÌralement cette deÌcorreÌlation de forme rend +##ardue la taÌche de preÌvision pour toute autre meÌthode $-$ du moins, nous ne savons pas +##comment proceÌder pour parvenir aÌ une bonne preÌcision. diff --git a/reports/PackageR.gj b/reports/PackageR.gj new file mode 100644 index 0000000..d62dc36 --- /dev/null +++ b/reports/PackageR.gj @@ -0,0 +1,109 @@ +----- +# Package R "talweg" + +Le package $-$ Time-series sAmpLes forecasted With ExoGenous variables $-$ contient le +code permettant de lancer les expÃ©riences numÃ©riques dÃ©crites dans le chapitre suivant. +Les fonctions principales sont respectivement + + * **getData()** pour construire un objet R contenant les donnÃ©es Ã partir de fichiers +CSV (extraits de bases de donnÃ©es). Le format choisi en R est une classe R6 (du package +du mÃªme nom) exposant en particulier les mÃ©thodes *getSerie(i)* et *getExo(i)* qui +renvoient respectivement la $i^{eme}$ sÃ©rie de 24h et les variables exogÃ¨nes (mesurÃ©es) +correspondantes. Voir ?Data pour plus d'information, une fois le package chargÃ©. + * **computeForecast()** pour calculer des prÃ©dictions sur une certaine plage temporelle +contenue dans *data <- getData(...)* + * **computeError()** pour Ã©valuer les erreurs commises par diffÃ©rentes mÃ©thodes. + +Le package contient en outre diverses fonctions graphiques *plotXXX()*, utilisÃ©es dans la +partie suivante. +-----r +# Chargement de la librairie (aprÃ¨s compilation, "R CMD INSTALL .") +library(talweg) + +# Acquisition des donnÃ©es (depuis les fichiers CSV) +ts_data <- read.csv(system.file("extdata","pm10_mesures_H_loc.csv", + package="talweg")) +exo_data <- read.csv(system.file("extdata","meteo_extra_noNAs.csv", + package="talweg")) +data <- getData(ts_data, exo_data, input_tz="GMT", + date_format="%d/%m/%Y %H:%M", working_tz="GMT", + predict_at=7, limit=120) +# Plus de dÃ©tails Ã la section 1 ci-aprÃ¨s. + +# PrÃ©diction de 10 courbes (jours 102 Ã 111) +pred <- computeForecast(data, 101:110, "Persistence", "Zero", memory=50, + horizon=12, ncores=1) +# Plus de dÃ©tails Ã la section 2 ci-aprÃ¨s. + +# Calcul des erreurs (sur un horizon arbitraire <= horizon de prÃ©diction) +err <- computeError(data, pred, horizon=6) +# Plus de dÃ©tails Ã la section 3 ci-aprÃ¨s. + +# Puis voir ?plotError et les autres plot dans le paragraphe 'seealso' +----- +${"##"} getData() + +Les arguments de cette fonction sont, dans l'ordre : + + 1. **ts_data** : sÃ©ries temporelles (fichier CSV avec entÃªte ou data.frame) ; la +premiÃ¨re colonne contient les heures, la seconde les valeurs. + 2. **exo_data** : variables exogÃ¨nes (fichier CSV avec entÃªte ou data.frame) ; la +premiÃ¨re colonne contient les jours, les $m$ suivantes les variables mesurÃ©es pour ce +jour, et les $m$ derniÃ¨res les variables prÃ©dites pour ce mÃªme jour. Dans notre cas $m=4$ +: pression, tempÃ©rature, gradient de tempÃ©rature, vitesse du vent. + 3. **input_tz** : zone horaire pour ts_data (dÃ©faut : "GMT"). + 4. **date_format** : format des heures dans ts_data (dÃ©faut : "%d/%m/%Y %H:%M", format +du fichier transmis par Michel). + 5. **working_tz** : zone horaire dans laquelle on souhaite travailler avec les donnÃ©es +(dÃ©faut : "GMT"). + 6. **predict_at** : heure Ã laquelle s'effectue la prÃ©vision $-$ et donc derniÃ¨re heure +d'un bloc de 24h, relativement Ã working_tz. data`$`getSerie(3) renvoit ainsi les 24 +valeurs de 8h Ã 7h pour le $3^{eme}$ bloc de 24h prÃ©sent dans le jeu de donnÃ©es. +-----r +print(data) +#?Data +----- +${"##"} computeForecast() + +Les arguments de cette fonction sont, dans l'ordre : + + 1. **data** : le jeu de donnÃ©es renvoyÃ© par getData() + 2. **indices** : l'ensemble de jours dont on veut prÃ©voir les "lendemains" (prochains +blocs de 24h) ; peut Ãªtre donnÃ©e sous forme d'un vecteur de dates ou d'entiers +(correspondants aux numÃ©ros des jours). + 3. **forecaster** : le nom du prÃ©dicteur principal Ã utiliser ; voir ?computeForecast + 4. **pjump** : le nom du prÃ©dicteur de saut d'une sÃ©rie Ã l'autre ; voir +?computeForecast + 5. **memory** : le nombre de jours Ã prendre en compte dans le passÃ© pour chaque +prÃ©vision (par dÃ©faut : Inf, c'est-Ã -dire tout l'historique pris en compte). + 6. **horizon** : le nombre d'heures Ã prÃ©dire ; par dÃ©faut "data`$`getStdHorizon()", +c'est-Ã -dire le nombre d'heures restantes Ã partir de l'instant de prÃ©vision + 1 jusqu'Ã +minuit (17 pour predict_at=7 par exemple). + 7. **ncores** : le nombre de processus parallÃ¨les (utiliser 1 pour une exÃ©cution +sÃ©quentielle) +-----r +print(pred) +#?computeForecast +----- +${"##"} computeError() + +Les arguments de cette fonction sont, dans l'ordre : + + 1. **data** : le jeu de donnÃ©es renvoyÃ© par getData() + 2. **pred** : les prÃ©dictions renvoyÃ©es par computeForecast() + 3. **horizon** : le nombre d'heures Ã considÃ©rer pour le calcul de l'erreur ; doit Ãªtre +infÃ©rieur ou Ã©gal Ã l'horizon utilisÃ© pour la prÃ©diction (mÃªme valeur par dÃ©faut : +"data`$`getStdHorizon()") +-----r +summary(err) +summary(err$abs) +summary(err$MAPE) +----- +${"##"} Graphiques + +Voir ?plotError : les autres fonctions graphiques sont dans la section 'seealso' : + + âplotCurvesâ, âplotPredRealâ, âplotSimilsâ, âplotFboxâ, + âcomputeFilamentsâ, âplotFilamentsBoxâ, âplotRelVarâ + +?plotXXX, etc. diff --git a/reports/report_P7_H17.zip b/reports/report_P7_H17.zip deleted file mode 100644 index 65253b5..0000000 --- a/reports/report_P7_H17.zip +++ /dev/null @@ -1 +0,0 @@ -#$# git-fat 4a0e88af47c14a7cdb4d00b268517eefec453d90 2747183 diff --git a/reports/run.sh b/reports/run.sh index 044d00d..9d67a84 100755 --- a/reports/run.sh +++ b/reports/run.sh @@ -1,13 +1,11 @@ #!/bin/sh -# Usage: ./run.sh P H +# Usage: ./run.sh file[no_suffix] P H -./ipynb_generator.py report.gj - P=$1 H=$2 +./ipynb_generator.py $1.gj - P=$2 H=$3 -#htmlfile=report_P$1_H$2.html -nbfile=report_P$1_H$2.ipynb jupyter-nbconvert \ --ExecutePreprocessor.kernel_name='ir' \ --ExecutePreprocessor.timeout=1800 \ - --execute report.ipynb \ - --to notebook --output $nbfile -# --to html --output=$htmlfile + --execute $1.ipynb \ + --to notebook --output $1.out.ipynb +# --to html --output=$1.html -- 2.44.0