rename latex --> communication
[ppam-mpi.git] / communication / slides / 201402-JClust.tex
diff --git a/communication/slides/201402-JClust.tex b/communication/slides/201402-JClust.tex
new file mode 100644 (file)
index 0000000..fad7fb6
--- /dev/null
@@ -0,0 +1,603 @@
+\documentclass[xcolor=dvipsnames, smaller]{beamer}\r
+\r
+\usepackage[utf8]{inputenc}\r
+\usepackage{amsmath, amsfonts}\r
+\usepackage[francais]{babel}\r
+\usepackage{hyperref, url, booktabs, subcaption, tikz}\r
+%\usepackage{graphicx}\r
+\hypersetup{colorlinks,linkcolor=black,urlcolor=violet}\r
+\r
+\mode<presentation>{\r
+  \setbeamertemplate{sections/subsections in toc}[square]\r
+  \beamertemplatenavigationsymbolsempty\r
+}\r
+\r
+\newcommand{\N}{\mathbb{N}}                          % naturals\r
+\newcommand{\set}[1]{\lbrace#1\rbrace}               % set\r
+\newcommand{\R}{\mathbb{R}}         % real\r
+\r
+\colorlet{darkred}{red!80!black}\r
+\colorlet{darkblue}{blue!80!black}\r
+\colorlet{darkgreen}{green!60!black}\r
+\r
+\usetikzlibrary{calc,decorations.pathmorphing,patterns}\r
+\pgfdeclaredecoration{penciline}{initial}{\r
+    \state{initial}[width=+\pgfdecoratedinputsegmentremainingdistance,\r
+    auto corner on length=1mm,]{\r
+        \pgfpathcurveto%\r
+        {% From\r
+            \pgfqpoint{\pgfdecoratedinputsegmentremainingdistance}\r
+                      {\pgfdecorationsegmentamplitude}\r
+        }\r
+        {%  Control 1\r
+        \pgfmathrand\r
+        \pgfpointadd{\pgfqpoint{\pgfdecoratedinputsegmentremainingdistance}{0pt}}\r
+                    {\pgfqpoint{-\pgfdecorationsegmentaspect\r
+                     \pgfdecoratedinputsegmentremainingdistance}%\r
+                               {\pgfmathresult\pgfdecorationsegmentamplitude}\r
+                    }\r
+        }\r
+        {%TO \r
+        \pgfpointadd{\pgfpointdecoratedinputsegmentlast}{\pgfpoint{1pt}{1pt}}\r
+        }\r
+    }\r
+    \state{final}{}\r
+}\r
+%\r
+\tikzstyle{block} = [draw,rectangle,thick,minimum height=2em,minimum width=2em]\r
+\r
+\r
+\r
+% = = = = = = = = = = = = = = = = = = = = = = = = Separator = = = =\r
+\r
+\AtBeginSection[]{\r
+   \begin{frame}{Sommaire}\r
+     \tableofcontents[currentsection]               \r
+   \end{frame}\r
+}\r
+\r
+%--------------------------------------------------------------------------\r
+\r
+\r
+\title{Non supervised classification of individual electricity curves} \r
+\author{Jairo Cugliari}\r
+\institute{%Laboratoire ERIC, Université Lyon 2\r
+%  \begin{center}\r
+  %  \includegraphics[height = 1.5cm]{pics/logo_dis.png}  \r
+  %  ~~~~%  separator\r
+  \includegraphics[height = 1cm]{pics/logo_eric.png}  \r
+%  ~~~~%  separator\r
+%  \includegraphics[height = 1cm]{pics/logo_lyon2.jpg} \r
+%\end{center}\r
+}\r
+\r
+\r
+\begin{document}\r
+\r
+%--------------------------------------------------------------------------\r
+\r
+% \begin{frame}[plain]\r
+\r
+\begin{frame}[plain, noframenumbering, b]\r
+\r
+% \begin{center}\r
+% %  \includegraphics[height = 1.5cm]{pics/logo_dis.png}  \r
+% %  ~~~~%  separator\r
+%   \includegraphics[height = 1.5cm]{pics/logo_eric.png}  \r
+%   ~~~~%  separator\r
+%   \includegraphics[height = 1.5cm]{pics/logo_lyon2.jpg} \r
+% \end{center}\r
+\r
+\maketitle\r
+\r
+  \begin{center}{\scriptsize \r
+    Joint work with Benjamin Auder (LMO, Université Paris-Sud) }\r
+  \end{center}\r
+\r
+  % \begin{flushright}\r
+%    \includegraphics[width = 0.15\textwidth]{pics/by-nc-sa.png} \r
+% \end{flushright}\r
+   \r
+\end{frame}\r
+\r
+\r
+% \maketitle\r
+%   \begin{center}{\scriptsize \r
+%     Joint work with Benjamin Auder (LMO, Université Paris-Sud) }\r
+%   \end{center}\r
+% \end{frame}\r
+\r
+%--------------------------------------------------------------------------\r
+\r
+\frame{\frametitle{Outline}\r
+       \tableofcontents\r
+}\r
+\r
+%--------------------------------------------------------------------------\r
+\r
+\section{Motivation}\r
+\r
+\r
+\begin{frame}{Industrial motivation}\r
+\r
+\begin{columns}\r
+\column{0.6\textwidth}\r
+\begin{itemize}\r
+ \item Smartgrid \& Smart meters : time real information\r
+  \item Lot of data of different nature\r
+ \item Many problems : transfer protocol, security, privacy, ...\r
+ \item The French touch: 35M Linky smartmeter\r
+\end{itemize}\r
+\r
+\vskip 1cm\r
+\r
+What can we do with all these data ?\r
+\r
+\column{0.4\textwidth} \r
+\includegraphics[width = \textwidth]{./pics/smartgrid.jpg} \r
+\r
+\includegraphics[width = \textwidth]{./pics/linky.jpg} \r
+\end{columns}\r
+\end{frame}\r
+\r
+%--------------------------------------------------------------------------\r
+\r
+\begin{frame}{Electricity demand data}\r
+\framesubtitle{Some salient features}\r
+\r
+\begin{figure}[!ht] \centering\r
+  \begin{subfigure}[t]{0.45\textwidth}\r
+     \includegraphics[width=\textwidth]{pics/longtermload.png}\r
+     \caption{Long term trand} %\label{fig:gull}\r
+  \end{subfigure}%\r
+  ~ %spacing between images\r
+  \begin{subfigure}[t]{0.45\textwidth}\r
+     \includegraphics[width=\textwidth]{pics/twoyearsload.png}\r
+     \caption{Weekly cycle} %     \label{fig:tiger}\r
+  \end{subfigure}\r
+  \r
+  \begin{subfigure}[t]{0.45\textwidth}\r
+     \includegraphics[width=\textwidth]{pics/dailyloads.png}\r
+     \caption{Daily load curve} %   \label{fig:mouse}\r
+  \end{subfigure}\r
+  ~ %spacing between images\r
+  \begin{subfigure}[t]{0.45\textwidth}\r
+     \includegraphics[width=\textwidth]{pics/consotemp.png}\r
+     \caption{Electricity load vs. temperature}\r
+  \end{subfigure}\r
+\end{figure}\r
+\end{frame}\r
+\r
+%--------------------------------------------------------------------------\r
+\r
+\begin{frame}[shrink]{FD as slices of a continuous process \r
+      \begin{scriptsize} \hfill [Bosq, (1990)] \end{scriptsize}} \r
+%  \r
+  The prediction problem\r
+\r
+\begin{itemize}\r
+  \item Suppose one observes a square integrable continuous-time  stochastic process $X=(X(t), t\in\R)$ over the interval $[0,T]$, $T>0$;\r
+  \item {We want to predict $X$ all over the segment $[T, T+\delta], \delta>0$}\r
+  \item {Divide the interval into $n$ subintervals of equal\r
+             size $\delta$.}\r
+  \item Consider the functional-valued discrete time stochastic process $ Z = (Z_k, k\in\N) $, where $ \mathbb{N} = \set{ 1,2,\ldots } $, defined by \r
+\end{itemize}\r
\r
+\begin{columns}\r
+  \column{5cm}    \r
+    \input{tikz/axis2}\r
+  \column{5cm} \r
+     \[ Z_k(t) = X(t + (k-1)\delta)             \]\r
+     \[  k\in\N \;\;\; \forall t \in [0,\delta) \]\r
+\end{columns}\r
+\r
+\vfill\r
+  If $X$ contents a $\delta-$seasonal component, \r
+     $Z$ is particularly fruitful.\r
+\r
+\end{frame}\r
+\r
+%--------------------------------------------------------------------------\r
+\r
+\begin{frame}{Long term objective}\r
+\r
+\begin{columns}\r
+\column{.6\textwidth}\r
+%\begin{figure}[!ht]\centering\r
+  \includegraphics[width = \textwidth]{pics/schema.png} \r
+%\caption{Hierarchical structure of $N$ individual clients among $K$ groups.}\label{fig:schema-hier}\r
+%\end{figure}\r
\r
+\column{.4\textwidth}\r
+\begin{tikzpicture}[decoration=penciline, decorate]\r
+  \node[block, decorate] at (0, 0){$Z_t$} ;\r
+  \node[block, decorate] at (3, 0) {$Z_{t + 1}$} ;\r
+\r
+  \node[block, decorate] at (0, -2.5) {$\begin{pmatrix}\r
+                              Z_{t, 1} \\ Z_{t, 2} \\ \vdots \\ Z_{t, K}\r
+                               \end{pmatrix}$ };\r
+\r
+  \node[block, decorate] at (3, -2.5) {$\begin{pmatrix}\r
+                           Z_{t+1, 1} \\ Z_{t+1, 2} \\ \vdots \\ Z_{t+1, k}\r
+                               \end{pmatrix} $};\r
+\r
+  \draw[decorate, darkblue,  line width = 2mm, ->] (1, 0) -- (2, 0);\r
+  \draw[decorate, darkgreen, line width = 2mm, ->] (1, -2.5) -- (2, -2.5);\r
+  \draw[decorate, black,     line width = 2mm, ->] (3, -1.3) -- (3, -0.4);\r
+  \draw[decorate, darkred,   line width = 2mm, ->] (1, -1.5) -- (2, -0.75);\r
+ \end{tikzpicture}\r
+\end{columns}\r
+\r
+\begin{itemize}\r
+ \item Groups can express tariffs, geographical dispersion, client class ...\r
+ \item \textbf{IDEA}: Use a clustering algorithm to learn groups of customer structure\r
+ \item \textbf{Aim}: Set up a classical clustering algorithm to run in parallel \r
+\end{itemize}\r
+\end{frame}\r
+\r
+%--------------------------------------------------------------------------\r
+\r
+\section{Functional clustering}\r
+\r
+\begin{frame}{Aim}\r
+\r
+\begin{columns}\r
+  \column{0.6\textwidth}\r
+  \begin{block}{ }\r
+    \begin{itemize}\r
+      \item Segmentation of $X$ may not suffices to render reasonable \r
+            the stationary hypothesis.\r
+      \item If a grouping effect exists, we may considered stationary within each group. \r
+      \item Conditionally on the grouping, functional time series prediction methods \r
+            can be applied.\r
+      \item We propose a clustering procedure that discover the groups from a bunch\r
+             of curves.\r
+    \end{itemize}\r
+\r
+    We use wavelet transforms to take into account the fact \r
+    that curves may  present non stationary patters.\r
+  \end{block}\r
+\r
+  \column{0.4\textwidth}\r
+    \includegraphics[width=0.9\textwidth,\r
+                             height=2.7cm]{pics/conso-traj.png}\r
+\r
+   Two strategies to cluster functional time series:\r
+   \begin{enumerate}\r
+     \item Feature extraction (summary measures of the curves).\r
+     \item Direct similarity between curves.\r
+   \end{enumerate}  \r
+\r
+\end{columns}\r
+\end{frame}\r
+\r
+%---------------------------\r
+\r
+\begin{frame}[plain]{Wavelets to cope with \textsc{fd}}\r
+\r
+\begin{columns}\r
+  \column{.6\textwidth}\r
+ %\begin{figure}\r
+ \centering\r
+ \includegraphics[width = \textwidth]{./pics/weekly-5.png}\r
+  % * * * * * * * *  * * * * * * * * * * *\r
+  \column{.4\textwidth}\r
+\begin{block}{ } %Wavelet transform}\r
+\begin{footnotesize}\r
+\begin{itemize}\r
+ \item domain-transform technique for hierarchical decomposing finite energy signals\r
+ \item description in terms of a broad trend (\textcolor{PineGreen}{approximation part}), plus a set of localized changes kept in the \textcolor{red}{details parts}.\r
+\end{itemize}\r
+\end{footnotesize}\r
+\end{block}\r
+\end{columns}\r
+\r
+\begin{block}{Discrete Wavelet Transform }\r
+\r
+  If $z \in L_2([0, 1])$ we can write it as\r
+\r
+   \begin{equation*}\label{eq:zeta}\r
+     z(t) = \sum_{k=0}^{2^{j_0}-1} \textcolor{PineGreen}{c_{j_0, k}} \phi_{j_0,k} (t)  + \r
+        \sum_{j={j_0}}^{\infty} \r
+           \sum_{k=0}^{2^j-1} \textcolor{red}{d_{j,k}} \psi_{j,k} (t) ,\r
+   \end{equation*}\r
+\r
+%\r
+where $ c_{j,k} = <g, \phi_{j,k} > $, $ d_{j,k} = <g, \varphi_{j,k}>$ are the \r
+\textcolor{PineGreen}{scale coefficients} and \textcolor{red}{wavelet coefficients} respectively, and the functions $\phi$ et $\varphi$ are associated to a orthogonal \textsc{mra} of $L_2([0, 1])$.\r
+\end{block}\r
+\end{frame}\r
+\r
+%---------------------------------------- SLIDE ---------------------\r
+\r
+\begin{frame}{Energy decomposition of the DWT}\r
+\r
+\begin{block}{ }\r
+ \begin{itemize}\r
+  \item Energy conservation of the signal\r
+%\r
+  \begin{equation*}\label{eq:energy}  \r
+     \| z \|_H^2    \approx     \| \widetilde{z_J} \|_2^2 \r
+        = c_{0,0}^2 + \sum_{j=0}^{J-1} \sum_{k=0}^{2^j-1} d_{j,k} ^2  = \r
+                     c_{0,0}^2 + \sum_{j=0}^{J-1} \| \mathbf{d}_{j} \|_2^2.\r
+  \end{equation*}\r
+%  \item characterization by the set of channel variances estimated at the output of the corresponding filter bank\r
+ \item For each $j=0,1,\ldots,J-1$, we compute the absolute and \r
+ relative contribution representations by\r
+%      \r
+   \[ \underbrace{\hbox{cont}_j = ||\mathbf{d_j}||^2}_{\fbox{AC}}  \r
+      \qquad  \text{and}  \qquad\r
+       \underbrace{\hbox{rel}_j  = \r
+     \frac{||\mathbf{d_j}||^2}\r
+          {\sum_j ||\mathbf{d_j}||^2 }}_{\fbox{RC}} .\]\r
+ \item They quantify the relative importance of the scales to the global dynamic.\r
+% \item Only the wavelet coefficients $\set{d_{j,k}}$ are used.\r
+ \item RC normalizes the energy of each signal to 1.\r
+\end{itemize}\r
+\end{block}\r
+\end{frame}\r
+% =======================================\r
+\r
+\begin{frame} \r
+  \frametitle{Schema of procedure}\r
+  \begin{center}\r
+   \includegraphics[width = 7cm, height = 2cm]{./pics/Diagramme1.png}\r
+   % Diagramme1.png: 751x260 pixel, 72dpi, 26.49x9.17 cm, bb=0 0 751 260\r
+  \end{center}\r
+      \r
+        \begin{footnotesize}\r
+\begin{description}\r
+ \item [0. Data preprocessing.] Approximate sample paths of $z_1(t),\ldots,z_n(t)$ %by the truncated wavelet series at the scale $J$ from sampled data $\mathbf{z}_1, \ldots, \mathbf{z}_n$.\r
+ \item [1. Feature extraction.] Compute either of the energetic components using absolute contribution (AC) or relative contribution (RC).\r
+ \item [2. Feature selection.] Screen irrelevant variables. \begin{tiny} [Steinley \& Brusco ('06)]\end{tiny}\r
+ \item [3. Determine the number of clusters.] Detecting significant jumps in the transformed distortion curve.\r
+ \begin{tiny} [Sugar \& James ('03)]\end{tiny}\r
+ \item [4. Clustering.] Obtain the $K$ clusters using PAM algorithm.\r
+\end{description}       \end{footnotesize}\r
+    \r
+\footnotetext[1]{Antoniadis, X. Brossat, J. Cugliari et J.-M. Poggi (2013), Clustering Functional Data Using Wavelets, {\it IJWMIP}, 11(1), 35--64}\r
+    \r
+\end{frame}\r
+\r
+% ===========================================\r
+\r
+\section{Parallel $k$-medoids}\r
+\r
+\begin{frame}{Partitioning Around Medoids (PAM)\r
+      \begin{scriptsize} \hfill [Kaufman et Rousseeuw~(1987)] \end{scriptsize}}\r
+\r
+\begin{itemize}\r
+ \item Partition the $n$ points $R^d$-scatter into $K$ clusters\r
+ \item Optimization problem :\r
+ \[ D(x) = \min_{m_1,\dots,m_k \in \mathbb{R}^d} \sum_{i=1}^{n} \min_{j=1,\dots,k} \| x_i - m_j \| \, ,\]\r
+with $x = (x_1,\dots,x_n)$, $\|\,.\,\|$ can be any norm. Here we choose to use the euclidean norm. \r
+  \item Robust version of $k$-means\r
+  \item Computational burden : medians instead of means\r
+  \item Several heuristics allow to reduce the computation time.\r
+\end{itemize}\r
+\end{frame}\r
+\r
+% ===========================================\r
+\r
+\begin{frame}{Parallelization with MPI}\r
+\r
+\begin{columns}\r
+\column{.8\textwidth}\r
+\begin{itemize}\r
+ \item Easy to use library routines allowing to write algorithms in parallel\r
+ \item Available on several languages \r
+ \item We use the master-slave mode\r
+\end{itemize}\r
+\r
+\column{.2\textwidth}\r
+\includegraphics[width=\textwidth]{./pics/open-mpi-logo.png} \r
+\end{columns}\r
+\r
+\vfill\r
+\r
+\begin{block}{The outline of code:}\r
+\begin{enumerate}\r
+  \item The master process splits the problem in tasks over the data set and sends it to the workers;\r
+  \item Each worker reduces the functional nature of the data using the DWT, applies the clustering and returns the centers;\r
+  \item The master recuperates and clusters the centers into $K$ meta centers. \r
+\end{enumerate}\r
+\end{block}\r
+\r
+The source code is open and will be available to download from \r
+\href{https://github.com/}{github}.\r
+\r
+\footnotetext[1]{B. Auder \& J. Cugliari. Parallélisation de l'algorithme des $k$-médoïdes. Application au clustering de courbes. (2014, submitted)}\r
+\end{frame}\r
+\r
+\section{Numerical experiences}\r
+\r
+% ===========================================\r
+\r
+\begin{frame}{Application I: Starlight curves}\r
+\r
+\begin{itemize}\r
+ \item Data from UCR Time Series Classification/Clustering\r
+ \item 1000 curves learning set + 8236 validation set ($d= 1024$)% discretization points\r
+\end{itemize}\r
+\r
+\begin{figure}[H]\r
+\begin{minipage}[c]{.32\linewidth}\r
+       \includegraphics[width=\linewidth,height=3.5cm]{pics/slgr1.png}\r
+       %\vspace*{-0.3cm}\r
+       \caption{Groupe 1}\r
+\end{minipage}\r
+\begin{minipage}[c]{.32\linewidth}\r
+       \includegraphics[width=\linewidth,height=3.5cm]{pics/slgr2.png}\r
+       %\vspace*{-0.3cm}\r
+       \caption{Groupe 2}\r
+\end{minipage}\r
+\begin{minipage}[c]{.32\linewidth}\r
+       \includegraphics[width=\linewidth,height=3.5cm]{pics/slgr3.png}\r
+       %\vspace*{-0.3cm}\r
+       \caption{Groupe 3}\r
+\end{minipage}\r
+\label{figsltr3clusts}\r
+\end{figure}\r
+\r
+\begin{table}[H]\r
+\centering\r
+\begin{tabular}{lccc}                           \toprule\r
+ &            & \multicolumn{2}{c}{Adequacy} \\\r
+ & Distortion & Internal & External          \\ \midrule\r
+Training (sequential) & 1.31e4 & 0.79 & 0.77 \\\r
+Training (parallel)   & 1.40e4 & 0.79 & 0.68 \\\r
+Test (sequential)     & 1.09e5 & 0.78 & 0.76 \\\r
+Test (parallel)       & 1.15e5 & 0.78 & 0.69 \\ \bottomrule\r
+\end{tabular}\r
+%\caption{Distorsions et indices d'adéquation des partitions}\r
+\label{tabDistorSl}\r
+\end{table}\r
+\end{frame}\r
+\r
+% ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++\r
+\r
+\begin{frame}{Application II: EDF data}\r
+    \begin{figure}\r
+    \centering\r
+    \includegraphics[width= 0.9\textwidth]{pics/conso-shapes.png}\r
+    % conso-traj.eps: 0x0 pixel, 300dpi, 0.00x0.00 cm, bb=18 18 577 824\r
+    \caption{  \begin{footnotesize}\r
+French electricity power demand on autumn (top left), winter (bottom left), spring (top right) and summer (bottom right). \end{footnotesize} }\r
+    \label{fig:conso-shapes}\r
+    \end{figure}\r
+    \r
+    \begin{footnotesize}\r
+ Feature extraction:\r
+  \begin{itemize}\r
+    \item The significant scales for revealing the cluster structure are independent of the possible number of clusters.\r
+    \item Significant scales are associated to mid-frequencies. \r
+    \item The retained scales parametrize the represented cycles of 1.5, 3 and 6  hours (AC). \r
+ \end{itemize}                              \end{footnotesize}\r
+\end{frame}\r
+\r
+\r
+% ===========================================\r
+\r
+\begin{frame}\r
+\begin{figure}\r
+  \centering\r
+  \includegraphics[width= 0.9\textwidth]{./pics/conso_jump_AC.png} \\\r
+  \caption{ \begin{footnotesize}\r
+Number of clusters by feature extraction of the AC (top). From left to right:  distortion curve, transformed distortion curve and first difference on the transformed distortion curve. \end{footnotesize} }\r
+  \label{fig:conso-jumps}\r
+\end{figure}\r
+ \end{frame}\r
+\r
+% ===========================================\r
+\r
+\begin{frame}\r
+\begin{figure} \centering\r
+  \begin{subfigure}[t]{0.45\textwidth}\r
+    \includegraphics[width=\textwidth]{./pics/conso_AC-curves.png}\r
+    \caption{Cluster}\r
+  \end{subfigure}\r
+  ~    \r
+  \begin{subfigure}[t]{0.45\textwidth}\r
+    \includegraphics[width=\textwidth]{./pics/conso_AC-calendar.png}\r
+    \caption{Calendar}\r
+  \end{subfigure}\r
+%      \subfloat[Calendar]{\label{fig:conso_clust_AC_cal}\r
+%      \includegraphics[width = 0.45\textwidth]{./pics/conso_AC-calendar.png}}                    \r
+\caption{Curves membership of the clustering using AC based dissimilarity (a) and the corresponding calendar positioning (b).}\r
+  \end{figure}\r
+\end{frame}\r
+\r
+\r
+% ===========================================\r
+\r
+\r
+\begin{frame}{Application III: Electricity Smart Meter CBT (ISSDA)} \small\r
+\r
+\footnotetext[1]{\textit{Irish Social Science Data Archive}, \url{http://www.ucd.ie/issda/data/}}\r
+\r
+\begin{itemize}\r
+ \item 4621 Irish households smart meter data % eséries de consommation électrique de foyers irlandais\r
+ \item About 25K discretization points \r
+ \item We test with $K=$ 3 or 5 classes\r
+ \item We compare sequential and parallel versions \r
+\end{itemize}\r
+\r
+\r
+\begin{table}[H]\r
+\centering\r
+\begin{tabular}{lcc}                       \toprule\r
+% &            &       \\\r
+ & Distortion & Internal adequacy  \\ \midrule\r
+3 clusters sequential & 1.90e7 & 0.90   \\\r
+3 clusters parallel   & 2.15e7 & 0.90   \\\r
+5 clusters sequential & 1.61e7 & 0.89   \\\r
+5 clusters parallel   & 1.84e7 & 0.89   \\ \bottomrule\r
+\end{tabular}\r
+%  \caption{Distorsions et indices d'adéquation des partitions}\r
+\label{tabDistorIr}\r
+\end{table}\r
+\r
+\end{frame}\r
+\r
+%--------------------------------------------------------------------------\r
+\r
+\section{Conclusion}\r
+\r
+\begin{frame}{Conclusion}\r
+\r
+\begin{itemize}\r
+ \item Identification of customers groups from smartmeter data\r
+ \item Wavelets allow to capture the functional nature of the data\r
+ \item Clustering algorithm upscale envisaged for millions of curves\r
+ \item \textit{Divide-and-Conquer} approach thanks to MPI library %pour l'algorithme des $k$-médoïdes : d'abord  sur des groupes de données courbes, puis des groupes de médoïdes jusqu'à obtenir un seul ensemble traité sur un processseur.\r
+ %\item %Les résultats obtenus sur les deux jeux de données présentés sont assez encourageants, et permettent d'envisager une utilisation à plus grande échelle.\r
+\end{itemize}\r
+\r
+\begin{block}{Further work}\r
+\begin{itemize}\r
+ \item Go back to the prediction task\r
+ \item Apply the algorithm over many hundreds of processors  \r
+ \item Connect the clustering method with a prediction model\r
+\end{itemize}\r
+\end{block}\r
+\end{frame}\r
+\r
+%--------------------------------------------------------------------------\r
+\r
+\begin{frame}[plain]{Bibliographie}\small\r
+\r
+\begin{thebibliography}{10}\r
+\bibitem{1} A. Antoniadis, X. Brossat, J. Cugliari et J.-M. Poggi (2013), Clustering Functional Data Using Wavelets, {\it IJWMIP}, 11(1), 35--64\r
+\r
+\bibitem{2} R. Bekkerman, M. Bilenko et J. Langford - éditeurs (2011), Scaling up Machine Learning: Parallel and Distributed Approaches, {\it Cambridge University Press}\r
+\r
+\bibitem{3} P. Berkhin (2006), A Survey of Clustering Data Mining Techniques, {\it Grouping Multidimensional Data, éditeurs : J. Kogan, C. Nicholas, M. Teboulle}.\r
+\r
+\bibitem{6} J. Dean et S. Ghemawat (2004), MapReduce: Simplified Data Processing on Large Clusters, {\it Sixth Symposium on Operating System Design and Implementation}.\r
+\r
+\bibitem{7} G. De Francisci Morales et A. Bifet (2013), G. De Francisci Morales SAMOA: A Platform for Mining Big Data Streams Keynote Talk at RAMSS ’13: 2nd International Workshop on Real-Time Analysis and Mining of Social Streams WWW, Rio De Janeiro\r
+\r
+\bibitem{10} L. Kaufman et P.J. Rousseeuw (1987), Clustering by means of Medoids, {\it Statistical Data Analysis Based on the L\_1-Norm and Related Methods, éditeur : Y. Dodge}.\r
+\end{thebibliography}\r
+\end{frame}\r
+\r
+\r
+\end{document}\r
+\r
+\r
+% \begin{frame}{Motivation académique: Big Data} \r
+% \begin{itemize}\r
+%  \item Besoins spécifiques: très grands volumes de données, grande dimension\r
+%  \item Réponses: algorithmes opérant sur de grands graphes (Kang et al.~2009), sur des flux de données haut débit (De Francisci Morales et Bifet~2013)\r
+%  \item Bekkerman et al.~(2011): algorithmes de Machine Learning s'exécutant en parallèle \r
+% \end{itemize}\r
+% \r
+% \begin{itemize}\r
+%  \item classification non supervisée (\textit{clustering}): regrouper les données en \textit{clusters} homogènes, suffisamment distincts deux à deux\r
+%  \item nombreux algorithmes depuis Tyron~(1939) (voir Berkhin~2006 pour une revue) \r
+%  \item cependant la notion de cluster varie en fonction des données, du contexte et de l'algorithme utilisé\r
+%  \item technique très populaire qui permet \r
+% de réduire la taille des données en les résumant à quelques représentants \r
+% \end{itemize}\r
+% \end{frame}\r
+\r