simulateur : complètement aléatoire ? from Irish dataset ? wavelets methods in statistics with R - p180 00-convertir2009 et 2010.R 01-extractFeatures.R pour 2009 [utilise Stbr.R] (car on prédit 2010, pas besoin) 02-cluster2009.R 03-compute-sum-of-classes2009.R 05-cluster2WER-2009.R 06-prediction.R Essayer distance wdist du package biwavelet ? geometric structure of high dim data and dim reduction 2011 https://docs.docker.com/engine/getstarted/step_one/ A faire: - finir les experiences (sur nb de classes, nb de curves / chunk, nb de procs) et sur d'autres architectures dans old_C_code/build : cmake ../stage1/src make dans data/, lancer R puis : source("../old_C_code/wrapper.R") serialize("../old_C_code/build", "2009.csv","2009.bin",1) library(parallel) np = detectCores() nbSeriesPerChunk = 3000 nbClusters = 20 ppam_exe("../old_C_code/build",np,"2009.bin",nbSeriesPerChunk,nbClusters) C = getMedoids("../old_C_code/build", "ppamResult.xml", "ppamFinalSeries.bin") first100series = deserialize("../old_C_code/build", "2009.bin", "2009.csv.part", "1-100") distor = getDistor("../old_C_code/build", "ppamResult.xml", "2009.bin") - interface matrice -> binaire OK - courbe synchrone ?? Piste à explorer pour les comparaisons: H20 renvoyer nombre d'individues par classe ? (+ somme ?) hypothèse : données déjà ordonnées 48 1/2H sur 365j utiliser du mixmod avec modèles allongés doit toutner sur machine plutôt standard, utilisateur "lambda" utiliser Rcpp ? ===== strategies for upscaling From 25K to 25M : in 1000 chunks of 25K Reference values : K0 = 200 super consumers (SC) K∗ = 15 nal clusters 1st strategy Do 1000 times ONLY Energycon's 1st-step strategy on 25K clients With the 1000 × K0 SC perform a 2-step run leading to K∗ clusters --> il faut lancer 1000(param: nbTasks?) tâches avec itérations (éventuelles) --> écrire tous les résultats, puis les récupérer pour démarrer : --> phase 2 sur 1000xK0 médoïdes 2nd strategy Do 1000 times Energycon's 2-step strategy on 25K clients leading to 1000 × K∗ intermediate clusters Treat the intermediate clusters as individual curves and perform a single 2-step run to get K∗ final clusters --> 1000(nbTasks) tâches avec itérations possibles, puis phase 2 en fin de chaqune des 1000 tâches. On obtient 1000xK* médoïdes --> Phase 2 sur les 1000xK* médoïdes #point avec Jairo: #rentrer dans code C cwt continue Rwave #passer partie sowas à C #fct qui pour deux series (ID, medoides) renvoie distance WER (Rwave ou à moi) #transformee croisee , smoothing lissage 3 composantes , + calcul pour WER #determiner nvoice noctave (entre octave + petit et + grand)