X-Git-Url: https://git.auder.net/?p=epclust.git;a=blobdiff_plain;f=TODO;h=f5e00156d85ec745d10934a03333ecbe5a475933;hp=96a8221f6b61b77fa95f0d3e59cab4b50f3ab899;hb=62deb4244895a20a35397dfb062f0b9fe94c5012;hpb=3eef8d3df59ded9a281cff51f79fe824198a7427 diff --git a/TODO b/TODO index 96a8221..f5e0015 100644 --- a/TODO +++ b/TODO @@ -1,13 +1,7 @@ simulateur : complètement aléatoire ? from Irish dataset ? +wmtsa : wavBootstrap wavelets methods in statistics with R - p180 -00-convertir2009 et 2010.R -01-extractFeatures.R pour 2009 [utilise Stbr.R] (car on prédit 2010, pas besoin) -02-cluster2009.R -03-compute-sum-of-classes2009.R -05-cluster2WER-2009.R -06-prediction.R - Essayer distance wdist du package biwavelet ? geometric structure of high dim data and dim reduction 2011 @@ -18,61 +12,14 @@ A faire: - finir les experiences (sur nb de classes, nb de curves / chunk, nb de procs) et sur d'autres architectures -dans old_C_code/build : -cmake ../stage1/src -make - -dans data/, lancer R puis : -source("../old_C_code/wrapper.R") -serialize("../old_C_code/build", "2009.csv","2009.bin",1) -library(parallel) -np = detectCores() -nbSeriesPerChunk = 3000 -nbClusters = 20 -ppam_exe("../old_C_code/build",np,"2009.bin",nbSeriesPerChunk,nbClusters) -C = getMedoids("../old_C_code/build", "ppamResult.xml", "ppamFinalSeries.bin") -first100series = deserialize("../old_C_code/build", "2009.bin", "2009.csv.part", "1-100") -distor = getDistor("../old_C_code/build", "ppamResult.xml", "2009.bin") - -- interface matrice -> binaire - OK - - - courbe synchrone - ?? - Piste à explorer pour les comparaisons: H20 renvoyer nombre d'individues par classe ? (+ somme ?) hypothèse : données déjà ordonnées 48 1/2H sur 365j utiliser du mixmod avec modèles allongés -doit toutner sur machine plutôt standard, utilisateur "lambda" +doit tourner sur machine plutôt standard, utilisateur "lambda" utiliser Rcpp ? -===== - -strategies for upscaling -From 25K to 25M : in 1000 chunks of 25K -Reference values : - K0 = 200 super consumers (SC) - K∗ = 15 nal clusters -1st strategy - Do 1000 times ONLY Energycon's 1st-step strategy on 25K clients - With the 1000 × K0 SC perform a 2-step run leading to K∗ clusters - ---> il faut lancer 1000(param: nbTasks?) tâches avec itérations (éventuelles) ---> écrire tous les résultats, puis les récupérer pour démarrer : ---> phase 2 sur 1000xK0 médoïdes - -2nd strategy - Do 1000 times Energycon's 2-step strategy on 25K clients leading to - 1000 × K∗ intermediate clusters - Treat the intermediate clusters as individual curves and perform a - single 2-step run to get K∗ final clusters - ---> 1000(nbTasks) tâches avec itérations possibles, puis phase 2 en fin de chaqune des 1000 -tâches. On obtient 1000xK* médoïdes ---> Phase 2 sur les 1000xK* médoïdes - #point avec Jairo: #rentrer dans code C cwt continue Rwave #passer partie sowas à C