X-Git-Url: https://git.auder.net/?a=blobdiff_plain;f=TODO;h=96a8221f6b61b77fa95f0d3e59cab4b50f3ab899;hb=c33af7e44b802c182ea92c79b56a72cae3007301;hp=9fd325a736836bf28f28e9601199a07ccc429d6e;hpb=14cb6cf8266c0e1299f16a4b2352f54dbae26f44;p=epclust.git diff --git a/TODO b/TODO index 9fd325a..96a8221 100644 --- a/TODO +++ b/TODO @@ -18,25 +18,21 @@ A faire: - finir les experiences (sur nb de classes, nb de curves / chunk, nb de procs) et sur d'autres architectures - - - - dans old_C_code/build : cmake ../stage1/src make dans data/, lancer R puis : source("../old_C_code/wrapper.R") -serialize("../old_C_code/build", "2009.csv","2009.bin") - - - - ppam_exe("build",np,"pathTo2010.bin","nbSeriesPerChunk nbClusters 1 2") - C = getMedoids("build", "ppamResult.xml", "ppamFinalSeries.bin") - quelques_series = deserialize("pathTo2010.bin", rangs...) - #plot C ... et quelques_series ... - getDistor("buid", "ppamResult.xml", "pathTo2010.bin") +serialize("../old_C_code/build", "2009.csv","2009.bin",1) +library(parallel) +np = detectCores() +nbSeriesPerChunk = 3000 +nbClusters = 20 +ppam_exe("../old_C_code/build",np,"2009.bin",nbSeriesPerChunk,nbClusters) +C = getMedoids("../old_C_code/build", "ppamResult.xml", "ppamFinalSeries.bin") +first100series = deserialize("../old_C_code/build", "2009.bin", "2009.csv.part", "1-100") +distor = getDistor("../old_C_code/build", "ppamResult.xml", "2009.bin") - interface matrice -> binaire OK @@ -45,3 +41,41 @@ serialize("../old_C_code/build", "2009.csv","2009.bin") ?? Piste à explorer pour les comparaisons: H20 + +renvoyer nombre d'individues par classe ? (+ somme ?) +hypothèse : données déjà ordonnées 48 1/2H sur 365j +utiliser du mixmod avec modèles allongés +doit toutner sur machine plutôt standard, utilisateur "lambda" +utiliser Rcpp ? + +===== + +strategies for upscaling +From 25K to 25M : in 1000 chunks of 25K +Reference values : + K0 = 200 super consumers (SC) + K∗ = 15 nal clusters +1st strategy + Do 1000 times ONLY Energycon's 1st-step strategy on 25K clients + With the 1000 × K0 SC perform a 2-step run leading to K∗ clusters + +--> il faut lancer 1000(param: nbTasks?) tâches avec itérations (éventuelles) +--> écrire tous les résultats, puis les récupérer pour démarrer : +--> phase 2 sur 1000xK0 médoïdes + +2nd strategy + Do 1000 times Energycon's 2-step strategy on 25K clients leading to + 1000 × K∗ intermediate clusters + Treat the intermediate clusters as individual curves and perform a + single 2-step run to get K∗ final clusters + +--> 1000(nbTasks) tâches avec itérations possibles, puis phase 2 en fin de chaqune des 1000 +tâches. On obtient 1000xK* médoïdes +--> Phase 2 sur les 1000xK* médoïdes + +#point avec Jairo: +#rentrer dans code C cwt continue Rwave +#passer partie sowas à C +#fct qui pour deux series (ID, medoides) renvoie distance WER (Rwave ou à moi) +#transformee croisee , smoothing lissage 3 composantes , + calcul pour WER +#determiner nvoice noctave (entre octave + petit et + grand)