| 1 | simulateur : complètement aléatoire ? from Irish dataset ? |
| 2 | wavelets methods in statistics with R - p180 |
| 3 | |
| 4 | 00-convertir2009 et 2010.R |
| 5 | 01-extractFeatures.R pour 2009 [utilise Stbr.R] (car on prédit 2010, pas besoin) |
| 6 | 02-cluster2009.R |
| 7 | 03-compute-sum-of-classes2009.R |
| 8 | 05-cluster2WER-2009.R |
| 9 | 06-prediction.R |
| 10 | |
| 11 | Essayer distance wdist du package biwavelet ? |
| 12 | |
| 13 | geometric structure of high dim data and dim reduction 2011 |
| 14 | |
| 15 | https://docs.docker.com/engine/getstarted/step_one/ |
| 16 | |
| 17 | A faire: |
| 18 | - finir les experiences (sur nb de classes, nb de curves / chunk, nb de procs) |
| 19 | et sur d'autres architectures |
| 20 | |
| 21 | dans old_C_code/build : |
| 22 | cmake ../stage1/src |
| 23 | make |
| 24 | |
| 25 | dans data/, lancer R puis : |
| 26 | source("../old_C_code/wrapper.R") |
| 27 | serialize("../old_C_code/build", "2009.csv","2009.bin",1) |
| 28 | library(parallel) |
| 29 | np = detectCores() |
| 30 | nbSeriesPerChunk = 3000 |
| 31 | nbClusters = 20 |
| 32 | ppam_exe("../old_C_code/build",np,"2009.bin",nbSeriesPerChunk,nbClusters) |
| 33 | C = getMedoids("../old_C_code/build", "ppamResult.xml", "ppamFinalSeries.bin") |
| 34 | first100series = deserialize("../old_C_code/build", "2009.bin", "2009.csv.part", "1-100") |
| 35 | distor = getDistor("../old_C_code/build", "ppamResult.xml", "2009.bin") |
| 36 | |
| 37 | - interface matrice -> binaire |
| 38 | OK |
| 39 | |
| 40 | - courbe synchrone |
| 41 | ?? |
| 42 | |
| 43 | Piste à explorer pour les comparaisons: H20 |
| 44 | |
| 45 | renvoyer nombre d'individues par classe ? (+ somme ?) |
| 46 | hypothèse : données déjà ordonnées 48 1/2H sur 365j |
| 47 | utiliser du mixmod avec modèles allongés |
| 48 | doit toutner sur machine plutôt standard, utilisateur "lambda" |
| 49 | utiliser Rcpp ? |
| 50 | |
| 51 | ===== |
| 52 | |
| 53 | strategies for upscaling |
| 54 | From 25K to 25M : in 1000 chunks of 25K |
| 55 | Reference values : |
| 56 | K0 = 200 super consumers (SC) |
| 57 | K∗ = 15 nal clusters |
| 58 | 1st strategy |
| 59 | Do 1000 times ONLY Energycon's 1st-step strategy on 25K clients |
| 60 | With the 1000 × K0 SC perform a 2-step run leading to K∗ clusters |
| 61 | |
| 62 | --> il faut lancer 1000(param: nbTasks?) tâches avec itérations (éventuelles) |
| 63 | --> écrire tous les résultats, puis les récupérer pour démarrer : |
| 64 | --> phase 2 sur 1000xK0 médoïdes |
| 65 | |
| 66 | 2nd strategy |
| 67 | Do 1000 times Energycon's 2-step strategy on 25K clients leading to |
| 68 | 1000 × K∗ intermediate clusters |
| 69 | Treat the intermediate clusters as individual curves and perform a |
| 70 | single 2-step run to get K∗ final clusters |
| 71 | |
| 72 | --> 1000(nbTasks) tâches avec itérations possibles, puis phase 2 en fin de chaqune des 1000 |
| 73 | tâches. On obtient 1000xK* médoïdes |
| 74 | --> Phase 2 sur les 1000xK* médoïdes |