avancée sur compréhension de epclust/R/stage2.R
[epclust.git] / TODO
1 simulateur : complètement aléatoire ? from Irish dataset ?
2 wavelets methods in statistics with R - p180
3
4 00-convertir2009 et 2010.R
5 01-extractFeatures.R pour 2009 [utilise Stbr.R] (car on prédit 2010, pas besoin)
6 02-cluster2009.R
7 03-compute-sum-of-classes2009.R
8 05-cluster2WER-2009.R
9 06-prediction.R
10
11 Essayer distance wdist du package biwavelet ?
12
13 geometric structure of high dim data and dim reduction 2011
14
15 https://docs.docker.com/engine/getstarted/step_one/
16
17 A faire:
18 - finir les experiences (sur nb de classes, nb de curves / chunk, nb de procs)
19 et sur d'autres architectures
20
21 dans old_C_code/build :
22 cmake ../stage1/src
23 make
24
25 dans data/, lancer R puis :
26 source("../old_C_code/wrapper.R")
27 serialize("../old_C_code/build", "2009.csv","2009.bin",1)
28 library(parallel)
29 np = detectCores()
30 nbSeriesPerChunk = 3000
31 nbClusters = 20
32 ppam_exe("../old_C_code/build",np,"2009.bin",nbSeriesPerChunk,nbClusters)
33 C = getMedoids("../old_C_code/build", "ppamResult.xml", "ppamFinalSeries.bin")
34 first100series = deserialize("../old_C_code/build", "2009.bin", "2009.csv.part", "1-100")
35 distor = getDistor("../old_C_code/build", "ppamResult.xml", "2009.bin")
36
37 - interface matrice -> binaire
38 OK
39
40 - courbe synchrone
41 ??
42
43 Piste à explorer pour les comparaisons: H20
44
45 renvoyer nombre d'individues par classe ? (+ somme ?)
46 hypothèse : données déjà ordonnées 48 1/2H sur 365j
47 utiliser du mixmod avec modèles allongés
48 doit toutner sur machine plutôt standard, utilisateur "lambda"
49 utiliser Rcpp ?
50
51 =====
52
53 strategies for upscaling
54 From 25K to 25M : in 1000 chunks of 25K
55 Reference values :
56 K0 = 200 super consumers (SC)
57 K∗ = 15 nal clusters
58 1st strategy
59 Do 1000 times ONLY Energycon's 1st-step strategy on 25K clients
60 With the 1000 × K0 SC perform a 2-step run leading to K∗ clusters
61
62 --> il faut lancer 1000(param: nbTasks?) tâches avec itérations (éventuelles)
63 --> écrire tous les résultats, puis les récupérer pour démarrer :
64 --> phase 2 sur 1000xK0 médoïdes
65
66 2nd strategy
67 Do 1000 times Energycon's 2-step strategy on 25K clients leading to
68 1000 × K∗ intermediate clusters
69 Treat the intermediate clusters as individual curves and perform a
70 single 2-step run to get K∗ final clusters
71
72 --> 1000(nbTasks) tâches avec itérations possibles, puis phase 2 en fin de chaqune des 1000
73 tâches. On obtient 1000xK* médoïdes
74 --> Phase 2 sur les 1000xK* médoïdes