several fixes; still some issues db,bin != ascii,csv
[epclust.git] / epclust / R / computeWerDists.R
index 568a826..8eb755c 100644 (file)
@@ -4,14 +4,16 @@
 #' obtaind by \code{getSeries(indices)}
 #'
 #' @param indices Range of series indices to cluster
+#' @param getSeries Function to retrieve series (argument: 'indices', integer vector),
+#'   as columns of a matrix
+#' @param ncores Number of cores for parallel runs
 #' @inheritParams claws
-#' @inheritParams computeSynchrones
 #'
 #' @return A distances matrix of size K x K where K == length(indices)
 #'
 #' @export
 computeWerDists <- function(indices, getSeries, nb_series_per_chunk, smooth_lvl, nvoice,
-       nbytes, endian, ncores_clust=3, verbose=FALSE, parll=TRUE)
+       nbytes, endian, ncores=3, verbose=FALSE, parll=TRUE)
 {
        n <- length(indices)
        L <- length(getSeries(1)) #TODO: not very neat way to get L
@@ -27,12 +29,6 @@ computeWerDists <- function(indices, getSeries, nb_series_per_chunk, smooth_lvl,
        # Compute the getSeries(indices) CWT, and store the results in the binary file
        computeSaveCWT <- function(indices)
        {
-               if (parll)
-               {
-                       # parallel workers start with an empty environment
-                       require("epclust", quietly=TRUE)
-               }
-
                # Obtain CWT as big vectors of real part + imaginary part (concatenate)
                ts_cwt <- sapply(indices, function(i) {
                        ts <- scale(ts(getSeries(i)), center=TRUE, scale=FALSE)
@@ -54,7 +50,7 @@ computeWerDists <- function(indices, getSeries, nb_series_per_chunk, smooth_lvl,
                re_part + 1i * im_part
        }
 
-       # Compute distance between columns i and j for j>i
+       # Compute distances between columns i and j for j>i
        computeDistances <- function(i)
        {
                if (parll)
@@ -87,30 +83,30 @@ computeWerDists <- function(indices, getSeries, nb_series_per_chunk, smooth_lvl,
                Xwer_dist[i,i] <- 0.
        }
 
+       if (verbose)
+               cat(paste("--- Precompute and serialize synchrones CWT\n", sep=""))
+
+       # Split indices by packets of length at most nb_cwt_per_chunk
+       indices_cwt <- .splitIndices(seq_len(n), nb_cwt_per_chunk)
+       # NOTE: next loop could potentially be run in //. Indices would be permuted (by
+       # serialization order), and synchronicity would be required because of concurrent
+       # writes. Probably not worth the effort - but possible to gain some bits of speed.
+       for (inds in indices_cwt)
+               computeSaveCWT(inds)
+
        if (parll)
        {
                # outfile=="" to see stderr/stdout on terminal
                cl <-
                        if (verbose)
-                               parallel::makeCluster(ncores_clust, outfile="")
+                               parallel::makeCluster(ncores, outfile="")
                        else
-                               parallel::makeCluster(ncores_clust)
+                               parallel::makeCluster(ncores)
                Xwer_dist_desc <- bigmemory::describe(Xwer_dist)
-               parallel::clusterExport(cl, varlist=c("parll","nb_cwt_per_chunk","n","L",
-                       "Xwer_dist_desc","noctave","nvoice","getCWT"), envir=environment())
+               parallel::clusterExport(cl, envir=environment(),
+                       varlist=c("parll","n","L","Xwer_dist_desc","getCWT","verbose"))
        }
 
-       if (verbose)
-               cat(paste("--- Precompute and serialize synchrones CWT\n", sep=""))
-
-       # Split indices by packets of length at most nb_cwt_per_chunk
-       indices_cwt <- .splitIndices(seq_len(n), nb_cwt_per_chunk)
-       ignored <-
-               if (parll)
-                       parallel::parLapply(cl, indices_cwt, computeSaveCWT)
-               else
-                       lapply(indices_cwt, computeSaveCWT)
-
        if (verbose)
                cat(paste("--- Compute WER distances\n", sep=""))