TODO: unit tests for simil days
[talweg.git] / pkg / R / computeForecast.R
index 0585e1b..a4a539a 100644 (file)
-#' @title get Forecast
+#' Compute forecast
 #'
-#' @description Predict time-series curves for the selected days indices (lines in data).
+#' Predict time-series curves ("tomorrows") at the selected days indices ("todays").
+#' This function just runs a loop over all requested indices, and stores the individual
+#' forecasts into a list which is then turned into a Forecast object.
 #'
-#' @param data Dataset, object of type \code{Data} output of \code{getData}
-#' @param indices Days indices where to forecast (the day after)
-#' @param forecaster Name of the main forcaster
+#' @param data Object of class Data, output of \code{getData()}.
+#' @param indices Indices where to forecast (the day after); integers relative to the
+#'   beginning of data, or (convertible to) Date objects.
+#' @param forecaster Name of the main forecaster; more details: ?F_<forecastername>
 #' \itemize{
-#'   \item Persistence : use values of last (similar, next) day
-#'   \item Neighbors : use values from the k closest neighbors' tomorrows
-#'   \item Average : global average of all the (similar) "tomorrow of past"
+#'   \item Persistence : use last (similar, next) day
+#'   \item Neighbors : weighted tomorrows of similar days
+#'   \item Average : average tomorrow of all same day-in-week
 #'   \item Zero : just output 0 (benchmarking purpose)
 #' }
-#' @param pjump How to predict the jump at the interface between two days ?
+#' @param pjump Function to predict the jump at the interface between two days;
+#'   more details: ?J_<functionname>
 #' \itemize{
-#'   \item Persistence : use last (similar) day values
-#'   \item Neighbors: re-use the weights optimized in corresponding forecaster
+#'   \item Persistence : use last (similar, next) day
+#'   \item Neighbors: re-use the weights from F_Neighbors
 #'   \item Zero: just output 0 (no adjustment)
 #' }
-#' @param memory Data depth (in days) to be used for prediction
-#' @param horizon Number of time steps to predict
-#' @param ... Additional parameters for the forecasting models
+#' @param memory Data depth (in days) to be used for prediction.
+#' @param horizon Number of time steps to predict.
+#' @param ncores Number of cores for parallel execution (1 to disable).
+#' @param ... Additional parameters for the forecasting models.
 #'
-#' @return A list with the following items
-#' \itemize{
-#'   \item serie: forecasted serie
-#'   \item params: corresponding list of parameters (weights, neighbors...)
-#'   \item index: corresponding index in data object
-#' }
+#' @return An object of class Forecast
 #'
 #' @examples
-#' ts_data = system.file("extdata","pm10_mesures_H_loc.csv",package="talweg")
-#' exo_data = system.file("extdata","meteo_extra_noNAs.csv",package="talweg")
-#' data = getData(ts_data, exo_data, input_tz = "Europe/Paris",
-#'   working_tz="Europe/Paris", predict_at=7)
-#' pred = computeForecast(data, 2200:2230, "Persistence", "Persistence", 500, 12)
+#' ts_data <- system.file("extdata","pm10_mesures_H_loc.csv",package="talweg")
+#' exo_data <- system.file("extdata","meteo_extra_noNAs.csv",package="talweg")
+#' data <- getData(ts_data, exo_data, input_tz="GMT", working_tz="GMT",
+#'   predict_at=7, limit=200)
+#' pred <- computeForecast(data, 100:130, "Persistence", "Zero",
+#'   memory=50, horizon=12, ncores=1)
 #' \dontrun{#Sketch for real-time mode:
-#' data = new("Data", ...)
-#' forecaster = new(..., data=data)
+#' data <- Data$new()
+#' forecaster <- MyForecaster$new(myJumpPredictFunc)
 #' repeat {
-#'   data$append(some_new_data)
-#'   pred = forecaster$predict(data$getSize(), ...)
+#'   # In the morning 7am+ or afternoon 1pm+:
+#'   data$append(
+#'     times_from_H+1_yersteday_to_Hnow,
+#'     PM10_values_of_last_24h,
+#'     exogenous_measures_of_last_24h,
+#'     exogenous_predictions_for_next_24h)
+#'   pred <- forecaster$predictSerie(data, data$getSize(), ...)
 #'   #do_something_with_pred
 #' }}
 #' @export
 computeForecast = function(data, indices, forecaster, pjump,
-       memory=Inf, horizon=data$getStdHorizon(), ...)
+       memory=Inf, horizon=data$getStdHorizon(), ncores=3, ...)
 {
        # (basic) Arguments sanity checks
        horizon = as.integer(horizon)[1]
-       if (horizon<=0 || horizon>length(data$getCenteredSerie(2)))
+       if (horizon<=0 || horizon>length(data$getCenteredSerie(1)))
                stop("Horizon too short or too long")
-       indices = sapply( seq_along(indices), function(i) dateIndexToInteger(indices[i], data) )
-       if (any(indices<=0 | indices>data$getSize()))
+       integer_indices = sapply(indices, function(i) dateIndexToInteger(i,data))
+       if (any(integer_indices<=0 | integer_indices>data$getSize()))
                stop("Indices out of range")
-       indices = sapply(indices, dateIndexToInteger, data)
-       if (!is.character(forecaster))
-               stop("forecaster (name) should be of class character") #pjump could be NULL
+       if (!is.character(forecaster) || !is.character(pjump))
+               stop("forecaster (name) and pjump (function) should be of class character")
+
+       pred = Forecast$new( sapply(indices, function(i) integerIndexToDate(i,data)) )
+       forecaster_class_name = getFromNamespace(
+               paste(forecaster,"Forecaster",sep=""), "talweg")
+       forecaster = forecaster_class_name$new( #.pjump =
+               getFromNamespace(paste("get",pjump,"JumpPredict",sep=""), "talweg"))
+
+       if (ncores > 1 && requireNamespace("parallel",quietly=TRUE))
+       {
+               p <- parallel::mclapply(seq_along(integer_indices), function(i) {
+                       list(
+                               "forecast" = forecaster$predictSerie(
+                                       data, integer_indices[i], memory, horizon, ...),
+                               "params"= forecaster$getParameters(),
+                               "index" = integer_indices[i] )
+                       }, mc.cores=ncores)
+       }
+       else
+       {
+               p <- lapply(seq_along(integer_indices), function(i) {
+                       list(
+                               "forecast" = forecaster$predictSerie(
+                                       data, integer_indices[i], memory, horizon, ...),
+                               "params"= forecaster$getParameters(),
+                               "index" = integer_indices[i] )
+                       })
+       }
 
-       pred = Forecast$new()
-       forecaster_class_name = getFromNamespace(paste(forecaster,"Forecaster",sep=""), "talweg")
-       forecaster = forecaster_class_name$new(data=data,
-               pjump = getFromNamespace(paste("get",pjump,"JumpPredict",sep=""), "talweg"))
-       for (today in indices)
+       # TODO: find a way to fill pred in //...
+       for (i in seq_along(integer_indices))
        {
                pred$append(
-                       new_serie = forecaster$predictSerie(today, memory, horizon, ...),
-                       new_params = forecaster$getParameters(),
-                       new_index = today
+                       forecast = p[[i]]$forecast,
+                       params = p[[i]]$params,
+                       index_in_data = p[[i]]$index
                )
        }
        pred