rappor/pipeline/metric_status.R

*2abb3134SXin Li#!/usr/bin/Rscript
*2abb3134SXin Li#
*2abb3134SXin Li# Write an overview of task status, per-metric task status, task histograms.
*2abb3134SXin Li
*2abb3134SXin Lilibrary(data.table)
*2abb3134SXin Lilibrary(ggplot2)
*2abb3134SXin Li
*2abb3134SXin Lioptions(stringsAsFactors = FALSE)  # get rid of annoying behavior
*2abb3134SXin Li
*2abb3134SXin LiLog <- function(fmt, ...) {
*2abb3134SXin Li  cat(sprintf(fmt, ...))
*2abb3134SXin Li  cat('\n')
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Li# max of non-NA values; NA if there are none
*2abb3134SXin LiMaybeMax <- function(values) {
*2abb3134SXin Li  v <- values[!is.na(values)]
*2abb3134SXin Li  if (length(v) == 0) {
*2abb3134SXin Li    m <- NA
*2abb3134SXin Li  } else {
*2abb3134SXin Li    m <- max(v)
*2abb3134SXin Li  }
*2abb3134SXin Li  as.numeric(m)  # data.table requires this; otherwise we get type errors
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Li# mean of non-NA values; NA if there are none
*2abb3134SXin LiMaybeMean <- function(values) {
*2abb3134SXin Li  v <- values[!is.na(values)]
*2abb3134SXin Li  if (length(v) == 0) {
*2abb3134SXin Li    m <- NA
*2abb3134SXin Li  } else {
*2abb3134SXin Li    m <- mean(v)
*2abb3134SXin Li  }
*2abb3134SXin Li  as.numeric(m)  # data.table require this; otherwise we get type errors
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin LiWriteDistOverview <- function(summary, output_dir) {
*2abb3134SXin Li  s <- data.table(summary)  # data.table syntax is easier here
*2abb3134SXin Li
*2abb3134SXin Li  by_metric <-  s[ , list(
*2abb3134SXin Li      params_file = unique(params_file),
*2abb3134SXin Li      map_file = unique(map_file),
*2abb3134SXin Li      days = length(date),
*2abb3134SXin Li      max_num_reports = MaybeMax(num_reports),
*2abb3134SXin Li
*2abb3134SXin Li      # summarize status
*2abb3134SXin Li      ok = sum(status == 'OK'),
*2abb3134SXin Li      fail = sum(status == 'FAIL'),
*2abb3134SXin Li      timeout = sum(status == 'TIMEOUT'),
*2abb3134SXin Li      skipped = sum(status == 'SKIPPED'),
*2abb3134SXin Li
*2abb3134SXin Li      # TODO: Need to document the meaning of these metrics.
*2abb3134SXin Li      # All could be NA
*2abb3134SXin Li      # KiB -> MB
*2abb3134SXin Li      #max_vm5_peak_mb = MaybeMax(vm5_peak_kib * 1024 / 1e6),
*2abb3134SXin Li      #mean_vm5_mean_mb = MaybeMean(vm5_mean_kib * 1024 / 1e6),
*2abb3134SXin Li
*2abb3134SXin Li      mean_secs = MaybeMean(seconds),
*2abb3134SXin Li      mean_allocated_mass = MaybeMean(allocated_mass)
*2abb3134SXin Li
*2abb3134SXin Li      # unique failure reasons
*2abb3134SXin Li      # This can be used when there are different call stacks.
*2abb3134SXin Li      #fail_reasons = length(unique(fail_reason[fail_reason != ""]))
*2abb3134SXin Li      ), by=metric]
*2abb3134SXin Li
*2abb3134SXin Li  # Case insensitive sort by metric name
*2abb3134SXin Li  by_metric <- by_metric[order(tolower(by_metric$metric)), ]
*2abb3134SXin Li
*2abb3134SXin Li  overview_path <- file.path(output_dir, 'overview.csv')
*2abb3134SXin Li  write.csv(by_metric, file = overview_path, row.names = FALSE)
*2abb3134SXin Li  Log("Wrote %s", overview_path)
*2abb3134SXin Li
*2abb3134SXin Li  by_metric
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin LiWriteDistMetricStatus <- function(summary, output_dir) {
*2abb3134SXin Li  # Write status.csv, num_reports.csv, and mass.csv for each metric.
*2abb3134SXin Li
*2abb3134SXin Li  s <- data.table(summary)
*2abb3134SXin Li
*2abb3134SXin Li  # loop over unique metrics, and write a CSV for each one
*2abb3134SXin Li  for (m in unique(s$metric)) {
*2abb3134SXin Li    # Select cols, and convert units.  Don't need params / map / metric.
*2abb3134SXin Li    subframe <- s[s$metric == m,
*2abb3134SXin Li                  list(job_id, date, status,
*2abb3134SXin Li                       #vm5_peak_mb = vm5_peak_kib * 1024 / 1e6,
*2abb3134SXin Li                       #vm5_mean_mb = vm5_mean_kib * 1024 / 1e6,
*2abb3134SXin Li                       num_reports,
*2abb3134SXin Li                       seconds,
*2abb3134SXin Li                       allocated_mass, num_rappor)]
*2abb3134SXin Li
*2abb3134SXin Li    # Sort by descending date.  Alphabetical sort works fine for YYYY-MM-DD.
*2abb3134SXin Li    subframe <- subframe[order(subframe$date, decreasing = TRUE), ]
*2abb3134SXin Li
*2abb3134SXin Li    out_path = file.path(output_dir, m, 'status.csv')
*2abb3134SXin Li    write.csv(subframe, file = out_path, row.names = FALSE)
*2abb3134SXin Li    Log("Wrote %s", out_path)
*2abb3134SXin Li  }
*2abb3134SXin Li
*2abb3134SXin Li  # This one is just for plotting with dygraphs.  TODO: can dygraphs do
*2abb3134SXin Li  # something smarter?  Maybe you need to select the column in JavaScript, and
*2abb3134SXin Li  # pass it an array, rather than CSV text.
*2abb3134SXin Li  for (m in unique(s$metric)) {
*2abb3134SXin Li    f1 <- s[s$metric == m, list(date, num_reports)]
*2abb3134SXin Li    path1 <- file.path(output_dir, m, 'num_reports.csv')
*2abb3134SXin Li    # NOTE: dygraphs (only in Firefox?) doesn't like the quotes around
*2abb3134SXin Li    # "2015-04-03".  In general, we can't turn off quotes, because strings with
*2abb3134SXin Li    # double quotes will be invalid CSV files.  But in this case, we only have
*2abb3134SXin Li    # date and number columns, so we can.  dygraphs is mistaken here.
*2abb3134SXin Li    write.csv(f1, file = path1, row.names = FALSE, quote = FALSE)
*2abb3134SXin Li    Log("Wrote %s", path1)
*2abb3134SXin Li
*2abb3134SXin Li    # Write unallocated mass.  TODO: Write the other 2 vars too?
*2abb3134SXin Li    f2 <- s[s$metric == m,
*2abb3134SXin Li            list(date,
*2abb3134SXin Li                 unallocated_mass = 1.0 - allocated_mass)]
*2abb3134SXin Li
*2abb3134SXin Li    path2 <- file.path(output_dir, m, 'mass.csv')
*2abb3134SXin Li    write.csv(f2, file = path2, row.names = FALSE, quote = FALSE)
*2abb3134SXin Li    Log("Wrote %s", path2)
*2abb3134SXin Li  }
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin LiWritePlot <- function(p, outdir, filename, width = 800, height = 600) {
*2abb3134SXin Li  filename <- file.path(outdir, filename)
*2abb3134SXin Li  png(filename, width = width, height = height)
*2abb3134SXin Li  plot(p)
*2abb3134SXin Li  dev.off()
*2abb3134SXin Li  Log('Wrote %s', filename)
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Li# Make sure the histogram has some valid input.  If we don't do this, ggplot
*2abb3134SXin Li# blows up with an unintuitive error message.
*2abb3134SXin LiCheckHistogramInput <- function(v) {
*2abb3134SXin Li  if (all(is.na(v))) {
*2abb3134SXin Li    arg_name <- deparse(substitute(v))  # R idiom to get name
*2abb3134SXin Li    Log('FATAL: All values in %s are NA (no successful runs?)', arg_name)
*2abb3134SXin Li    quit(status = 1)
*2abb3134SXin Li  }
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin LiWriteDistHistograms <- function(s, output_dir) {
*2abb3134SXin Li  CheckHistogramInput(s$allocated_mass)
*2abb3134SXin Li
*2abb3134SXin Li  p <- qplot(s$allocated_mass, geom = "histogram")
*2abb3134SXin Li  t <- ggtitle("Allocated Mass by Task")
*2abb3134SXin Li  x <- xlab("allocated mass")
*2abb3134SXin Li  y <- ylab("number of tasks")
*2abb3134SXin Li  WritePlot(p + t + x + y, output_dir, 'allocated_mass.png')
*2abb3134SXin Li
*2abb3134SXin Li  CheckHistogramInput(s$num_rappor)
*2abb3134SXin Li
*2abb3134SXin Li  p <- qplot(s$num_rappor, geom = "histogram")
*2abb3134SXin Li  t <- ggtitle("Detected Strings by Task")
*2abb3134SXin Li  x <- xlab("detected strings")
*2abb3134SXin Li  y <- ylab("number of tasks")
*2abb3134SXin Li  WritePlot(p + t + x + y, output_dir, 'num_rappor.png')
*2abb3134SXin Li
*2abb3134SXin Li  CheckHistogramInput(s$num_reports)
*2abb3134SXin Li
*2abb3134SXin Li  p <- qplot(s$num_reports / 1e6, geom = "histogram")
*2abb3134SXin Li  t <- ggtitle("Raw Reports by Task")
*2abb3134SXin Li  x <- xlab("millions of reports")
*2abb3134SXin Li  y <- ylab("number of tasks")
*2abb3134SXin Li  WritePlot(p + t + x + y, output_dir, 'num_reports.png')
*2abb3134SXin Li
*2abb3134SXin Li  CheckHistogramInput(s$seconds)
*2abb3134SXin Li
*2abb3134SXin Li  p <- qplot(s$seconds, geom = "histogram")
*2abb3134SXin Li  t <- ggtitle("Analysis Duration by Task")
*2abb3134SXin Li  x <- xlab("seconds")
*2abb3134SXin Li  y <- ylab("number of tasks")
*2abb3134SXin Li  WritePlot(p + t + x + y, output_dir, 'seconds.png')
*2abb3134SXin Li
*2abb3134SXin Li  # NOTE: Skipping this for 'series' jobs.
*2abb3134SXin Li  if (sum(!is.na(s$vm5_peak_kib)) > 0) {
*2abb3134SXin Li    p <- qplot(s$vm5_peak_kib * 1024 / 1e6, geom = "histogram")
*2abb3134SXin Li    t <- ggtitle("Peak Memory Usage by Task")
*2abb3134SXin Li    x <- xlab("Peak megabytes (1e6 bytes) of memory")
*2abb3134SXin Li    y <- ylab("number of tasks")
*2abb3134SXin Li    WritePlot(p + t + x + y, output_dir, 'memory.png')
*2abb3134SXin Li  }
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin LiProcessAllDist <- function(s, output_dir) {
*2abb3134SXin Li  Log('dist: Writing per-metric status.csv')
*2abb3134SXin Li  WriteDistMetricStatus(s, output_dir)
*2abb3134SXin Li
*2abb3134SXin Li  Log('dist: Writing histograms')
*2abb3134SXin Li  WriteDistHistograms(s, output_dir)
*2abb3134SXin Li
*2abb3134SXin Li  Log('dist: Writing aggregated overview.csv')
*2abb3134SXin Li  WriteDistOverview(s, output_dir)
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Li# Write the single CSV file loaded by assoc-overview.html.
*2abb3134SXin LiWriteAssocOverview <- function(summary, output_dir) {
*2abb3134SXin Li  s <- data.table(summary)  # data.table syntax is easier here
*2abb3134SXin Li
*2abb3134SXin Li  by_metric <-  s[ , list(
*2abb3134SXin Li      #params_file = unique(params_file),
*2abb3134SXin Li      #map_file = unique(map_file),
*2abb3134SXin Li
*2abb3134SXin Li      days = length(date),
*2abb3134SXin Li      max_num_reports = MaybeMax(num_reports),
*2abb3134SXin Li
*2abb3134SXin Li      # summarize status
*2abb3134SXin Li      ok = sum(status == 'OK'),
*2abb3134SXin Li      fail = sum(status == 'FAIL'),
*2abb3134SXin Li      timeout = sum(status == 'TIMEOUT'),
*2abb3134SXin Li      skipped = sum(status == 'SKIPPED'),
*2abb3134SXin Li
*2abb3134SXin Li      mean_total_secs = MaybeMean(total_elapsed_seconds),
*2abb3134SXin Li      mean_em_secs = MaybeMean(em_elapsed_seconds)
*2abb3134SXin Li
*2abb3134SXin Li      ), by=list(metric)]
*2abb3134SXin Li
*2abb3134SXin Li  # Case insensitive sort by metric name
*2abb3134SXin Li  by_metric <- by_metric[order(tolower(by_metric$metric)), ]
*2abb3134SXin Li
*2abb3134SXin Li  overview_path <- file.path(output_dir, 'assoc-overview.csv')
*2abb3134SXin Li  write.csv(by_metric, file = overview_path, row.names = FALSE)
*2abb3134SXin Li  Log("Wrote %s", overview_path)
*2abb3134SXin Li
*2abb3134SXin Li  by_metric
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Li# Write the CSV files loaded by assoc-metric.html -- that is, one
*2abb3134SXin Li# metric-status.csv for each metric name.
*2abb3134SXin LiWriteAssocMetricStatus <- function(summary, output_dir) {
*2abb3134SXin Li  s <- data.table(summary)
*2abb3134SXin Li  csv_list <- unique(s[, list(metric)])
*2abb3134SXin Li  for (i in 1:nrow(csv_list)) {
*2abb3134SXin Li    u <- csv_list[i, ]
*2abb3134SXin Li    # Select cols, and convert units.  Don't need params / map / metric.
*2abb3134SXin Li    by_pair <- s[s$metric == u$metric,
*2abb3134SXin Li                 list(days = length(date),
*2abb3134SXin Li                      max_num_reports = MaybeMax(num_reports),
*2abb3134SXin Li
*2abb3134SXin Li                      # summarize status
*2abb3134SXin Li                      ok = sum(status == 'OK'),
*2abb3134SXin Li                      fail = sum(status == 'FAIL'),
*2abb3134SXin Li                      timeout = sum(status == 'TIMEOUT'),
*2abb3134SXin Li                      skipped = sum(status == 'SKIPPED'),
*2abb3134SXin Li
*2abb3134SXin Li                      mean_total_secs = MaybeMean(total_elapsed_seconds),
*2abb3134SXin Li                      mean_em_secs = MaybeMean(em_elapsed_seconds)
*2abb3134SXin Li                      ),
*2abb3134SXin Li                 by=list(var1, var2)]
*2abb3134SXin Li
*2abb3134SXin Li    # Case insensitive sort by var1 name
*2abb3134SXin Li    by_pair <- by_pair[order(tolower(by_pair$var1)), ]
*2abb3134SXin Li
*2abb3134SXin Li    csv_path <- file.path(output_dir, u$metric, 'metric-status.csv')
*2abb3134SXin Li    write.csv(by_pair, file = csv_path, row.names = FALSE)
*2abb3134SXin Li    Log("Wrote %s", csv_path)
*2abb3134SXin Li  }
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Li# This naming convention is in task_spec.py AssocTaskSpec.
*2abb3134SXin LiFormatAssocRelPath <- function(metric, var1, var2) {
*2abb3134SXin Li  v2 <- gsub('..', '_', var2, fixed = TRUE)
*2abb3134SXin Li  var_dir <- sprintf('%s_X_%s', var1, v2)
*2abb3134SXin Li  file.path(metric, var_dir)
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Li# Write the CSV files loaded by assoc-pair.html -- that is, one pair-status.csv
*2abb3134SXin Li# for each (metric, var1, var2) pair.
*2abb3134SXin LiWriteAssocPairStatus <- function(summary, output_dir) {
*2abb3134SXin Li
*2abb3134SXin Li  s <- data.table(summary)
*2abb3134SXin Li
*2abb3134SXin Li  csv_list <- unique(s[, list(metric, var1, var2)])
*2abb3134SXin Li  Log('CSV list:')
*2abb3134SXin Li  print(csv_list)
*2abb3134SXin Li
*2abb3134SXin Li  # loop over unique metrics, and write a CSV for each one
*2abb3134SXin Li  for (i in 1:nrow(csv_list)) {
*2abb3134SXin Li    u <- csv_list[i, ]
*2abb3134SXin Li
*2abb3134SXin Li    # Select cols, and convert units.  Don't need params / map / metric.
*2abb3134SXin Li    subframe <- s[s$metric == u$metric & s$var1 == u$var1 & s$var2 == u$var2,
*2abb3134SXin Li                  list(job_id, date, status,
*2abb3134SXin Li                       num_reports, d1, d2,
*2abb3134SXin Li                       total_elapsed_seconds,
*2abb3134SXin Li                       em_elapsed_seconds)]
*2abb3134SXin Li
*2abb3134SXin Li    # Sort by descending date.  Alphabetical sort works fine for YYYY-MM-DD.
*2abb3134SXin Li    subframe <- subframe[order(subframe$date, decreasing = TRUE), ]
*2abb3134SXin Li
*2abb3134SXin Li    pair_rel_path <- FormatAssocRelPath(u$metric, u$var1, u$var2)
*2abb3134SXin Li
*2abb3134SXin Li    csv_path <- file.path(output_dir, pair_rel_path, 'pair-status.csv')
*2abb3134SXin Li    write.csv(subframe, file = csv_path, row.names = FALSE)
*2abb3134SXin Li    Log("Wrote %s", csv_path)
*2abb3134SXin Li
*2abb3134SXin Li    # Write a file with the raw variable names.  Parsed by ui.sh, to pass to
*2abb3134SXin Li    # csv_to_html.py.
*2abb3134SXin Li    meta_path <- file.path(output_dir, pair_rel_path, 'pair-metadata.txt')
*2abb3134SXin Li
*2abb3134SXin Li    # NOTE: The conversion from data.table to character vector requires
*2abb3134SXin Li    # stringsAsFactors to work correctly!
*2abb3134SXin Li    lines <- as.character(u)
*2abb3134SXin Li    writeLines(lines, con = meta_path)
*2abb3134SXin Li    Log("Wrote %s", meta_path)
*2abb3134SXin Li  }
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin LiProcessAllAssoc <- function(s, output_dir) {
*2abb3134SXin Li  Log('assoc: Writing pair-status.csv for each variable pair in each metric')
*2abb3134SXin Li  WriteAssocPairStatus(s, output_dir)
*2abb3134SXin Li
*2abb3134SXin Li  Log('assoc: Writing metric-status.csv for each metric')
*2abb3134SXin Li  WriteAssocMetricStatus(s, output_dir)
*2abb3134SXin Li
*2abb3134SXin Li  Log('assoc: Writing aggregated overview.csv')
*2abb3134SXin Li  WriteAssocOverview(s, output_dir)
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Limain <- function(argv) {
*2abb3134SXin Li  # increase ggplot font size globally
*2abb3134SXin Li  theme_set(theme_grey(base_size = 16))
*2abb3134SXin Li
*2abb3134SXin Li  action = argv[[1]]
*2abb3134SXin Li  input = argv[[2]]
*2abb3134SXin Li  output_dir = argv[[3]]
*2abb3134SXin Li
*2abb3134SXin Li  if (action == 'dist') {
*2abb3134SXin Li    summary = read.csv(input)
*2abb3134SXin Li    ProcessAllDist(summary, output_dir)
*2abb3134SXin Li  } else if (action == 'assoc') {
*2abb3134SXin Li    summary = read.csv(input)
*2abb3134SXin Li    ProcessAllAssoc(summary, output_dir)
*2abb3134SXin Li  } else {
*2abb3134SXin Li    stop(sprintf('Invalid action %s', action))
*2abb3134SXin Li  }
*2abb3134SXin Li
*2abb3134SXin Li  Log('Done')
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin Liif (length(sys.frames()) == 0) {
*2abb3134SXin Li  main(commandArgs(TRUE))
*2abb3134SXin Li}