rappor/pipeline/combine_status.py

*2abb3134SXin Li#!/usr/bin/python
*2abb3134SXin Li"""Summarize the results of many RAPPOR analysis runs.
*2abb3134SXin Li
*2abb3134SXin LiTakes a list of STATUS.txt files on stdin, and reads the corresponding spec.txt
*2abb3134SXin Liand log.txt files.  Writes a CSV to stdout.  Row key is (metric, date).
*2abb3134SXin Li"""
*2abb3134SXin Li
*2abb3134SXin Liimport collections
*2abb3134SXin Liimport csv
*2abb3134SXin Liimport json
*2abb3134SXin Liimport os
*2abb3134SXin Liimport re
*2abb3134SXin Liimport sys
*2abb3134SXin Li
*2abb3134SXin Li
*2abb3134SXin Li# Parse bash 'time' output:
*2abb3134SXin Li# real    0m11.578s
*2abb3134SXin Li
*2abb3134SXin Li# TODO: Parse the time from metrics.json instead.
*2abb3134SXin LiTIMING_RE = re.compile(
*2abb3134SXin Li    r'real \s+ (\d+) m ([\d.]+) s', re.VERBOSE)
*2abb3134SXin Li
*2abb3134SXin Li# TODO: Could have decode-dist and decode-assoc output the PID?
*2abb3134SXin LiPID_RE = re.compile(
*2abb3134SXin Li    r'write_pid.py: PID (\d+)')  # not VERBOSE, spaces are literal
*2abb3134SXin Li
*2abb3134SXin Li
*2abb3134SXin Lidef ParseMemCsv(f):
*2abb3134SXin Li  """Compute summary stats for memory.
*2abb3134SXin Li
*2abb3134SXin Li  vm5_peak_kib -> max(vm_peak_kib)  # over 5 second intervals.  Since it uses
*2abb3134SXin Li  the kernel, it's accurate except for takes that spike in their last 4
*2abb3134SXin Li  seconds.
*2abb3134SXin Li
*2abb3134SXin Li  vm5_mean_kib -> mean(vm_size_kib)  # over 5 second intervals
*2abb3134SXin Li  """
*2abb3134SXin Li  peak_by_pid = collections.defaultdict(list)
*2abb3134SXin Li  size_by_pid = collections.defaultdict(list)
*2abb3134SXin Li
*2abb3134SXin Li  # Parse columns we care about, by PID
*2abb3134SXin Li  c = csv.reader(f)
*2abb3134SXin Li  for i, row in enumerate(c):
*2abb3134SXin Li    if i == 0:
*2abb3134SXin Li      continue  # skip header
*2abb3134SXin Li    # looks like timestamp, pid, then (rss, peak, size)
*2abb3134SXin Li    _, pid, _, peak, size = row
*2abb3134SXin Li    if peak != '':
*2abb3134SXin Li      peak_by_pid[pid].append(int(peak))
*2abb3134SXin Li    if size != '':
*2abb3134SXin Li      size_by_pid[pid].append(int(size))
*2abb3134SXin Li
*2abb3134SXin Li  mem_by_pid = {}
*2abb3134SXin Li
*2abb3134SXin Li  # Now compute summaries
*2abb3134SXin Li  pids = peak_by_pid.keys()
*2abb3134SXin Li  for pid in pids:
*2abb3134SXin Li    peaks = peak_by_pid[pid]
*2abb3134SXin Li    vm5_peak_kib = max(peaks)
*2abb3134SXin Li
*2abb3134SXin Li    sizes = size_by_pid[pid]
*2abb3134SXin Li    vm5_mean_kib = sum(sizes) / len(sizes)
*2abb3134SXin Li
*2abb3134SXin Li    mem_by_pid[pid] = (vm5_peak_kib, vm5_mean_kib)
*2abb3134SXin Li
*2abb3134SXin Li  return mem_by_pid
*2abb3134SXin Li
*2abb3134SXin Li
*2abb3134SXin Lidef CheckJobId(job_id, parts):
*2abb3134SXin Li  """Sanity check for date or smoke test."""
*2abb3134SXin Li  if not job_id.startswith('201') and not job_id.startswith('smoke'):
*2abb3134SXin Li    raise RuntimeError(
*2abb3134SXin Li        "Expected job ID to start with '201' or 'smoke': got %r (%s)" %
*2abb3134SXin Li        (job_id, parts))
*2abb3134SXin Li
*2abb3134SXin Li
*2abb3134SXin Lidef ReadStatus(f):
*2abb3134SXin Li  status_line = f.readline().strip()
*2abb3134SXin Li  return status_line.split()[0]  # OK, TIMEOUT, FAIL
*2abb3134SXin Li
*2abb3134SXin Li
*2abb3134SXin Lidef CombineDistTaskStatus(stdin, c_out, mem_by_pid):
*2abb3134SXin Li  """Read status task paths from stdin, write CSV summary to c_out'."""
*2abb3134SXin Li
*2abb3134SXin Li  #util.log('%s', mem_by_pid)
*2abb3134SXin Li
*2abb3134SXin Li  # Parses:
*2abb3134SXin Li  # - input path for metric name and date
*2abb3134SXin Li  # - spec.txt for task params
*2abb3134SXin Li  # - STATUS.txt for task success/failure
*2abb3134SXin Li  # - metrics.json for output metrics
*2abb3134SXin Li  # - log.txt for timing, if it ran to completion
*2abb3134SXin Li  #   - and for structured data
*2abb3134SXin Li  # - join with mem by PID
*2abb3134SXin Li
*2abb3134SXin Li  header = (
*2abb3134SXin Li      'job_id', 'params_file', 'map_file',
*2abb3134SXin Li      'metric', 'date',
*2abb3134SXin Li      'vm5_peak_kib', 'vm5_mean_kib',  # set when not skipped
*2abb3134SXin Li      'seconds', 'status',
*2abb3134SXin Li      # only set when OK
*2abb3134SXin Li      'num_reports', 'num_rappor', 'allocated_mass',
*2abb3134SXin Li      # only set when failed
*2abb3134SXin Li      'fail_reason')
*2abb3134SXin Li  c_out.writerow(header)
*2abb3134SXin Li
*2abb3134SXin Li  for line in stdin:
*2abb3134SXin Li    #
*2abb3134SXin Li    # Receive a STATUS.txt path on each line of stdin, and parse it.
*2abb3134SXin Li    #
*2abb3134SXin Li    status_path = line.strip()
*2abb3134SXin Li
*2abb3134SXin Li    with open(status_path) as f:
*2abb3134SXin Li      status = ReadStatus(f)
*2abb3134SXin Li
*2abb3134SXin Li    # Path should look like this:
*2abb3134SXin Li    # ~/rappor/cron/2015-05-20__19-22-01/raw/Settings.NewTabPage/2015-05-19/STATUS.txt
*2abb3134SXin Li    parts = status_path.split('/')
*2abb3134SXin Li    job_id = parts[-5]
*2abb3134SXin Li    CheckJobId(job_id, parts)
*2abb3134SXin Li
*2abb3134SXin Li    #
*2abb3134SXin Li    # Parse the job spec
*2abb3134SXin Li    #
*2abb3134SXin Li    result_dir = os.path.dirname(status_path)
*2abb3134SXin Li    spec_file = os.path.join(result_dir, 'spec.txt')
*2abb3134SXin Li    with open(spec_file) as f:
*2abb3134SXin Li      spec_line = f.readline()
*2abb3134SXin Li      # See backfill.sh analyze-one for the order of these 7 fields.
*2abb3134SXin Li      # There are 3 job constants on the front.
*2abb3134SXin Li      (num_reports, metric_name, date, counts_path, params_path,
*2abb3134SXin Li       map_path, _) = spec_line.split()
*2abb3134SXin Li
*2abb3134SXin Li    # NOTE: These are all constant per metric.  Could have another CSV and
*2abb3134SXin Li    # join.  But denormalizing is OK for now.
*2abb3134SXin Li    params_file = os.path.basename(params_path)
*2abb3134SXin Li    map_file = os.path.basename(map_path)
*2abb3134SXin Li
*2abb3134SXin Li    # remove extension
*2abb3134SXin Li    params_file, _ = os.path.splitext(params_file)
*2abb3134SXin Li    map_file, _ = os.path.splitext(map_file)
*2abb3134SXin Li
*2abb3134SXin Li    #
*2abb3134SXin Li    # Read the log
*2abb3134SXin Li    #
*2abb3134SXin Li    log_file = os.path.join(result_dir, 'log.txt')
*2abb3134SXin Li    with open(log_file) as f:
*2abb3134SXin Li      lines = f.readlines()
*2abb3134SXin Li
*2abb3134SXin Li    # Search lines in reverse order for total time.  It could have output from
*2abb3134SXin Li    # multiple 'time' statements, and we want the last one.
*2abb3134SXin Li    seconds = None  # for skipped
*2abb3134SXin Li    for i in xrange(len(lines) - 1, -1, -1):
*2abb3134SXin Li      # TODO: Parse the R timing too.  Could use LOG_RECORD_RE.
*2abb3134SXin Li      m = TIMING_RE.search(lines[i])
*2abb3134SXin Li      if m:
*2abb3134SXin Li        min_part, sec_part = m.groups()
*2abb3134SXin Li        seconds = float(min_part) * 60 + float(sec_part)
*2abb3134SXin Li        break
*2abb3134SXin Li
*2abb3134SXin Li    # Extract stack trace
*2abb3134SXin Li    if status == 'FAIL':
*2abb3134SXin Li      # Stack trace looks like: "Calls: main -> RunOne ..."
*2abb3134SXin Li      fail_reason = ''.join(line.strip() for line in lines if 'Calls' in line)
*2abb3134SXin Li    else:
*2abb3134SXin Li      fail_reason = None
*2abb3134SXin Li
*2abb3134SXin Li    # Extract PID and join with memory results
*2abb3134SXin Li    pid = None
*2abb3134SXin Li    vm5_peak_kib = None
*2abb3134SXin Li    vm5_mean_kib = None
*2abb3134SXin Li    if mem_by_pid:
*2abb3134SXin Li      for line in lines:
*2abb3134SXin Li        m = PID_RE.match(line)
*2abb3134SXin Li        if m:
*2abb3134SXin Li          pid = m.group(1)
*2abb3134SXin Li          # Could the PID not exist if the process was super short was less
*2abb3134SXin Li          # than 5 seconds?
*2abb3134SXin Li          try:
*2abb3134SXin Li            vm5_peak_kib, vm5_mean_kib = mem_by_pid[pid]
*2abb3134SXin Li          except KeyError:  # sometimes we don't add mem-track on the front
*2abb3134SXin Li            vm5_peak_kib, vm5_mean_kib = None, None
*2abb3134SXin Li          break
*2abb3134SXin Li    else:
*2abb3134SXin Li      pass  # we weren't passed memory.csv
*2abb3134SXin Li
*2abb3134SXin Li    #
*2abb3134SXin Li    # Read the metrics
*2abb3134SXin Li    #
*2abb3134SXin Li    metrics = {}
*2abb3134SXin Li    metrics_file = os.path.join(result_dir, 'metrics.json')
*2abb3134SXin Li    if os.path.isfile(metrics_file):
*2abb3134SXin Li      with open(metrics_file) as f:
*2abb3134SXin Li        metrics = json.load(f)
*2abb3134SXin Li
*2abb3134SXin Li    num_rappor = metrics.get('num_detected')
*2abb3134SXin Li    allocated_mass = metrics.get('allocated_mass')
*2abb3134SXin Li
*2abb3134SXin Li    # Construct and write row
*2abb3134SXin Li    row = (
*2abb3134SXin Li        job_id, params_file, map_file,
*2abb3134SXin Li        metric_name, date,
*2abb3134SXin Li        vm5_peak_kib, vm5_mean_kib,
*2abb3134SXin Li        seconds, status,
*2abb3134SXin Li        num_reports, num_rappor, allocated_mass,
*2abb3134SXin Li        fail_reason)
*2abb3134SXin Li
*2abb3134SXin Li    c_out.writerow(row)
*2abb3134SXin Li
*2abb3134SXin Li
*2abb3134SXin Lidef CombineAssocTaskStatus(stdin, c_out):
*2abb3134SXin Li  """Read status task paths from stdin, write CSV summary to c_out'."""
*2abb3134SXin Li
*2abb3134SXin Li  header = (
*2abb3134SXin Li      'job_id', 'metric', 'date', 'status', 'num_reports',
*2abb3134SXin Li      'total_elapsed_seconds', 'em_elapsed_seconds', 'var1', 'var2', 'd1',
*2abb3134SXin Li      'd2')
*2abb3134SXin Li
*2abb3134SXin Li  c_out.writerow(header)
*2abb3134SXin Li
*2abb3134SXin Li  for line in stdin:
*2abb3134SXin Li    status_path = line.strip()
*2abb3134SXin Li
*2abb3134SXin Li    with open(status_path) as f:
*2abb3134SXin Li      status = ReadStatus(f)
*2abb3134SXin Li
*2abb3134SXin Li    parts = status_path.split('/')
*2abb3134SXin Li    job_id = parts[-6]
*2abb3134SXin Li    CheckJobId(job_id, parts)
*2abb3134SXin Li
*2abb3134SXin Li    #
*2abb3134SXin Li    # Parse the job spec
*2abb3134SXin Li    #
*2abb3134SXin Li    result_dir = os.path.dirname(status_path)
*2abb3134SXin Li    spec_file = os.path.join(result_dir, 'assoc-spec.txt')
*2abb3134SXin Li    with open(spec_file) as f:
*2abb3134SXin Li      spec_line = f.readline()
*2abb3134SXin Li      # See backfill.sh analyze-one for the order of these 7 fields.
*2abb3134SXin Li      # There are 3 job constants on the front.
*2abb3134SXin Li
*2abb3134SXin Li      # 5 job params
*2abb3134SXin Li      (_, _, _, _, _,
*2abb3134SXin Li       dummy_num_reports, metric_name, date, reports, var1, var2, map1,
*2abb3134SXin Li       output_dir) = spec_line.split()
*2abb3134SXin Li
*2abb3134SXin Li    #
*2abb3134SXin Li    # Parse decode-assoc metrics
*2abb3134SXin Li    #
*2abb3134SXin Li    metrics = {}
*2abb3134SXin Li    metrics_file = os.path.join(result_dir, 'assoc-metrics.json')
*2abb3134SXin Li    if os.path.isfile(metrics_file):
*2abb3134SXin Li      with open(metrics_file) as f:
*2abb3134SXin Li        metrics = json.load(f)
*2abb3134SXin Li
*2abb3134SXin Li    # After we run it we have the actual number of reports
*2abb3134SXin Li    num_reports = metrics.get('num_reports')
*2abb3134SXin Li    total_elapsed_seconds = metrics.get('total_elapsed_time')
*2abb3134SXin Li    em_elapsed_seconds = metrics.get('em_elapsed_time')
*2abb3134SXin Li    estimate_dimensions = metrics.get('estimate_dimensions')
*2abb3134SXin Li    if estimate_dimensions:
*2abb3134SXin Li      d1, d2 = estimate_dimensions
*2abb3134SXin Li    else:
*2abb3134SXin Li      d1, d2 = (0, 0)  # unknown
*2abb3134SXin Li
*2abb3134SXin Li    row = (
*2abb3134SXin Li        job_id, metric_name, date, status, num_reports, total_elapsed_seconds,
*2abb3134SXin Li        em_elapsed_seconds, var1, var2, d1, d2)
*2abb3134SXin Li    c_out.writerow(row)
*2abb3134SXin Li
*2abb3134SXin Li
*2abb3134SXin Lidef main(argv):
*2abb3134SXin Li  action = argv[1]
*2abb3134SXin Li
*2abb3134SXin Li  try:
*2abb3134SXin Li    mem_csv = argv[2]
*2abb3134SXin Li  except IndexError:
*2abb3134SXin Li    mem_by_pid = None
*2abb3134SXin Li  else:
*2abb3134SXin Li    with open(mem_csv) as f:
*2abb3134SXin Li      mem_by_pid = ParseMemCsv(f)
*2abb3134SXin Li
*2abb3134SXin Li  if action == 'dist':
*2abb3134SXin Li    c_out = csv.writer(sys.stdout)
*2abb3134SXin Li    CombineDistTaskStatus(sys.stdin, c_out, mem_by_pid)
*2abb3134SXin Li
*2abb3134SXin Li  elif action == 'assoc':
*2abb3134SXin Li    c_out = csv.writer(sys.stdout)
*2abb3134SXin Li    CombineAssocTaskStatus(sys.stdin, c_out)
*2abb3134SXin Li
*2abb3134SXin Li  else:
*2abb3134SXin Li    raise RuntimeError('Invalid action %r' % action)
*2abb3134SXin Li
*2abb3134SXin Li
*2abb3134SXin Liif __name__ == '__main__':
*2abb3134SXin Li  try:
*2abb3134SXin Li    main(sys.argv)
*2abb3134SXin Li  except RuntimeError, e:
*2abb3134SXin Li    print >>sys.stderr, 'FATAL: %s' % e
*2abb3134SXin Li    sys.exit(1)