analysis/R/unknowns_test.R

*2abb3134SXin Li# Copyright 2014 Google Inc. All rights reserved.
*2abb3134SXin Li#
*2abb3134SXin Li# Licensed under the Apache License, Version 2.0 (the "License");
*2abb3134SXin Li# you may not use this file except in compliance with the License.
*2abb3134SXin Li# You may obtain a copy of the License at
*2abb3134SXin Li#
*2abb3134SXin Li#     http://www.apache.org/licenses/LICENSE-2.0
*2abb3134SXin Li#
*2abb3134SXin Li# Unless required by applicable law or agreed to in writing, software
*2abb3134SXin Li# distributed under the License is distributed on an "AS IS" BASIS,
*2abb3134SXin Li# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
*2abb3134SXin Li# See the License for the specific language governing permissions and
*2abb3134SXin Li# limitations under the License.
*2abb3134SXin Li
*2abb3134SXin Li# Author: [email protected] (Giulia Fanti)
*2abb3134SXin Li#
*2abb3134SXin Li# Tests the unknown unknowns dictionary estimation functions.
*2abb3134SXin Li#     There are two main components involved in estimating this unknown
*2abb3134SXin Li#     distribution:
*2abb3134SXin Li#          a) Find the pairwise ngrams that co-occur often.
*2abb3134SXin Li#          b) Determine which full strings are consisted with all pairwise
*2abb3134SXin Li#             relations.
*2abb3134SXin Li#
*2abb3134SXin Li#     TestEstimateDictionary() tests the full pipeline, including parts (a)
*2abb3134SXin Li#         and (b).
*2abb3134SXin Li#     TestFindFeasibleStrings() tests only part (b).
*2abb3134SXin Li#     Both tests generate their own data.
*2abb3134SXin Li
*2abb3134SXin Lilibrary(parallel)
*2abb3134SXin Lisource("analysis/R/encode.R")
*2abb3134SXin Lisource("analysis/R/decode.R")
*2abb3134SXin Lisource("analysis/R/simulation.R")
*2abb3134SXin Lisource("analysis/R/association.R")
*2abb3134SXin Lisource("analysis/R/decode_ngrams.R")
*2abb3134SXin Lisource("analysis/R/ngrams_simulation.R")
*2abb3134SXin Lialphabet <- letters
*2abb3134SXin Lioptions(warn = -1)
*2abb3134SXin Li
*2abb3134SXin LiGeneratePopulation <- function(N, num_strs, str_len = 10,
*2abb3134SXin Li                               distribution = NULL) {
*2abb3134SXin Li  # Generates a /deterministic/ string for each individual in the
*2abb3134SXin Li  #     population from distribution.
*2abb3134SXin Li  #
*2abb3134SXin Li  # Args:
*2abb3134SXin Li  #   N: Number of individuals in the population
*2abb3134SXin Li  #   num_strs: Number of strings from which to draw strings
*2abb3134SXin Li  #   str_len: Length of each string
*2abb3134SXin Li  #   distribution: Just here for compatibility with original
*2abb3134SXin Li  #       GeneratePopulation function in ngrams_simulation.R
*2abb3134SXin Li  #
*2abb3134SXin Li  # Returns:
*2abb3134SXin Li  #   Vector of strings for each individual in the population
*2abb3134SXin Li
*2abb3134SXin Li  strs <- sapply(1:num_strs, function(i) {
*2abb3134SXin Li    paste0(alphabet[(str_len * (i - 1) + 1):(str_len * i)], collapse = "")
*2abb3134SXin Li  })
*2abb3134SXin Li
*2abb3134SXin Li  # Uniform distribution
*2abb3134SXin Li  prob <- rep(1 / num_strs, num_strs)
*2abb3134SXin Li  sample(strs, N, replace = TRUE, prob = prob)
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin LiTestEstimateDictionary <- function() {
*2abb3134SXin Li  # Tests that the algorithm without noise recovers a uniform
*2abb3134SXin Li  #     string population correctly.
*2abb3134SXin Li
*2abb3134SXin Li  # Compute the strings from measuring only 2 ngrams
*2abb3134SXin Li  N <- 100
*2abb3134SXin Li  str_len <- 6
*2abb3134SXin Li  ngram_size <- 2
*2abb3134SXin Li  num_ngrams <- str_len / ngram_size
*2abb3134SXin Li  num_strs <- 1
*2abb3134SXin Li
*2abb3134SXin Li  params <- list(k = 128, h = 4, m = 2, p = 0, q = 1, f = 0)
*2abb3134SXin Li
*2abb3134SXin Li  ngram_params <- list(ngram_size = ngram_size, num_ngrams = num_ngrams,
*2abb3134SXin Li                       num_ngrams_collected = 2)
*2abb3134SXin Li
*2abb3134SXin Li  sim <- SimulateNGrams(N, ngram_params, str_len, num_strs = num_strs,
*2abb3134SXin Li                        alphabet, params, distribution = 3)
*2abb3134SXin Li
*2abb3134SXin Li  res <- EstimateDictionary(sim, N, ngram_params, params)
*2abb3134SXin Li
*2abb3134SXin Li  # Check that the correct strings are found
*2abb3134SXin Li  if (num_strs == 1) {
*2abb3134SXin Li    checkTrue(res$found_candidates == sort(unique(sim$strs)))
*2abb3134SXin Li  } else {
*2abb3134SXin Li    checkTrue(all.equal(res$found_candidates, sort(unique(sim$strs))))
*2abb3134SXin Li  }
*2abb3134SXin Li}
*2abb3134SXin Li
*2abb3134SXin LiTestFindFeasibleStrings <- function() {
*2abb3134SXin Li  # Tests that FindPairwiseCandidates weeds out false positives.
*2abb3134SXin Li  #     We test this by adding false positives to the pairwise estimates.
*2abb3134SXin Li  N <- 100
*2abb3134SXin Li  str_len <- 6
*2abb3134SXin Li  ngram_size <- 2
*2abb3134SXin Li  num_ngrams <- str_len / ngram_size
*2abb3134SXin Li  num_strs <- 2
*2abb3134SXin Li
*2abb3134SXin Li  params <- list(k = 128, h = 4, m = 2, p = 0, q = 1, f = 0)
*2abb3134SXin Li
*2abb3134SXin Li  ngram_params <- list(ngram_size = ngram_size, num_ngrams = num_ngrams,
*2abb3134SXin Li                       num_ngrams_collected = 2)
*2abb3134SXin Li
*2abb3134SXin Li  sim <- SimulateNGrams(N, ngram_params, str_len, num_strs = num_strs,
*2abb3134SXin Li                        alphabet, params)
*2abb3134SXin Li
*2abb3134SXin Li  pairwise_candidates <- FindPairwiseCandidates(sim, N, ngram_params,
*2abb3134SXin Li                                                params)$candidate_strs
*2abb3134SXin Li  cat("Found the pairwise candidates. \n")
*2abb3134SXin Li
*2abb3134SXin Li  pairwise_candidates[[1]] <- rbind(pairwise_candidates[[1]], c("ab", "le"))
*2abb3134SXin Li
*2abb3134SXin Li  if (is.null(pairwise_candidates)) {
*2abb3134SXin Li    return (FALSE)
*2abb3134SXin Li  }
*2abb3134SXin Li
*2abb3134SXin Li  conn <- file('graph.txt', 'w+')
*2abb3134SXin Li  WriteKPartiteGraph(conn,
*2abb3134SXin Li                     pairwise_candidates,
*2abb3134SXin Li                     sim$pairings,
*2abb3134SXin Li                     ngram_params$num_ngrams,
*2abb3134SXin Li                     ngram_params$ngram_size)
*2abb3134SXin Li
*2abb3134SXin Li  close(conn)
*2abb3134SXin Li  cat("Wrote graph.txt\n")
*2abb3134SXin Li
*2abb3134SXin Li  found_candidates <- FindFeasibleStrings(pairwise_candidates,
*2abb3134SXin Li                                          sim$pairings,
*2abb3134SXin Li                                          ngram_params$num_ngrams,
*2abb3134SXin Li                                          ngram_params$ngram_size)
*2abb3134SXin Li  # Check that the correct strings are found
*2abb3134SXin Li  if (num_strs == 1) {
*2abb3134SXin Li    checkTrue(found_candidates == sort(unique(sim$strs)))
*2abb3134SXin Li  } else {
*2abb3134SXin Li    checkTrue(all.equal(found_candidates, sort(unique(sim$strs))))
*2abb3134SXin Li  }
*2abb3134SXin Li}