common/py3-stdlib/csv.py

*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker"""
*cda5da8dSAndroid Build Coastguard Workercsv.py - read/write/investigate CSV files
*cda5da8dSAndroid Build Coastguard Worker"""
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Workerimport re
*cda5da8dSAndroid Build Coastguard Workerfrom _csv import Error, __version__, writer, reader, register_dialect, \
*cda5da8dSAndroid Build Coastguard Worker                 unregister_dialect, get_dialect, list_dialects, \
*cda5da8dSAndroid Build Coastguard Worker                 field_size_limit, \
*cda5da8dSAndroid Build Coastguard Worker                 QUOTE_MINIMAL, QUOTE_ALL, QUOTE_NONNUMERIC, QUOTE_NONE, \
*cda5da8dSAndroid Build Coastguard Worker                 __doc__
*cda5da8dSAndroid Build Coastguard Workerfrom _csv import Dialect as _Dialect
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Workerfrom io import StringIO
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker__all__ = ["QUOTE_MINIMAL", "QUOTE_ALL", "QUOTE_NONNUMERIC", "QUOTE_NONE",
*cda5da8dSAndroid Build Coastguard Worker           "Error", "Dialect", "__doc__", "excel", "excel_tab",
*cda5da8dSAndroid Build Coastguard Worker           "field_size_limit", "reader", "writer",
*cda5da8dSAndroid Build Coastguard Worker           "register_dialect", "get_dialect", "list_dialects", "Sniffer",
*cda5da8dSAndroid Build Coastguard Worker           "unregister_dialect", "__version__", "DictReader", "DictWriter",
*cda5da8dSAndroid Build Coastguard Worker           "unix_dialect"]
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Workerclass Dialect:
*cda5da8dSAndroid Build Coastguard Worker    """Describe a CSV dialect.
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker    This must be subclassed (see csv.excel).  Valid attributes are:
*cda5da8dSAndroid Build Coastguard Worker    delimiter, quotechar, escapechar, doublequote, skipinitialspace,
*cda5da8dSAndroid Build Coastguard Worker    lineterminator, quoting.
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker    """
*cda5da8dSAndroid Build Coastguard Worker    _name = ""
*cda5da8dSAndroid Build Coastguard Worker    _valid = False
*cda5da8dSAndroid Build Coastguard Worker    # placeholders
*cda5da8dSAndroid Build Coastguard Worker    delimiter = None
*cda5da8dSAndroid Build Coastguard Worker    quotechar = None
*cda5da8dSAndroid Build Coastguard Worker    escapechar = None
*cda5da8dSAndroid Build Coastguard Worker    doublequote = None
*cda5da8dSAndroid Build Coastguard Worker    skipinitialspace = None
*cda5da8dSAndroid Build Coastguard Worker    lineterminator = None
*cda5da8dSAndroid Build Coastguard Worker    quoting = None
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker    def __init__(self):
*cda5da8dSAndroid Build Coastguard Worker        if self.__class__ != Dialect:
*cda5da8dSAndroid Build Coastguard Worker            self._valid = True
*cda5da8dSAndroid Build Coastguard Worker        self._validate()
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker    def _validate(self):
*cda5da8dSAndroid Build Coastguard Worker        try:
*cda5da8dSAndroid Build Coastguard Worker            _Dialect(self)
*cda5da8dSAndroid Build Coastguard Worker        except TypeError as e:
*cda5da8dSAndroid Build Coastguard Worker            # We do this for compatibility with py2.3
*cda5da8dSAndroid Build Coastguard Worker            raise Error(str(e))
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Workerclass excel(Dialect):
*cda5da8dSAndroid Build Coastguard Worker    """Describe the usual properties of Excel-generated CSV files."""
*cda5da8dSAndroid Build Coastguard Worker    delimiter = ','
*cda5da8dSAndroid Build Coastguard Worker    quotechar = '"'
*cda5da8dSAndroid Build Coastguard Worker    doublequote = True
*cda5da8dSAndroid Build Coastguard Worker    skipinitialspace = False
*cda5da8dSAndroid Build Coastguard Worker    lineterminator = '\r\n'
*cda5da8dSAndroid Build Coastguard Worker    quoting = QUOTE_MINIMAL
*cda5da8dSAndroid Build Coastguard Workerregister_dialect("excel", excel)
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Workerclass excel_tab(excel):
*cda5da8dSAndroid Build Coastguard Worker    """Describe the usual properties of Excel-generated TAB-delimited files."""
*cda5da8dSAndroid Build Coastguard Worker    delimiter = '\t'
*cda5da8dSAndroid Build Coastguard Workerregister_dialect("excel-tab", excel_tab)
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Workerclass unix_dialect(Dialect):
*cda5da8dSAndroid Build Coastguard Worker    """Describe the usual properties of Unix-generated CSV files."""
*cda5da8dSAndroid Build Coastguard Worker    delimiter = ','
*cda5da8dSAndroid Build Coastguard Worker    quotechar = '"'
*cda5da8dSAndroid Build Coastguard Worker    doublequote = True
*cda5da8dSAndroid Build Coastguard Worker    skipinitialspace = False
*cda5da8dSAndroid Build Coastguard Worker    lineterminator = '\n'
*cda5da8dSAndroid Build Coastguard Worker    quoting = QUOTE_ALL
*cda5da8dSAndroid Build Coastguard Workerregister_dialect("unix", unix_dialect)
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Workerclass DictReader:
*cda5da8dSAndroid Build Coastguard Worker    def __init__(self, f, fieldnames=None, restkey=None, restval=None,
*cda5da8dSAndroid Build Coastguard Worker                 dialect="excel", *args, **kwds):
*cda5da8dSAndroid Build Coastguard Worker        self._fieldnames = fieldnames   # list of keys for the dict
*cda5da8dSAndroid Build Coastguard Worker        self.restkey = restkey          # key to catch long rows
*cda5da8dSAndroid Build Coastguard Worker        self.restval = restval          # default value for short rows
*cda5da8dSAndroid Build Coastguard Worker        self.reader = reader(f, dialect, *args, **kwds)
*cda5da8dSAndroid Build Coastguard Worker        self.dialect = dialect
*cda5da8dSAndroid Build Coastguard Worker        self.line_num = 0
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker    def __iter__(self):
*cda5da8dSAndroid Build Coastguard Worker        return self
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker    @property
*cda5da8dSAndroid Build Coastguard Worker    def fieldnames(self):
*cda5da8dSAndroid Build Coastguard Worker        if self._fieldnames is None:
*cda5da8dSAndroid Build Coastguard Worker            try:
*cda5da8dSAndroid Build Coastguard Worker                self._fieldnames = next(self.reader)
*cda5da8dSAndroid Build Coastguard Worker            except StopIteration:
*cda5da8dSAndroid Build Coastguard Worker                pass
*cda5da8dSAndroid Build Coastguard Worker        self.line_num = self.reader.line_num
*cda5da8dSAndroid Build Coastguard Worker        return self._fieldnames
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker    @fieldnames.setter
*cda5da8dSAndroid Build Coastguard Worker    def fieldnames(self, value):
*cda5da8dSAndroid Build Coastguard Worker        self._fieldnames = value
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker    def __next__(self):
*cda5da8dSAndroid Build Coastguard Worker        if self.line_num == 0:
*cda5da8dSAndroid Build Coastguard Worker            # Used only for its side effect.
*cda5da8dSAndroid Build Coastguard Worker            self.fieldnames
*cda5da8dSAndroid Build Coastguard Worker        row = next(self.reader)
*cda5da8dSAndroid Build Coastguard Worker        self.line_num = self.reader.line_num
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        # unlike the basic reader, we prefer not to return blanks,
*cda5da8dSAndroid Build Coastguard Worker        # because we will typically wind up with a dict full of None
*cda5da8dSAndroid Build Coastguard Worker        # values
*cda5da8dSAndroid Build Coastguard Worker        while row == []:
*cda5da8dSAndroid Build Coastguard Worker            row = next(self.reader)
*cda5da8dSAndroid Build Coastguard Worker        d = dict(zip(self.fieldnames, row))
*cda5da8dSAndroid Build Coastguard Worker        lf = len(self.fieldnames)
*cda5da8dSAndroid Build Coastguard Worker        lr = len(row)
*cda5da8dSAndroid Build Coastguard Worker        if lf < lr:
*cda5da8dSAndroid Build Coastguard Worker            d[self.restkey] = row[lf:]
*cda5da8dSAndroid Build Coastguard Worker        elif lf > lr:
*cda5da8dSAndroid Build Coastguard Worker            for key in self.fieldnames[lr:]:
*cda5da8dSAndroid Build Coastguard Worker                d[key] = self.restval
*cda5da8dSAndroid Build Coastguard Worker        return d
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Workerclass DictWriter:
*cda5da8dSAndroid Build Coastguard Worker    def __init__(self, f, fieldnames, restval="", extrasaction="raise",
*cda5da8dSAndroid Build Coastguard Worker                 dialect="excel", *args, **kwds):
*cda5da8dSAndroid Build Coastguard Worker        self.fieldnames = fieldnames    # list of keys for the dict
*cda5da8dSAndroid Build Coastguard Worker        self.restval = restval          # for writing short dicts
*cda5da8dSAndroid Build Coastguard Worker        if extrasaction.lower() not in ("raise", "ignore"):
*cda5da8dSAndroid Build Coastguard Worker            raise ValueError("extrasaction (%s) must be 'raise' or 'ignore'"
*cda5da8dSAndroid Build Coastguard Worker                             % extrasaction)
*cda5da8dSAndroid Build Coastguard Worker        self.extrasaction = extrasaction
*cda5da8dSAndroid Build Coastguard Worker        self.writer = writer(f, dialect, *args, **kwds)
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker    def writeheader(self):
*cda5da8dSAndroid Build Coastguard Worker        header = dict(zip(self.fieldnames, self.fieldnames))
*cda5da8dSAndroid Build Coastguard Worker        return self.writerow(header)
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker    def _dict_to_list(self, rowdict):
*cda5da8dSAndroid Build Coastguard Worker        if self.extrasaction == "raise":
*cda5da8dSAndroid Build Coastguard Worker            wrong_fields = rowdict.keys() - self.fieldnames
*cda5da8dSAndroid Build Coastguard Worker            if wrong_fields:
*cda5da8dSAndroid Build Coastguard Worker                raise ValueError("dict contains fields not in fieldnames: "
*cda5da8dSAndroid Build Coastguard Worker                                 + ", ".join([repr(x) for x in wrong_fields]))
*cda5da8dSAndroid Build Coastguard Worker        return (rowdict.get(key, self.restval) for key in self.fieldnames)
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker    def writerow(self, rowdict):
*cda5da8dSAndroid Build Coastguard Worker        return self.writer.writerow(self._dict_to_list(rowdict))
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker    def writerows(self, rowdicts):
*cda5da8dSAndroid Build Coastguard Worker        return self.writer.writerows(map(self._dict_to_list, rowdicts))
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker# Guard Sniffer's type checking against builds that exclude complex()
*cda5da8dSAndroid Build Coastguard Workertry:
*cda5da8dSAndroid Build Coastguard Worker    complex
*cda5da8dSAndroid Build Coastguard Workerexcept NameError:
*cda5da8dSAndroid Build Coastguard Worker    complex = float
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Workerclass Sniffer:
*cda5da8dSAndroid Build Coastguard Worker    '''
*cda5da8dSAndroid Build Coastguard Worker    "Sniffs" the format of a CSV file (i.e. delimiter, quotechar)
*cda5da8dSAndroid Build Coastguard Worker    Returns a Dialect object.
*cda5da8dSAndroid Build Coastguard Worker    '''
*cda5da8dSAndroid Build Coastguard Worker    def __init__(self):
*cda5da8dSAndroid Build Coastguard Worker        # in case there is more than one possible delimiter
*cda5da8dSAndroid Build Coastguard Worker        self.preferred = [',', '\t', ';', ' ', ':']
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker    def sniff(self, sample, delimiters=None):
*cda5da8dSAndroid Build Coastguard Worker        """
*cda5da8dSAndroid Build Coastguard Worker        Returns a dialect (or None) corresponding to the sample
*cda5da8dSAndroid Build Coastguard Worker        """
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        quotechar, doublequote, delimiter, skipinitialspace = \
*cda5da8dSAndroid Build Coastguard Worker                   self._guess_quote_and_delimiter(sample, delimiters)
*cda5da8dSAndroid Build Coastguard Worker        if not delimiter:
*cda5da8dSAndroid Build Coastguard Worker            delimiter, skipinitialspace = self._guess_delimiter(sample,
*cda5da8dSAndroid Build Coastguard Worker                                                                delimiters)
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        if not delimiter:
*cda5da8dSAndroid Build Coastguard Worker            raise Error("Could not determine delimiter")
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        class dialect(Dialect):
*cda5da8dSAndroid Build Coastguard Worker            _name = "sniffed"
*cda5da8dSAndroid Build Coastguard Worker            lineterminator = '\r\n'
*cda5da8dSAndroid Build Coastguard Worker            quoting = QUOTE_MINIMAL
*cda5da8dSAndroid Build Coastguard Worker            # escapechar = ''
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        dialect.doublequote = doublequote
*cda5da8dSAndroid Build Coastguard Worker        dialect.delimiter = delimiter
*cda5da8dSAndroid Build Coastguard Worker        # _csv.reader won't accept a quotechar of ''
*cda5da8dSAndroid Build Coastguard Worker        dialect.quotechar = quotechar or '"'
*cda5da8dSAndroid Build Coastguard Worker        dialect.skipinitialspace = skipinitialspace
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        return dialect
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker    def _guess_quote_and_delimiter(self, data, delimiters):
*cda5da8dSAndroid Build Coastguard Worker        """
*cda5da8dSAndroid Build Coastguard Worker        Looks for text enclosed between two identical quotes
*cda5da8dSAndroid Build Coastguard Worker        (the probable quotechar) which are preceded and followed
*cda5da8dSAndroid Build Coastguard Worker        by the same character (the probable delimiter).
*cda5da8dSAndroid Build Coastguard Worker        For example:
*cda5da8dSAndroid Build Coastguard Worker                         ,'some text',
*cda5da8dSAndroid Build Coastguard Worker        The quote with the most wins, same with the delimiter.
*cda5da8dSAndroid Build Coastguard Worker        If there is no quotechar the delimiter can't be determined
*cda5da8dSAndroid Build Coastguard Worker        this way.
*cda5da8dSAndroid Build Coastguard Worker        """
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        matches = []
*cda5da8dSAndroid Build Coastguard Worker        for restr in (r'(?P<delim>[^\w\n"\'])(?P<space> ?)(?P<quote>["\']).*?(?P=quote)(?P=delim)', # ,".*?",
*cda5da8dSAndroid Build Coastguard Worker                      r'(?:^|\n)(?P<quote>["\']).*?(?P=quote)(?P<delim>[^\w\n"\'])(?P<space> ?)',   #  ".*?",
*cda5da8dSAndroid Build Coastguard Worker                      r'(?P<delim>[^\w\n"\'])(?P<space> ?)(?P<quote>["\']).*?(?P=quote)(?:$|\n)',   # ,".*?"
*cda5da8dSAndroid Build Coastguard Worker                      r'(?:^|\n)(?P<quote>["\']).*?(?P=quote)(?:$|\n)'):                            #  ".*?" (no delim, no space)
*cda5da8dSAndroid Build Coastguard Worker            regexp = re.compile(restr, re.DOTALL | re.MULTILINE)
*cda5da8dSAndroid Build Coastguard Worker            matches = regexp.findall(data)
*cda5da8dSAndroid Build Coastguard Worker            if matches:
*cda5da8dSAndroid Build Coastguard Worker                break
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        if not matches:
*cda5da8dSAndroid Build Coastguard Worker            # (quotechar, doublequote, delimiter, skipinitialspace)
*cda5da8dSAndroid Build Coastguard Worker            return ('', False, None, 0)
*cda5da8dSAndroid Build Coastguard Worker        quotes = {}
*cda5da8dSAndroid Build Coastguard Worker        delims = {}
*cda5da8dSAndroid Build Coastguard Worker        spaces = 0
*cda5da8dSAndroid Build Coastguard Worker        groupindex = regexp.groupindex
*cda5da8dSAndroid Build Coastguard Worker        for m in matches:
*cda5da8dSAndroid Build Coastguard Worker            n = groupindex['quote'] - 1
*cda5da8dSAndroid Build Coastguard Worker            key = m[n]
*cda5da8dSAndroid Build Coastguard Worker            if key:
*cda5da8dSAndroid Build Coastguard Worker                quotes[key] = quotes.get(key, 0) + 1
*cda5da8dSAndroid Build Coastguard Worker            try:
*cda5da8dSAndroid Build Coastguard Worker                n = groupindex['delim'] - 1
*cda5da8dSAndroid Build Coastguard Worker                key = m[n]
*cda5da8dSAndroid Build Coastguard Worker            except KeyError:
*cda5da8dSAndroid Build Coastguard Worker                continue
*cda5da8dSAndroid Build Coastguard Worker            if key and (delimiters is None or key in delimiters):
*cda5da8dSAndroid Build Coastguard Worker                delims[key] = delims.get(key, 0) + 1
*cda5da8dSAndroid Build Coastguard Worker            try:
*cda5da8dSAndroid Build Coastguard Worker                n = groupindex['space'] - 1
*cda5da8dSAndroid Build Coastguard Worker            except KeyError:
*cda5da8dSAndroid Build Coastguard Worker                continue
*cda5da8dSAndroid Build Coastguard Worker            if m[n]:
*cda5da8dSAndroid Build Coastguard Worker                spaces += 1
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        quotechar = max(quotes, key=quotes.get)
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        if delims:
*cda5da8dSAndroid Build Coastguard Worker            delim = max(delims, key=delims.get)
*cda5da8dSAndroid Build Coastguard Worker            skipinitialspace = delims[delim] == spaces
*cda5da8dSAndroid Build Coastguard Worker            if delim == '\n': # most likely a file with a single column
*cda5da8dSAndroid Build Coastguard Worker                delim = ''
*cda5da8dSAndroid Build Coastguard Worker        else:
*cda5da8dSAndroid Build Coastguard Worker            # there is *no* delimiter, it's a single column of quoted data
*cda5da8dSAndroid Build Coastguard Worker            delim = ''
*cda5da8dSAndroid Build Coastguard Worker            skipinitialspace = 0
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        # if we see an extra quote between delimiters, we've got a
*cda5da8dSAndroid Build Coastguard Worker        # double quoted format
*cda5da8dSAndroid Build Coastguard Worker        dq_regexp = re.compile(
*cda5da8dSAndroid Build Coastguard Worker                               r"((%(delim)s)|^)\W*%(quote)s[^%(delim)s\n]*%(quote)s[^%(delim)s\n]*%(quote)s\W*((%(delim)s)|$)" % \
*cda5da8dSAndroid Build Coastguard Worker                               {'delim':re.escape(delim), 'quote':quotechar}, re.MULTILINE)
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        if dq_regexp.search(data):
*cda5da8dSAndroid Build Coastguard Worker            doublequote = True
*cda5da8dSAndroid Build Coastguard Worker        else:
*cda5da8dSAndroid Build Coastguard Worker            doublequote = False
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        return (quotechar, doublequote, delim, skipinitialspace)
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker    def _guess_delimiter(self, data, delimiters):
*cda5da8dSAndroid Build Coastguard Worker        """
*cda5da8dSAndroid Build Coastguard Worker        The delimiter /should/ occur the same number of times on
*cda5da8dSAndroid Build Coastguard Worker        each row. However, due to malformed data, it may not. We don't want
*cda5da8dSAndroid Build Coastguard Worker        an all or nothing approach, so we allow for small variations in this
*cda5da8dSAndroid Build Coastguard Worker        number.
*cda5da8dSAndroid Build Coastguard Worker          1) build a table of the frequency of each character on every line.
*cda5da8dSAndroid Build Coastguard Worker          2) build a table of frequencies of this frequency (meta-frequency?),
*cda5da8dSAndroid Build Coastguard Worker             e.g.  'x occurred 5 times in 10 rows, 6 times in 1000 rows,
*cda5da8dSAndroid Build Coastguard Worker             7 times in 2 rows'
*cda5da8dSAndroid Build Coastguard Worker          3) use the mode of the meta-frequency to determine the /expected/
*cda5da8dSAndroid Build Coastguard Worker             frequency for that character
*cda5da8dSAndroid Build Coastguard Worker          4) find out how often the character actually meets that goal
*cda5da8dSAndroid Build Coastguard Worker          5) the character that best meets its goal is the delimiter
*cda5da8dSAndroid Build Coastguard Worker        For performance reasons, the data is evaluated in chunks, so it can
*cda5da8dSAndroid Build Coastguard Worker        try and evaluate the smallest portion of the data possible, evaluating
*cda5da8dSAndroid Build Coastguard Worker        additional chunks as necessary.
*cda5da8dSAndroid Build Coastguard Worker        """
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        data = list(filter(None, data.split('\n')))
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        ascii = [chr(c) for c in range(127)] # 7-bit ASCII
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        # build frequency tables
*cda5da8dSAndroid Build Coastguard Worker        chunkLength = min(10, len(data))
*cda5da8dSAndroid Build Coastguard Worker        iteration = 0
*cda5da8dSAndroid Build Coastguard Worker        charFrequency = {}
*cda5da8dSAndroid Build Coastguard Worker        modes = {}
*cda5da8dSAndroid Build Coastguard Worker        delims = {}
*cda5da8dSAndroid Build Coastguard Worker        start, end = 0, chunkLength
*cda5da8dSAndroid Build Coastguard Worker        while start < len(data):
*cda5da8dSAndroid Build Coastguard Worker            iteration += 1
*cda5da8dSAndroid Build Coastguard Worker            for line in data[start:end]:
*cda5da8dSAndroid Build Coastguard Worker                for char in ascii:
*cda5da8dSAndroid Build Coastguard Worker                    metaFrequency = charFrequency.get(char, {})
*cda5da8dSAndroid Build Coastguard Worker                    # must count even if frequency is 0
*cda5da8dSAndroid Build Coastguard Worker                    freq = line.count(char)
*cda5da8dSAndroid Build Coastguard Worker                    # value is the mode
*cda5da8dSAndroid Build Coastguard Worker                    metaFrequency[freq] = metaFrequency.get(freq, 0) + 1
*cda5da8dSAndroid Build Coastguard Worker                    charFrequency[char] = metaFrequency
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker            for char in charFrequency.keys():
*cda5da8dSAndroid Build Coastguard Worker                items = list(charFrequency[char].items())
*cda5da8dSAndroid Build Coastguard Worker                if len(items) == 1 and items[0][0] == 0:
*cda5da8dSAndroid Build Coastguard Worker                    continue
*cda5da8dSAndroid Build Coastguard Worker                # get the mode of the frequencies
*cda5da8dSAndroid Build Coastguard Worker                if len(items) > 1:
*cda5da8dSAndroid Build Coastguard Worker                    modes[char] = max(items, key=lambda x: x[1])
*cda5da8dSAndroid Build Coastguard Worker                    # adjust the mode - subtract the sum of all
*cda5da8dSAndroid Build Coastguard Worker                    # other frequencies
*cda5da8dSAndroid Build Coastguard Worker                    items.remove(modes[char])
*cda5da8dSAndroid Build Coastguard Worker                    modes[char] = (modes[char][0], modes[char][1]
*cda5da8dSAndroid Build Coastguard Worker                                   - sum(item[1] for item in items))
*cda5da8dSAndroid Build Coastguard Worker                else:
*cda5da8dSAndroid Build Coastguard Worker                    modes[char] = items[0]
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker            # build a list of possible delimiters
*cda5da8dSAndroid Build Coastguard Worker            modeList = modes.items()
*cda5da8dSAndroid Build Coastguard Worker            total = float(min(chunkLength * iteration, len(data)))
*cda5da8dSAndroid Build Coastguard Worker            # (rows of consistent data) / (number of rows) = 100%
*cda5da8dSAndroid Build Coastguard Worker            consistency = 1.0
*cda5da8dSAndroid Build Coastguard Worker            # minimum consistency threshold
*cda5da8dSAndroid Build Coastguard Worker            threshold = 0.9
*cda5da8dSAndroid Build Coastguard Worker            while len(delims) == 0 and consistency >= threshold:
*cda5da8dSAndroid Build Coastguard Worker                for k, v in modeList:
*cda5da8dSAndroid Build Coastguard Worker                    if v[0] > 0 and v[1] > 0:
*cda5da8dSAndroid Build Coastguard Worker                        if ((v[1]/total) >= consistency and
*cda5da8dSAndroid Build Coastguard Worker                            (delimiters is None or k in delimiters)):
*cda5da8dSAndroid Build Coastguard Worker                            delims[k] = v
*cda5da8dSAndroid Build Coastguard Worker                consistency -= 0.01
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker            if len(delims) == 1:
*cda5da8dSAndroid Build Coastguard Worker                delim = list(delims.keys())[0]
*cda5da8dSAndroid Build Coastguard Worker                skipinitialspace = (data[0].count(delim) ==
*cda5da8dSAndroid Build Coastguard Worker                                    data[0].count("%c " % delim))
*cda5da8dSAndroid Build Coastguard Worker                return (delim, skipinitialspace)
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker            # analyze another chunkLength lines
*cda5da8dSAndroid Build Coastguard Worker            start = end
*cda5da8dSAndroid Build Coastguard Worker            end += chunkLength
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        if not delims:
*cda5da8dSAndroid Build Coastguard Worker            return ('', 0)
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        # if there's more than one, fall back to a 'preferred' list
*cda5da8dSAndroid Build Coastguard Worker        if len(delims) > 1:
*cda5da8dSAndroid Build Coastguard Worker            for d in self.preferred:
*cda5da8dSAndroid Build Coastguard Worker                if d in delims.keys():
*cda5da8dSAndroid Build Coastguard Worker                    skipinitialspace = (data[0].count(d) ==
*cda5da8dSAndroid Build Coastguard Worker                                        data[0].count("%c " % d))
*cda5da8dSAndroid Build Coastguard Worker                    return (d, skipinitialspace)
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        # nothing else indicates a preference, pick the character that
*cda5da8dSAndroid Build Coastguard Worker        # dominates(?)
*cda5da8dSAndroid Build Coastguard Worker        items = [(v,k) for (k,v) in delims.items()]
*cda5da8dSAndroid Build Coastguard Worker        items.sort()
*cda5da8dSAndroid Build Coastguard Worker        delim = items[-1][1]
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        skipinitialspace = (data[0].count(delim) ==
*cda5da8dSAndroid Build Coastguard Worker                            data[0].count("%c " % delim))
*cda5da8dSAndroid Build Coastguard Worker        return (delim, skipinitialspace)
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker    def has_header(self, sample):
*cda5da8dSAndroid Build Coastguard Worker        # Creates a dictionary of types of data in each column. If any
*cda5da8dSAndroid Build Coastguard Worker        # column is of a single type (say, integers), *except* for the first
*cda5da8dSAndroid Build Coastguard Worker        # row, then the first row is presumed to be labels. If the type
*cda5da8dSAndroid Build Coastguard Worker        # can't be determined, it is assumed to be a string in which case
*cda5da8dSAndroid Build Coastguard Worker        # the length of the string is the determining factor: if all of the
*cda5da8dSAndroid Build Coastguard Worker        # rows except for the first are the same length, it's a header.
*cda5da8dSAndroid Build Coastguard Worker        # Finally, a 'vote' is taken at the end for each column, adding or
*cda5da8dSAndroid Build Coastguard Worker        # subtracting from the likelihood of the first row being a header.
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        rdr = reader(StringIO(sample), self.sniff(sample))
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        header = next(rdr) # assume first row is header
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        columns = len(header)
*cda5da8dSAndroid Build Coastguard Worker        columnTypes = {}
*cda5da8dSAndroid Build Coastguard Worker        for i in range(columns): columnTypes[i] = None
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        checked = 0
*cda5da8dSAndroid Build Coastguard Worker        for row in rdr:
*cda5da8dSAndroid Build Coastguard Worker            # arbitrary number of rows to check, to keep it sane
*cda5da8dSAndroid Build Coastguard Worker            if checked > 20:
*cda5da8dSAndroid Build Coastguard Worker                break
*cda5da8dSAndroid Build Coastguard Worker            checked += 1
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker            if len(row) != columns:
*cda5da8dSAndroid Build Coastguard Worker                continue # skip rows that have irregular number of columns
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker            for col in list(columnTypes.keys()):
*cda5da8dSAndroid Build Coastguard Worker                thisType = complex
*cda5da8dSAndroid Build Coastguard Worker                try:
*cda5da8dSAndroid Build Coastguard Worker                    thisType(row[col])
*cda5da8dSAndroid Build Coastguard Worker                except (ValueError, OverflowError):
*cda5da8dSAndroid Build Coastguard Worker                    # fallback to length of string
*cda5da8dSAndroid Build Coastguard Worker                    thisType = len(row[col])
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker                if thisType != columnTypes[col]:
*cda5da8dSAndroid Build Coastguard Worker                    if columnTypes[col] is None: # add new column type
*cda5da8dSAndroid Build Coastguard Worker                        columnTypes[col] = thisType
*cda5da8dSAndroid Build Coastguard Worker                    else:
*cda5da8dSAndroid Build Coastguard Worker                        # type is inconsistent, remove column from
*cda5da8dSAndroid Build Coastguard Worker                        # consideration
*cda5da8dSAndroid Build Coastguard Worker                        del columnTypes[col]
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        # finally, compare results against first row and "vote"
*cda5da8dSAndroid Build Coastguard Worker        # on whether it's a header
*cda5da8dSAndroid Build Coastguard Worker        hasHeader = 0
*cda5da8dSAndroid Build Coastguard Worker        for col, colType in columnTypes.items():
*cda5da8dSAndroid Build Coastguard Worker            if type(colType) == type(0): # it's a length
*cda5da8dSAndroid Build Coastguard Worker                if len(header[col]) != colType:
*cda5da8dSAndroid Build Coastguard Worker                    hasHeader += 1
*cda5da8dSAndroid Build Coastguard Worker                else:
*cda5da8dSAndroid Build Coastguard Worker                    hasHeader -= 1
*cda5da8dSAndroid Build Coastguard Worker            else: # attempt typecast
*cda5da8dSAndroid Build Coastguard Worker                try:
*cda5da8dSAndroid Build Coastguard Worker                    colType(header[col])
*cda5da8dSAndroid Build Coastguard Worker                except (ValueError, TypeError):
*cda5da8dSAndroid Build Coastguard Worker                    hasHeader += 1
*cda5da8dSAndroid Build Coastguard Worker                else:
*cda5da8dSAndroid Build Coastguard Worker                    hasHeader -= 1
*cda5da8dSAndroid Build Coastguard Worker
*cda5da8dSAndroid Build Coastguard Worker        return hasHeader > 0