src/common/convert_UTF.cc

*9712c20fSFrederick Mayle/*
*9712c20fSFrederick Mayle * Copyright © 1991-2015 Unicode, Inc. All rights reserved.
*9712c20fSFrederick Mayle * Distributed under the Terms of Use in
*9712c20fSFrederick Mayle * http://www.unicode.org/copyright.html.
*9712c20fSFrederick Mayle *
*9712c20fSFrederick Mayle * Permission is hereby granted, free of charge, to any person obtaining
*9712c20fSFrederick Mayle * a copy of the Unicode data files and any associated documentation
*9712c20fSFrederick Mayle * (the "Data Files") or Unicode software and any associated documentation
*9712c20fSFrederick Mayle * (the "Software") to deal in the Data Files or Software
*9712c20fSFrederick Mayle * without restriction, including without limitation the rights to use,
*9712c20fSFrederick Mayle * copy, modify, merge, publish, distribute, and/or sell copies of
*9712c20fSFrederick Mayle * the Data Files or Software, and to permit persons to whom the Data Files
*9712c20fSFrederick Mayle * or Software are furnished to do so, provided that
*9712c20fSFrederick Mayle * (a) this copyright and permission notice appear with all copies
*9712c20fSFrederick Mayle * of the Data Files or Software,
*9712c20fSFrederick Mayle * (b) this copyright and permission notice appear in associated
*9712c20fSFrederick Mayle * documentation, and
*9712c20fSFrederick Mayle * (c) there is clear notice in each modified Data File or in the Software
*9712c20fSFrederick Mayle * as well as in the documentation associated with the Data File(s) or
*9712c20fSFrederick Mayle * Software that the data or software has been modified.
*9712c20fSFrederick Mayle *
*9712c20fSFrederick Mayle * THE DATA FILES AND SOFTWARE ARE PROVIDED "AS IS", WITHOUT WARRANTY OF
*9712c20fSFrederick Mayle * ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE
*9712c20fSFrederick Mayle * WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
*9712c20fSFrederick Mayle * NONINFRINGEMENT OF THIRD PARTY RIGHTS.
*9712c20fSFrederick Mayle * IN NO EVENT SHALL THE COPYRIGHT HOLDER OR HOLDERS INCLUDED IN THIS
*9712c20fSFrederick Mayle * NOTICE BE LIABLE FOR ANY CLAIM, OR ANY SPECIAL INDIRECT OR CONSEQUENTIAL
*9712c20fSFrederick Mayle * DAMAGES, OR ANY DAMAGES WHATSOEVER RESULTING FROM LOSS OF USE,
*9712c20fSFrederick Mayle * DATA OR PROFITS, WHETHER IN AN ACTION OF CONTRACT, NEGLIGENCE OR OTHER
*9712c20fSFrederick Mayle * TORTIOUS ACTION, ARISING OUT OF OR IN CONNECTION WITH THE USE OR
*9712c20fSFrederick Mayle * PERFORMANCE OF THE DATA FILES OR SOFTWARE.
*9712c20fSFrederick Mayle *
*9712c20fSFrederick Mayle * Except as contained in this notice, the name of a copyright holder
*9712c20fSFrederick Mayle * shall not be used in advertising or otherwise to promote the sale,
*9712c20fSFrederick Mayle * use or other dealings in these Data Files or Software without prior
*9712c20fSFrederick Mayle * written authorization of the copyright holder.
*9712c20fSFrederick Mayle */
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle/* ---------------------------------------------------------------------
*9712c20fSFrederick Mayle
*9712c20fSFrederick MayleConversions between UTF32, UTF-16, and UTF-8. Source code file.
*9712c20fSFrederick MayleAuthor: Mark E. Davis, 1994.
*9712c20fSFrederick MayleRev History: Rick McGowan, fixes & updates May 2001.
*9712c20fSFrederick MayleSept 2001: fixed const & error conditions per
*9712c20fSFrederick Maylemods suggested by S. Parent & A. Lillich.
*9712c20fSFrederick MayleJune 2002: Tim Dodd added detection and handling of incomplete
*9712c20fSFrederick Maylesource sequences, enhanced error detection, added casts
*9712c20fSFrederick Mayleto eliminate compiler warnings.
*9712c20fSFrederick MayleJuly 2003: slight mods to back out aggressive FFFE detection.
*9712c20fSFrederick MayleJan 2004: updated switches in from-UTF8 conversions.
*9712c20fSFrederick MayleOct 2004: updated to use UNI_MAX_LEGAL_UTF32 in UTF-32 conversions.
*9712c20fSFrederick Mayle
*9712c20fSFrederick MayleSee the header file "ConvertUTF.h" for complete documentation.
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle------------------------------------------------------------------------ */
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle#ifdef HAVE_CONFIG_H
*9712c20fSFrederick Mayle#include <config.h>  // Must come first
*9712c20fSFrederick Mayle#endif
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle#include "convert_UTF.h"
*9712c20fSFrederick Mayle#ifdef CVTUTF_DEBUG
*9712c20fSFrederick Mayle#include <stdio.h>
*9712c20fSFrederick Mayle#endif
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle#include "common/macros.h"
*9712c20fSFrederick Mayle
*9712c20fSFrederick Maylenamespace google_breakpad {
*9712c20fSFrederick Mayle
*9712c20fSFrederick Maylenamespace {
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayleconst int halfShift  = 10; /* used for shifting by 10 bits */
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayleconst UTF32 halfBase = 0x0010000UL;
*9712c20fSFrederick Mayleconst UTF32 halfMask = 0x3FFUL;
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle}  // namespace
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle#define UNI_SUR_HIGH_START  (UTF32)0xD800
*9712c20fSFrederick Mayle#define UNI_SUR_HIGH_END    (UTF32)0xDBFF
*9712c20fSFrederick Mayle#define UNI_SUR_LOW_START   (UTF32)0xDC00
*9712c20fSFrederick Mayle#define UNI_SUR_LOW_END     (UTF32)0xDFFF
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle/* --------------------------------------------------------------------- */
*9712c20fSFrederick Mayle
*9712c20fSFrederick MayleConversionResult ConvertUTF32toUTF16 (const UTF32** sourceStart, const UTF32* sourceEnd,
*9712c20fSFrederick Mayle                                      UTF16** targetStart, UTF16* targetEnd, ConversionFlags flags) {
*9712c20fSFrederick Mayle  ConversionResult result = conversionOK;
*9712c20fSFrederick Mayle  const UTF32* source = *sourceStart;
*9712c20fSFrederick Mayle  UTF16* target = *targetStart;
*9712c20fSFrederick Mayle  while (source < sourceEnd) {
*9712c20fSFrederick Mayle    UTF32 ch;
*9712c20fSFrederick Mayle    if (target >= targetEnd) {
*9712c20fSFrederick Mayle	    result = targetExhausted; break;
*9712c20fSFrederick Mayle    }
*9712c20fSFrederick Mayle    ch = *source++;
*9712c20fSFrederick Mayle    if (ch <= UNI_MAX_BMP) { /* Target is a character <= 0xFFFF */
*9712c20fSFrederick Mayle	    /* UTF-16 surrogate values are illegal in UTF-32; 0xffff or 0xfffe are both reserved values */
*9712c20fSFrederick Mayle	    if (ch >= UNI_SUR_HIGH_START && ch <= UNI_SUR_LOW_END) {
*9712c20fSFrederick Mayle        if (flags == strictConversion) {
*9712c20fSFrederick Mayle          --source; /* return to the illegal value itself */
*9712c20fSFrederick Mayle          result = sourceIllegal;
*9712c20fSFrederick Mayle          break;
*9712c20fSFrederick Mayle        } else {
*9712c20fSFrederick Mayle          *target++ = UNI_REPLACEMENT_CHAR;
*9712c20fSFrederick Mayle        }
*9712c20fSFrederick Mayle	    } else {
*9712c20fSFrederick Mayle        *target++ = (UTF16)ch; /* normal case */
*9712c20fSFrederick Mayle	    }
*9712c20fSFrederick Mayle    } else if (ch > UNI_MAX_LEGAL_UTF32) {
*9712c20fSFrederick Mayle	    if (flags == strictConversion) {
*9712c20fSFrederick Mayle        result = sourceIllegal;
*9712c20fSFrederick Mayle	    } else {
*9712c20fSFrederick Mayle        *target++ = UNI_REPLACEMENT_CHAR;
*9712c20fSFrederick Mayle	    }
*9712c20fSFrederick Mayle    } else {
*9712c20fSFrederick Mayle	    /* target is a character in range 0xFFFF - 0x10FFFF. */
*9712c20fSFrederick Mayle	    if (target + 1 >= targetEnd) {
*9712c20fSFrederick Mayle        --source; /* Back up source pointer! */
*9712c20fSFrederick Mayle        result = targetExhausted; break;
*9712c20fSFrederick Mayle	    }
*9712c20fSFrederick Mayle	    ch -= halfBase;
*9712c20fSFrederick Mayle	    *target++ = (UTF16)((ch >> halfShift) + UNI_SUR_HIGH_START);
*9712c20fSFrederick Mayle	    *target++ = (UTF16)((ch & halfMask) + UNI_SUR_LOW_START);
*9712c20fSFrederick Mayle    }
*9712c20fSFrederick Mayle  }
*9712c20fSFrederick Mayle*sourceStart = source;
*9712c20fSFrederick Mayle*targetStart = target;
*9712c20fSFrederick Maylereturn result;
*9712c20fSFrederick Mayle}
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle/* --------------------------------------------------------------------- */
*9712c20fSFrederick Mayle
*9712c20fSFrederick MayleConversionResult ConvertUTF16toUTF32 (const UTF16** sourceStart, const UTF16* sourceEnd,
*9712c20fSFrederick Mayle                                      UTF32** targetStart, UTF32* targetEnd, ConversionFlags flags) {
*9712c20fSFrederick Mayle  ConversionResult result = conversionOK;
*9712c20fSFrederick Mayle  const UTF16* source = *sourceStart;
*9712c20fSFrederick Mayle  UTF32* target = *targetStart;
*9712c20fSFrederick Mayle  UTF32 ch, ch2;
*9712c20fSFrederick Mayle  while (source < sourceEnd) {
*9712c20fSFrederick Mayle    const UTF16* oldSource = source; /*  In case we have to back up because of target overflow. */
*9712c20fSFrederick Mayle    ch = *source++;
*9712c20fSFrederick Mayle    /* If we have a surrogate pair, convert to UTF32 first. */
*9712c20fSFrederick Mayle    if (ch >= UNI_SUR_HIGH_START && ch <= UNI_SUR_HIGH_END) {
*9712c20fSFrederick Mayle	    /* If the 16 bits following the high surrogate are in the source buffer... */
*9712c20fSFrederick Mayle	    if (source < sourceEnd) {
*9712c20fSFrederick Mayle        ch2 = *source;
*9712c20fSFrederick Mayle        /* If it's a low surrogate, convert to UTF32. */
*9712c20fSFrederick Mayle        if (ch2 >= UNI_SUR_LOW_START && ch2 <= UNI_SUR_LOW_END) {
*9712c20fSFrederick Mayle          ch = ((ch - UNI_SUR_HIGH_START) << halfShift)
*9712c20fSFrederick Mayle          + (ch2 - UNI_SUR_LOW_START) + halfBase;
*9712c20fSFrederick Mayle          ++source;
*9712c20fSFrederick Mayle        } else if (flags == strictConversion) { /* it's an unpaired high surrogate */
*9712c20fSFrederick Mayle          --source; /* return to the illegal value itself */
*9712c20fSFrederick Mayle          result = sourceIllegal;
*9712c20fSFrederick Mayle          break;
*9712c20fSFrederick Mayle        }
*9712c20fSFrederick Mayle	    } else { /* We don't have the 16 bits following the high surrogate. */
*9712c20fSFrederick Mayle        --source; /* return to the high surrogate */
*9712c20fSFrederick Mayle        result = sourceExhausted;
*9712c20fSFrederick Mayle        break;
*9712c20fSFrederick Mayle	    }
*9712c20fSFrederick Mayle    } else if (flags == strictConversion) {
*9712c20fSFrederick Mayle	    /* UTF-16 surrogate values are illegal in UTF-32 */
*9712c20fSFrederick Mayle	    if (ch >= UNI_SUR_LOW_START && ch <= UNI_SUR_LOW_END) {
*9712c20fSFrederick Mayle        --source; /* return to the illegal value itself */
*9712c20fSFrederick Mayle        result = sourceIllegal;
*9712c20fSFrederick Mayle        break;
*9712c20fSFrederick Mayle	    }
*9712c20fSFrederick Mayle    }
*9712c20fSFrederick Mayle    if (target >= targetEnd) {
*9712c20fSFrederick Mayle	    source = oldSource; /* Back up source pointer! */
*9712c20fSFrederick Mayle	    result = targetExhausted; break;
*9712c20fSFrederick Mayle    }
*9712c20fSFrederick Mayle    *target++ = ch;
*9712c20fSFrederick Mayle  }
*9712c20fSFrederick Mayle  *sourceStart = source;
*9712c20fSFrederick Mayle  *targetStart = target;
*9712c20fSFrederick Mayle#ifdef CVTUTF_DEBUG
*9712c20fSFrederick Mayle  if (result == sourceIllegal) {
*9712c20fSFrederick Mayle    fprintf(stderr, "ConvertUTF16toUTF32 illegal seq 0x%04x,%04x\n", ch, ch2);
*9712c20fSFrederick Mayle    fflush(stderr);
*9712c20fSFrederick Mayle  }
*9712c20fSFrederick Mayle#endif
*9712c20fSFrederick Mayle  return result;
*9712c20fSFrederick Mayle}
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle/* --------------------------------------------------------------------- */
*9712c20fSFrederick Mayle
*9712c20fSFrederick Maylenamespace {
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle/*
*9712c20fSFrederick Mayle * Index into the table below with the first byte of a UTF-8 sequence to
*9712c20fSFrederick Mayle * get the number of trailing bytes that are supposed to follow it.
*9712c20fSFrederick Mayle * Note that *legal* UTF-8 values can't have 4 or 5-bytes. The table is
*9712c20fSFrederick Mayle * left as-is for anyone who may want to do such conversion, which was
*9712c20fSFrederick Mayle * allowed in earlier algorithms.
*9712c20fSFrederick Mayle */
*9712c20fSFrederick Mayleconst char trailingBytesForUTF8[256] = {
*9712c20fSFrederick Mayle  0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
*9712c20fSFrederick Mayle  0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
*9712c20fSFrederick Mayle  0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
*9712c20fSFrederick Mayle  0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
*9712c20fSFrederick Mayle  0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
*9712c20fSFrederick Mayle  0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
*9712c20fSFrederick Mayle  1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1, 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
*9712c20fSFrederick Mayle  2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2, 3,3,3,3,3,3,3,3,4,4,4,4,5,5,5,5
*9712c20fSFrederick Mayle};
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle/*
*9712c20fSFrederick Mayle * Magic values subtracted from a buffer value during UTF8 conversion.
*9712c20fSFrederick Mayle * This table contains as many values as there might be trailing bytes
*9712c20fSFrederick Mayle * in a UTF-8 sequence.
*9712c20fSFrederick Mayle */
*9712c20fSFrederick Mayleconst UTF32 offsetsFromUTF8[6] = { 0x00000000UL, 0x00003080UL, 0x000E2080UL,
*9712c20fSFrederick Mayle  0x03C82080UL, 0xFA082080UL, 0x82082080UL };
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle/*
*9712c20fSFrederick Mayle * Once the bits are split out into bytes of UTF-8, this is a mask OR-ed
*9712c20fSFrederick Mayle * into the first byte, depending on how many bytes follow.  There are
*9712c20fSFrederick Mayle * as many entries in this table as there are UTF-8 sequence types.
*9712c20fSFrederick Mayle * (I.e., one byte sequence, two byte... etc.). Remember that sequencs
*9712c20fSFrederick Mayle * for *legal* UTF-8 will be 4 or fewer bytes total.
*9712c20fSFrederick Mayle */
*9712c20fSFrederick Mayleconst UTF8 firstByteMark[7] = { 0x00, 0x00, 0xC0, 0xE0, 0xF0, 0xF8, 0xFC };
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle/* --------------------------------------------------------------------- */
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle/* The interface converts a whole buffer to avoid function-call overhead.
*9712c20fSFrederick Mayle* Constants have been gathered. Loops & conditionals have been removed as
*9712c20fSFrederick Mayle* much as possible for efficiency, in favor of drop-through switches.
*9712c20fSFrederick Mayle* (See "Note A" at the bottom of the file for equivalent code.)
*9712c20fSFrederick Mayle* If your compiler supports it, the "isLegalUTF8" call can be turned
*9712c20fSFrederick Mayle* into an inline function.
*9712c20fSFrederick Mayle*/
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle}  // namespace
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle/* --------------------------------------------------------------------- */
*9712c20fSFrederick Mayle
*9712c20fSFrederick MayleConversionResult ConvertUTF16toUTF8 (const UTF16** sourceStart, const UTF16* sourceEnd,
*9712c20fSFrederick Mayle                                     UTF8** targetStart, UTF8* targetEnd, ConversionFlags flags) {
*9712c20fSFrederick Mayle  ConversionResult result = conversionOK;
*9712c20fSFrederick Mayle  const UTF16* source = *sourceStart;
*9712c20fSFrederick Mayle  UTF8* target = *targetStart;
*9712c20fSFrederick Mayle  while (source < sourceEnd) {
*9712c20fSFrederick Mayle    UTF32 ch;
*9712c20fSFrederick Mayle    unsigned short bytesToWrite = 0;
*9712c20fSFrederick Mayle    const UTF32 byteMask = 0xBF;
*9712c20fSFrederick Mayle    const UTF32 byteMark = 0x80;
*9712c20fSFrederick Mayle    const UTF16* oldSource = source; /* In case we have to back up because of target overflow. */
*9712c20fSFrederick Mayle    ch = *source++;
*9712c20fSFrederick Mayle    /* If we have a surrogate pair, convert to UTF32 first. */
*9712c20fSFrederick Mayle    if (ch >= UNI_SUR_HIGH_START && ch <= UNI_SUR_HIGH_END) {
*9712c20fSFrederick Mayle	    /* If the 16 bits following the high surrogate are in the source buffer... */
*9712c20fSFrederick Mayle	    if (source < sourceEnd) {
*9712c20fSFrederick Mayle        UTF32 ch2 = *source;
*9712c20fSFrederick Mayle        /* If it's a low surrogate, convert to UTF32. */
*9712c20fSFrederick Mayle        if (ch2 >= UNI_SUR_LOW_START && ch2 <= UNI_SUR_LOW_END) {
*9712c20fSFrederick Mayle          ch = ((ch - UNI_SUR_HIGH_START) << halfShift)
*9712c20fSFrederick Mayle          + (ch2 - UNI_SUR_LOW_START) + halfBase;
*9712c20fSFrederick Mayle          ++source;
*9712c20fSFrederick Mayle        } else if (flags == strictConversion) { /* it's an unpaired high surrogate */
*9712c20fSFrederick Mayle          --source; /* return to the illegal value itself */
*9712c20fSFrederick Mayle          result = sourceIllegal;
*9712c20fSFrederick Mayle          break;
*9712c20fSFrederick Mayle        }
*9712c20fSFrederick Mayle	    } else { /* We don't have the 16 bits following the high surrogate. */
*9712c20fSFrederick Mayle        --source; /* return to the high surrogate */
*9712c20fSFrederick Mayle        result = sourceExhausted;
*9712c20fSFrederick Mayle        break;
*9712c20fSFrederick Mayle	    }
*9712c20fSFrederick Mayle    } else if (flags == strictConversion) {
*9712c20fSFrederick Mayle	    /* UTF-16 surrogate values are illegal in UTF-32 */
*9712c20fSFrederick Mayle	    if (ch >= UNI_SUR_LOW_START && ch <= UNI_SUR_LOW_END) {
*9712c20fSFrederick Mayle        --source; /* return to the illegal value itself */
*9712c20fSFrederick Mayle        result = sourceIllegal;
*9712c20fSFrederick Mayle        break;
*9712c20fSFrederick Mayle	    }
*9712c20fSFrederick Mayle    }
*9712c20fSFrederick Mayle    /* Figure out how many bytes the result will require */
*9712c20fSFrederick Mayle    if (ch < (UTF32)0x80) {	     bytesToWrite = 1;
*9712c20fSFrederick Mayle    } else if (ch < (UTF32)0x800) {     bytesToWrite = 2;
*9712c20fSFrederick Mayle    } else if (ch < (UTF32)0x10000) {   bytesToWrite = 3;
*9712c20fSFrederick Mayle    } else if (ch < (UTF32)0x110000) {  bytesToWrite = 4;
*9712c20fSFrederick Mayle    } else {			    bytesToWrite = 3;
*9712c20fSFrederick Mayle      ch = UNI_REPLACEMENT_CHAR;
*9712c20fSFrederick Mayle    }
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle    target += bytesToWrite;
*9712c20fSFrederick Mayle    if (target > targetEnd) {
*9712c20fSFrederick Mayle	    source = oldSource; /* Back up source pointer! */
*9712c20fSFrederick Mayle	    target -= bytesToWrite; result = targetExhausted; break;
*9712c20fSFrederick Mayle    }
*9712c20fSFrederick Mayle    switch (bytesToWrite) { /* note: everything falls through. */
*9712c20fSFrederick Mayle      case 4:
*9712c20fSFrederick Mayle        *--target = (UTF8)((ch | byteMark) & byteMask);
*9712c20fSFrederick Mayle        ch >>= 6;
*9712c20fSFrederick Mayle        BP_FALLTHROUGH;
*9712c20fSFrederick Mayle      case 3:
*9712c20fSFrederick Mayle        *--target = (UTF8)((ch | byteMark) & byteMask);
*9712c20fSFrederick Mayle        ch >>= 6;
*9712c20fSFrederick Mayle        BP_FALLTHROUGH;
*9712c20fSFrederick Mayle      case 2:
*9712c20fSFrederick Mayle        *--target = (UTF8)((ch | byteMark) & byteMask);
*9712c20fSFrederick Mayle        ch >>= 6;
*9712c20fSFrederick Mayle        BP_FALLTHROUGH;
*9712c20fSFrederick Mayle      case 1:
*9712c20fSFrederick Mayle        *--target =  (UTF8)(ch | firstByteMark[bytesToWrite]);
*9712c20fSFrederick Mayle    }
*9712c20fSFrederick Mayle    target += bytesToWrite;
*9712c20fSFrederick Mayle  }
*9712c20fSFrederick Mayle*sourceStart = source;
*9712c20fSFrederick Mayle*targetStart = target;
*9712c20fSFrederick Maylereturn result;
*9712c20fSFrederick Mayle}
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle/* --------------------------------------------------------------------- */
*9712c20fSFrederick Mayle
*9712c20fSFrederick Maylenamespace {
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle/*
*9712c20fSFrederick Mayle * Utility routine to tell whether a sequence of bytes is legal UTF-8.
*9712c20fSFrederick Mayle * This must be called with the length pre-determined by the first byte.
*9712c20fSFrederick Mayle * If not calling this from ConvertUTF8to*, then the length can be set by:
*9712c20fSFrederick Mayle *  length = trailingBytesForUTF8[*source]+1;
*9712c20fSFrederick Mayle * and the sequence is illegal right away if there aren't that many bytes
*9712c20fSFrederick Mayle * available.
*9712c20fSFrederick Mayle * If presented with a length > 4, this returns false.  The Unicode
*9712c20fSFrederick Mayle * definition of UTF-8 goes up to 4-byte sequences.
*9712c20fSFrederick Mayle */
*9712c20fSFrederick MayleBoolean isLegalUTF8(const UTF8 *source, int length) {
*9712c20fSFrederick Mayle  UTF8 a;
*9712c20fSFrederick Mayle  const UTF8 *srcptr = source+length;
*9712c20fSFrederick Mayle  switch (length) {
*9712c20fSFrederick Mayle    default: return false;
*9712c20fSFrederick Mayle      /* Everything else falls through when "true"... */
*9712c20fSFrederick Mayle    case 4:
*9712c20fSFrederick Mayle      if ((a = (*--srcptr)) < 0x80 || a > 0xBF) return false;
*9712c20fSFrederick Mayle      BP_FALLTHROUGH;
*9712c20fSFrederick Mayle    case 3:
*9712c20fSFrederick Mayle      if ((a = (*--srcptr)) < 0x80 || a > 0xBF) return false;
*9712c20fSFrederick Mayle      BP_FALLTHROUGH;
*9712c20fSFrederick Mayle    case 2:
*9712c20fSFrederick Mayle      if ((a = (*--srcptr)) > 0xBF) return false;
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle      switch (*source) {
*9712c20fSFrederick Mayle        /* no fall-through in this inner switch */
*9712c20fSFrederick Mayle        case 0xE0: if (a < 0xA0) return false; break;
*9712c20fSFrederick Mayle        case 0xED: if (a > 0x9F) return false; break;
*9712c20fSFrederick Mayle        case 0xF0: if (a < 0x90) return false; break;
*9712c20fSFrederick Mayle        case 0xF4: if (a > 0x8F) return false; break;
*9712c20fSFrederick Mayle        default:   if (a < 0x80) return false;
*9712c20fSFrederick Mayle      }
*9712c20fSFrederick Mayle      BP_FALLTHROUGH;
*9712c20fSFrederick Mayle    case 1: if (*source >= 0x80 && *source < 0xC2) return false;
*9712c20fSFrederick Mayle  }
*9712c20fSFrederick Mayle  if (*source > 0xF4) return false;
*9712c20fSFrederick Mayle  return true;
*9712c20fSFrederick Mayle}
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle}  // namespace
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle/* --------------------------------------------------------------------- */
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle/*
*9712c20fSFrederick Mayle * Exported function to return whether a UTF-8 sequence is legal or not.
*9712c20fSFrederick Mayle * This is not used here; it's just exported.
*9712c20fSFrederick Mayle */
*9712c20fSFrederick MayleBoolean isLegalUTF8Sequence(const UTF8 *source, const UTF8 *sourceEnd) {
*9712c20fSFrederick Mayle  int length = trailingBytesForUTF8[*source]+1;
*9712c20fSFrederick Mayle  if (source+length > sourceEnd) {
*9712c20fSFrederick Mayle    return false;
*9712c20fSFrederick Mayle  }
*9712c20fSFrederick Mayle  return isLegalUTF8(source, length);
*9712c20fSFrederick Mayle}
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle/* --------------------------------------------------------------------- */
*9712c20fSFrederick Mayle
*9712c20fSFrederick MayleConversionResult ConvertUTF8toUTF16 (const UTF8** sourceStart, const UTF8* sourceEnd,
*9712c20fSFrederick Mayle                                     UTF16** targetStart, UTF16* targetEnd, ConversionFlags flags) {
*9712c20fSFrederick Mayle  ConversionResult result = conversionOK;
*9712c20fSFrederick Mayle  const UTF8* source = *sourceStart;
*9712c20fSFrederick Mayle  UTF16* target = *targetStart;
*9712c20fSFrederick Mayle  while (source < sourceEnd) {
*9712c20fSFrederick Mayle    UTF32 ch = 0;
*9712c20fSFrederick Mayle    unsigned short extraBytesToRead = trailingBytesForUTF8[*source];
*9712c20fSFrederick Mayle    if (source + extraBytesToRead >= sourceEnd) {
*9712c20fSFrederick Mayle	    result = sourceExhausted; break;
*9712c20fSFrederick Mayle    }
*9712c20fSFrederick Mayle    /* Do this check whether lenient or strict */
*9712c20fSFrederick Mayle    if (! isLegalUTF8(source, extraBytesToRead+1)) {
*9712c20fSFrederick Mayle	    result = sourceIllegal;
*9712c20fSFrederick Mayle	    break;
*9712c20fSFrederick Mayle    }
*9712c20fSFrederick Mayle    /*
*9712c20fSFrederick Mayle     * The cases all fall through. See "Note A" below.
*9712c20fSFrederick Mayle     */
*9712c20fSFrederick Mayle    switch (extraBytesToRead) {
*9712c20fSFrederick Mayle      /* remember, illegal UTF-8 */
*9712c20fSFrederick Mayle      case 5: ch += *source++; ch <<= 6; BP_FALLTHROUGH;
*9712c20fSFrederick Mayle      /* remember, illegal UTF-8 */
*9712c20fSFrederick Mayle      case 4: ch += *source++; ch <<= 6; BP_FALLTHROUGH;
*9712c20fSFrederick Mayle      case 3: ch += *source++; ch <<= 6; BP_FALLTHROUGH;
*9712c20fSFrederick Mayle      case 2: ch += *source++; ch <<= 6; BP_FALLTHROUGH;
*9712c20fSFrederick Mayle      case 1: ch += *source++; ch <<= 6; BP_FALLTHROUGH;
*9712c20fSFrederick Mayle      case 0: ch += *source++;
*9712c20fSFrederick Mayle    }
*9712c20fSFrederick Mayle    ch -= offsetsFromUTF8[extraBytesToRead];
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle    if (target >= targetEnd) {
*9712c20fSFrederick Mayle	    source -= (extraBytesToRead+1); /* Back up source pointer! */
*9712c20fSFrederick Mayle	    result = targetExhausted; break;
*9712c20fSFrederick Mayle    }
*9712c20fSFrederick Mayle    if (ch <= UNI_MAX_BMP) { /* Target is a character <= 0xFFFF */
*9712c20fSFrederick Mayle	    /* UTF-16 surrogate values are illegal in UTF-32 */
*9712c20fSFrederick Mayle	    if (ch >= UNI_SUR_HIGH_START && ch <= UNI_SUR_LOW_END) {
*9712c20fSFrederick Mayle        if (flags == strictConversion) {
*9712c20fSFrederick Mayle          source -= (extraBytesToRead+1); /* return to the illegal value itself */
*9712c20fSFrederick Mayle          result = sourceIllegal;
*9712c20fSFrederick Mayle          break;
*9712c20fSFrederick Mayle        } else {
*9712c20fSFrederick Mayle          *target++ = UNI_REPLACEMENT_CHAR;
*9712c20fSFrederick Mayle        }
*9712c20fSFrederick Mayle	    } else {
*9712c20fSFrederick Mayle        *target++ = (UTF16)ch; /* normal case */
*9712c20fSFrederick Mayle	    }
*9712c20fSFrederick Mayle    } else if (ch > UNI_MAX_UTF16) {
*9712c20fSFrederick Mayle	    if (flags == strictConversion) {
*9712c20fSFrederick Mayle        result = sourceIllegal;
*9712c20fSFrederick Mayle        source -= (extraBytesToRead+1); /* return to the start */
*9712c20fSFrederick Mayle        break; /* Bail out; shouldn't continue */
*9712c20fSFrederick Mayle	    } else {
*9712c20fSFrederick Mayle        *target++ = UNI_REPLACEMENT_CHAR;
*9712c20fSFrederick Mayle	    }
*9712c20fSFrederick Mayle    } else {
*9712c20fSFrederick Mayle	    /* target is a character in range 0xFFFF - 0x10FFFF. */
*9712c20fSFrederick Mayle	    if (target + 1 >= targetEnd) {
*9712c20fSFrederick Mayle        source -= (extraBytesToRead+1); /* Back up source pointer! */
*9712c20fSFrederick Mayle        result = targetExhausted; break;
*9712c20fSFrederick Mayle	    }
*9712c20fSFrederick Mayle	    ch -= halfBase;
*9712c20fSFrederick Mayle	    *target++ = (UTF16)((ch >> halfShift) + UNI_SUR_HIGH_START);
*9712c20fSFrederick Mayle	    *target++ = (UTF16)((ch & halfMask) + UNI_SUR_LOW_START);
*9712c20fSFrederick Mayle    }
*9712c20fSFrederick Mayle  }
*9712c20fSFrederick Mayle*sourceStart = source;
*9712c20fSFrederick Mayle*targetStart = target;
*9712c20fSFrederick Maylereturn result;
*9712c20fSFrederick Mayle}
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle/* --------------------------------------------------------------------- */
*9712c20fSFrederick Mayle
*9712c20fSFrederick MayleConversionResult ConvertUTF32toUTF8 (const UTF32** sourceStart, const UTF32* sourceEnd,
*9712c20fSFrederick Mayle                                     UTF8** targetStart, UTF8* targetEnd, ConversionFlags flags) {
*9712c20fSFrederick Mayle  ConversionResult result = conversionOK;
*9712c20fSFrederick Mayle  const UTF32* source = *sourceStart;
*9712c20fSFrederick Mayle  UTF8* target = *targetStart;
*9712c20fSFrederick Mayle  while (source < sourceEnd) {
*9712c20fSFrederick Mayle    UTF32 ch;
*9712c20fSFrederick Mayle    unsigned short bytesToWrite = 0;
*9712c20fSFrederick Mayle    const UTF32 byteMask = 0xBF;
*9712c20fSFrederick Mayle    const UTF32 byteMark = 0x80;
*9712c20fSFrederick Mayle    ch = *source++;
*9712c20fSFrederick Mayle    if (flags == strictConversion ) {
*9712c20fSFrederick Mayle	    /* UTF-16 surrogate values are illegal in UTF-32 */
*9712c20fSFrederick Mayle	    if (ch >= UNI_SUR_HIGH_START && ch <= UNI_SUR_LOW_END) {
*9712c20fSFrederick Mayle        --source; /* return to the illegal value itself */
*9712c20fSFrederick Mayle        result = sourceIllegal;
*9712c20fSFrederick Mayle        break;
*9712c20fSFrederick Mayle	    }
*9712c20fSFrederick Mayle    }
*9712c20fSFrederick Mayle    /*
*9712c20fSFrederick Mayle     * Figure out how many bytes the result will require. Turn any
*9712c20fSFrederick Mayle     * illegally large UTF32 things (> Plane 17) into replacement chars.
*9712c20fSFrederick Mayle     */
*9712c20fSFrederick Mayle    if (ch < (UTF32)0x80) {	     bytesToWrite = 1;
*9712c20fSFrederick Mayle    } else if (ch < (UTF32)0x800) {     bytesToWrite = 2;
*9712c20fSFrederick Mayle    } else if (ch < (UTF32)0x10000) {   bytesToWrite = 3;
*9712c20fSFrederick Mayle    } else if (ch <= UNI_MAX_LEGAL_UTF32) {  bytesToWrite = 4;
*9712c20fSFrederick Mayle    } else {			    bytesToWrite = 3;
*9712c20fSFrederick Mayle      ch = UNI_REPLACEMENT_CHAR;
*9712c20fSFrederick Mayle      result = sourceIllegal;
*9712c20fSFrederick Mayle    }
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle    target += bytesToWrite;
*9712c20fSFrederick Mayle    if (target > targetEnd) {
*9712c20fSFrederick Mayle	    --source; /* Back up source pointer! */
*9712c20fSFrederick Mayle	    target -= bytesToWrite; result = targetExhausted; break;
*9712c20fSFrederick Mayle    }
*9712c20fSFrederick Mayle    switch (bytesToWrite) { /* note: everything falls through. */
*9712c20fSFrederick Mayle      case 4:
*9712c20fSFrederick Mayle        *--target = (UTF8)((ch | byteMark) & byteMask);
*9712c20fSFrederick Mayle        ch >>= 6;
*9712c20fSFrederick Mayle        BP_FALLTHROUGH;
*9712c20fSFrederick Mayle      case 3:
*9712c20fSFrederick Mayle        *--target = (UTF8)((ch | byteMark) & byteMask);
*9712c20fSFrederick Mayle        ch >>= 6;
*9712c20fSFrederick Mayle        BP_FALLTHROUGH;
*9712c20fSFrederick Mayle      case 2:
*9712c20fSFrederick Mayle        *--target = (UTF8)((ch | byteMark) & byteMask);
*9712c20fSFrederick Mayle        ch >>= 6;
*9712c20fSFrederick Mayle        BP_FALLTHROUGH;
*9712c20fSFrederick Mayle      case 1:
*9712c20fSFrederick Mayle        *--target = (UTF8) (ch | firstByteMark[bytesToWrite]);
*9712c20fSFrederick Mayle    }
*9712c20fSFrederick Mayle    target += bytesToWrite;
*9712c20fSFrederick Mayle  }
*9712c20fSFrederick Mayle*sourceStart = source;
*9712c20fSFrederick Mayle*targetStart = target;
*9712c20fSFrederick Maylereturn result;
*9712c20fSFrederick Mayle}
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle/* --------------------------------------------------------------------- */
*9712c20fSFrederick Mayle
*9712c20fSFrederick MayleConversionResult ConvertUTF8toUTF32 (const UTF8** sourceStart, const UTF8* sourceEnd,
*9712c20fSFrederick Mayle                                     UTF32** targetStart, UTF32* targetEnd, ConversionFlags flags) {
*9712c20fSFrederick Mayle  ConversionResult result = conversionOK;
*9712c20fSFrederick Mayle  const UTF8* source = *sourceStart;
*9712c20fSFrederick Mayle  UTF32* target = *targetStart;
*9712c20fSFrederick Mayle  while (source < sourceEnd) {
*9712c20fSFrederick Mayle    UTF32 ch = 0;
*9712c20fSFrederick Mayle    unsigned short extraBytesToRead = trailingBytesForUTF8[*source];
*9712c20fSFrederick Mayle    if (source + extraBytesToRead >= sourceEnd) {
*9712c20fSFrederick Mayle	    result = sourceExhausted; break;
*9712c20fSFrederick Mayle    }
*9712c20fSFrederick Mayle    /* Do this check whether lenient or strict */
*9712c20fSFrederick Mayle    if (! isLegalUTF8(source, extraBytesToRead+1)) {
*9712c20fSFrederick Mayle	    result = sourceIllegal;
*9712c20fSFrederick Mayle	    break;
*9712c20fSFrederick Mayle    }
*9712c20fSFrederick Mayle    /*
*9712c20fSFrederick Mayle     * The cases all fall through. See "Note A" below.
*9712c20fSFrederick Mayle     */
*9712c20fSFrederick Mayle    switch (extraBytesToRead) {
*9712c20fSFrederick Mayle      case 5: ch += *source++; ch <<= 6; BP_FALLTHROUGH;
*9712c20fSFrederick Mayle      case 4: ch += *source++; ch <<= 6; BP_FALLTHROUGH;
*9712c20fSFrederick Mayle      case 3: ch += *source++; ch <<= 6; BP_FALLTHROUGH;
*9712c20fSFrederick Mayle      case 2: ch += *source++; ch <<= 6; BP_FALLTHROUGH;
*9712c20fSFrederick Mayle      case 1: ch += *source++; ch <<= 6; BP_FALLTHROUGH;
*9712c20fSFrederick Mayle      case 0: ch += *source++;
*9712c20fSFrederick Mayle    }
*9712c20fSFrederick Mayle    ch -= offsetsFromUTF8[extraBytesToRead];
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle    if (target >= targetEnd) {
*9712c20fSFrederick Mayle	    source -= (extraBytesToRead+1); /* Back up the source pointer! */
*9712c20fSFrederick Mayle	    result = targetExhausted; break;
*9712c20fSFrederick Mayle    }
*9712c20fSFrederick Mayle    if (ch <= UNI_MAX_LEGAL_UTF32) {
*9712c20fSFrederick Mayle	    /*
*9712c20fSFrederick Mayle	     * UTF-16 surrogate values are illegal in UTF-32, and anything
*9712c20fSFrederick Mayle	     * over Plane 17 (> 0x10FFFF) is illegal.
*9712c20fSFrederick Mayle	     */
*9712c20fSFrederick Mayle	    if (ch >= UNI_SUR_HIGH_START && ch <= UNI_SUR_LOW_END) {
*9712c20fSFrederick Mayle        if (flags == strictConversion) {
*9712c20fSFrederick Mayle          source -= (extraBytesToRead+1); /* return to the illegal value itself */
*9712c20fSFrederick Mayle          result = sourceIllegal;
*9712c20fSFrederick Mayle          break;
*9712c20fSFrederick Mayle        } else {
*9712c20fSFrederick Mayle          *target++ = UNI_REPLACEMENT_CHAR;
*9712c20fSFrederick Mayle        }
*9712c20fSFrederick Mayle	    } else {
*9712c20fSFrederick Mayle        *target++ = ch;
*9712c20fSFrederick Mayle	    }
*9712c20fSFrederick Mayle    } else { /* i.e., ch > UNI_MAX_LEGAL_UTF32 */
*9712c20fSFrederick Mayle	    result = sourceIllegal;
*9712c20fSFrederick Mayle	    *target++ = UNI_REPLACEMENT_CHAR;
*9712c20fSFrederick Mayle    }
*9712c20fSFrederick Mayle  }
*9712c20fSFrederick Mayle  *sourceStart = source;
*9712c20fSFrederick Mayle  *targetStart = target;
*9712c20fSFrederick Mayle  return result;
*9712c20fSFrederick Mayle}
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle/* ---------------------------------------------------------------------
*9712c20fSFrederick Mayle
*9712c20fSFrederick MayleNote A.
*9712c20fSFrederick MayleThe fall-through switches in UTF-8 reading code save a
*9712c20fSFrederick Mayletemp variable, some decrements & conditionals.  The switches
*9712c20fSFrederick Mayleare equivalent to the following loop:
*9712c20fSFrederick Mayle{
*9712c20fSFrederick Mayle  int tmpBytesToRead = extraBytesToRead+1;
*9712c20fSFrederick Mayle  do {
*9712c20fSFrederick Mayle		ch += *source++;
*9712c20fSFrederick Mayle		--tmpBytesToRead;
*9712c20fSFrederick Mayle		if (tmpBytesToRead) ch <<= 6;
*9712c20fSFrederick Mayle  } while (tmpBytesToRead > 0);
*9712c20fSFrederick Mayle}
*9712c20fSFrederick MayleIn UTF-8 writing code, the switches on "bytesToWrite" are
*9712c20fSFrederick Maylesimilarly unrolled loops.
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle--------------------------------------------------------------------- */
*9712c20fSFrederick Mayle
*9712c20fSFrederick Mayle}  // namespace google_breakpad