1*8af74909SZhong Yang // Scintilla source code edit control
2*8af74909SZhong Yang /** @file UniConversion.h
3*8af74909SZhong Yang ** Functions to handle UTF-8 and UTF-16 strings.
4*8af74909SZhong Yang **/
5*8af74909SZhong Yang // Copyright 1998-2001 by Neil Hodgson <[email protected]>
6*8af74909SZhong Yang // The License.txt file describes the conditions under which this software may be distributed.
7*8af74909SZhong Yang
8*8af74909SZhong Yang #ifndef UNICONVERSION_H
9*8af74909SZhong Yang #define UNICONVERSION_H
10*8af74909SZhong Yang
11*8af74909SZhong Yang namespace Scintilla {
12*8af74909SZhong Yang
13*8af74909SZhong Yang constexpr int UTF8MaxBytes = 4;
14*8af74909SZhong Yang
15*8af74909SZhong Yang constexpr int unicodeReplacementChar = 0xFFFD;
16*8af74909SZhong Yang
17*8af74909SZhong Yang size_t UTF8Length(std::wstring_view wsv) noexcept;
18*8af74909SZhong Yang size_t UTF8PositionFromUTF16Position(std::string_view u8Text, size_t positionUTF16) noexcept;
19*8af74909SZhong Yang void UTF8FromUTF16(std::wstring_view wsv, char *putf, size_t len) noexcept;
20*8af74909SZhong Yang void UTF8FromUTF32Character(int uch, char *putf) noexcept;
21*8af74909SZhong Yang size_t UTF16Length(std::string_view svu8) noexcept;
22*8af74909SZhong Yang size_t UTF16FromUTF8(std::string_view svu8, wchar_t *tbuf, size_t tlen);
23*8af74909SZhong Yang size_t UTF32Length(std::string_view svu8) noexcept;
24*8af74909SZhong Yang size_t UTF32FromUTF8(std::string_view svu8, unsigned int *tbuf, size_t tlen);
25*8af74909SZhong Yang // WStringFromUTF8 does the right thing when wchar_t is 2 or 4 bytes so
26*8af74909SZhong Yang // works on both Windows and Unix.
27*8af74909SZhong Yang std::wstring WStringFromUTF8(std::string_view svu8);
28*8af74909SZhong Yang unsigned int UTF16FromUTF32Character(unsigned int val, wchar_t *tbuf) noexcept;
29*8af74909SZhong Yang bool UTF8IsValid(std::string_view svu8) noexcept;
30*8af74909SZhong Yang std::string FixInvalidUTF8(const std::string &text);
31*8af74909SZhong Yang
32*8af74909SZhong Yang extern const unsigned char UTF8BytesOfLead[256];
33*8af74909SZhong Yang
UnicodeFromUTF8(const unsigned char * us)34*8af74909SZhong Yang inline int UnicodeFromUTF8(const unsigned char *us) noexcept {
35*8af74909SZhong Yang switch (UTF8BytesOfLead[us[0]]) {
36*8af74909SZhong Yang case 1:
37*8af74909SZhong Yang return us[0];
38*8af74909SZhong Yang case 2:
39*8af74909SZhong Yang return ((us[0] & 0x1F) << 6) + (us[1] & 0x3F);
40*8af74909SZhong Yang case 3:
41*8af74909SZhong Yang return ((us[0] & 0xF) << 12) + ((us[1] & 0x3F) << 6) + (us[2] & 0x3F);
42*8af74909SZhong Yang default:
43*8af74909SZhong Yang return ((us[0] & 0x7) << 18) + ((us[1] & 0x3F) << 12) + ((us[2] & 0x3F) << 6) + (us[3] & 0x3F);
44*8af74909SZhong Yang }
45*8af74909SZhong Yang }
46*8af74909SZhong Yang
UTF8IsTrailByte(unsigned char ch)47*8af74909SZhong Yang inline constexpr bool UTF8IsTrailByte(unsigned char ch) noexcept {
48*8af74909SZhong Yang return (ch >= 0x80) && (ch < 0xc0);
49*8af74909SZhong Yang }
50*8af74909SZhong Yang
UTF8IsAscii(int ch)51*8af74909SZhong Yang inline constexpr bool UTF8IsAscii(int ch) noexcept {
52*8af74909SZhong Yang return ch < 0x80;
53*8af74909SZhong Yang }
54*8af74909SZhong Yang
55*8af74909SZhong Yang enum { UTF8MaskWidth=0x7, UTF8MaskInvalid=0x8 };
56*8af74909SZhong Yang int UTF8Classify(const unsigned char *us, size_t len) noexcept;
UTF8Classify(std::string_view sv)57*8af74909SZhong Yang inline int UTF8Classify(std::string_view sv) noexcept {
58*8af74909SZhong Yang return UTF8Classify(reinterpret_cast<const unsigned char *>(sv.data()), sv.length());
59*8af74909SZhong Yang }
60*8af74909SZhong Yang
61*8af74909SZhong Yang // Similar to UTF8Classify but returns a length of 1 for invalid bytes
62*8af74909SZhong Yang // instead of setting the invalid flag
63*8af74909SZhong Yang int UTF8DrawBytes(const unsigned char *us, int len) noexcept;
64*8af74909SZhong Yang
65*8af74909SZhong Yang // Line separator is U+2028 \xe2\x80\xa8
66*8af74909SZhong Yang // Paragraph separator is U+2029 \xe2\x80\xa9
67*8af74909SZhong Yang constexpr int UTF8SeparatorLength = 3;
UTF8IsSeparator(const unsigned char * us)68*8af74909SZhong Yang inline bool UTF8IsSeparator(const unsigned char *us) noexcept {
69*8af74909SZhong Yang return (us[0] == 0xe2) && (us[1] == 0x80) && ((us[2] == 0xa8) || (us[2] == 0xa9));
70*8af74909SZhong Yang }
71*8af74909SZhong Yang
72*8af74909SZhong Yang // NEL is U+0085 \xc2\x85
73*8af74909SZhong Yang constexpr int UTF8NELLength = 2;
UTF8IsNEL(const unsigned char * us)74*8af74909SZhong Yang inline bool UTF8IsNEL(const unsigned char *us) noexcept {
75*8af74909SZhong Yang return (us[0] == 0xc2) && (us[1] == 0x85);
76*8af74909SZhong Yang }
77*8af74909SZhong Yang
78*8af74909SZhong Yang // Is the sequence of 3 char a UTF-8 line end? Only the last two char are tested for a NEL.
UTF8IsMultibyteLineEnd(unsigned char ch0,unsigned char ch1,unsigned char ch2)79*8af74909SZhong Yang constexpr bool UTF8IsMultibyteLineEnd(unsigned char ch0, unsigned char ch1, unsigned char ch2) noexcept {
80*8af74909SZhong Yang return
81*8af74909SZhong Yang ((ch0 == 0xe2) && (ch1 == 0x80) && ((ch2 == 0xa8) || (ch2 == 0xa9))) ||
82*8af74909SZhong Yang ((ch1 == 0xc2) && (ch2 == 0x85));
83*8af74909SZhong Yang }
84*8af74909SZhong Yang
85*8af74909SZhong Yang enum { SURROGATE_LEAD_FIRST = 0xD800 };
86*8af74909SZhong Yang enum { SURROGATE_LEAD_LAST = 0xDBFF };
87*8af74909SZhong Yang enum { SURROGATE_TRAIL_FIRST = 0xDC00 };
88*8af74909SZhong Yang enum { SURROGATE_TRAIL_LAST = 0xDFFF };
89*8af74909SZhong Yang enum { SUPPLEMENTAL_PLANE_FIRST = 0x10000 };
90*8af74909SZhong Yang
UTF16CharLength(wchar_t uch)91*8af74909SZhong Yang inline constexpr unsigned int UTF16CharLength(wchar_t uch) noexcept {
92*8af74909SZhong Yang return ((uch >= SURROGATE_LEAD_FIRST) && (uch <= SURROGATE_LEAD_LAST)) ? 2 : 1;
93*8af74909SZhong Yang }
94*8af74909SZhong Yang
UTF16LengthFromUTF8ByteCount(unsigned int byteCount)95*8af74909SZhong Yang inline constexpr unsigned int UTF16LengthFromUTF8ByteCount(unsigned int byteCount) noexcept {
96*8af74909SZhong Yang return (byteCount < 4) ? 1 : 2;
97*8af74909SZhong Yang }
98*8af74909SZhong Yang
99*8af74909SZhong Yang }
100*8af74909SZhong Yang
101*8af74909SZhong Yang #endif
102