1*8af74909SZhong Yang // Scintilla source code edit control
2*8af74909SZhong Yang /** @file RESearch.cxx
3*8af74909SZhong Yang ** Regular expression search library.
4*8af74909SZhong Yang **/
5*8af74909SZhong Yang
6*8af74909SZhong Yang /*
7*8af74909SZhong Yang * regex - Regular expression pattern matching and replacement
8*8af74909SZhong Yang *
9*8af74909SZhong Yang * By: Ozan S. Yigit (oz)
10*8af74909SZhong Yang * Dept. of Computer Science
11*8af74909SZhong Yang * York University
12*8af74909SZhong Yang *
13*8af74909SZhong Yang * Original code available from http://www.cs.yorku.ca/~oz/
14*8af74909SZhong Yang * Translation to C++ by Neil Hodgson [email protected]
15*8af74909SZhong Yang * Removed all use of register.
16*8af74909SZhong Yang * Converted to modern function prototypes.
17*8af74909SZhong Yang * Put all global/static variables into an object so this code can be
18*8af74909SZhong Yang * used from multiple threads, etc.
19*8af74909SZhong Yang * Some extensions by Philippe Lhoste PhiLho(a)GMX.net
20*8af74909SZhong Yang * '?' extensions by Michael Mullin [email protected]
21*8af74909SZhong Yang *
22*8af74909SZhong Yang * These routines are the PUBLIC DOMAIN equivalents of regex
23*8af74909SZhong Yang * routines as found in 4.nBSD UN*X, with minor extensions.
24*8af74909SZhong Yang *
25*8af74909SZhong Yang * These routines are derived from various implementations found
26*8af74909SZhong Yang * in software tools books, and Conroy's grep. They are NOT derived
27*8af74909SZhong Yang * from licensed/restricted software.
28*8af74909SZhong Yang * For more interesting/academic/complicated implementations,
29*8af74909SZhong Yang * see Henry Spencer's regexp routines, or GNU Emacs pattern
30*8af74909SZhong Yang * matching module.
31*8af74909SZhong Yang *
32*8af74909SZhong Yang * Modification history removed.
33*8af74909SZhong Yang *
34*8af74909SZhong Yang * Interfaces:
35*8af74909SZhong Yang * RESearch::Compile: compile a regular expression into a NFA.
36*8af74909SZhong Yang *
37*8af74909SZhong Yang * const char *RESearch::Compile(const char *pattern, int length,
38*8af74909SZhong Yang * bool caseSensitive, bool posix)
39*8af74909SZhong Yang *
40*8af74909SZhong Yang * Returns a short error string if they fail.
41*8af74909SZhong Yang *
42*8af74909SZhong Yang * RESearch::Execute: execute the NFA to match a pattern.
43*8af74909SZhong Yang *
44*8af74909SZhong Yang * int RESearch::Execute(characterIndexer &ci, int lp, int endp)
45*8af74909SZhong Yang *
46*8af74909SZhong Yang * re_fail: failure routine for RESearch::Execute. (no longer used)
47*8af74909SZhong Yang *
48*8af74909SZhong Yang * void re_fail(char *msg, char op)
49*8af74909SZhong Yang *
50*8af74909SZhong Yang * Regular Expressions:
51*8af74909SZhong Yang *
52*8af74909SZhong Yang * [1] char matches itself, unless it is a special
53*8af74909SZhong Yang * character (metachar): . \ [ ] * + ? ^ $
54*8af74909SZhong Yang * and ( ) if posix option.
55*8af74909SZhong Yang *
56*8af74909SZhong Yang * [2] . matches any character.
57*8af74909SZhong Yang *
58*8af74909SZhong Yang * [3] \ matches the character following it, except:
59*8af74909SZhong Yang * - \a, \b, \f, \n, \r, \t, \v match the corresponding C
60*8af74909SZhong Yang * escape char, respectively BEL, BS, FF, LF, CR, TAB and VT;
61*8af74909SZhong Yang * Note that \r and \n are never matched because Scintilla
62*8af74909SZhong Yang * regex searches are made line per line
63*8af74909SZhong Yang * (stripped of end-of-line chars).
64*8af74909SZhong Yang * - if not in posix mode, when followed by a
65*8af74909SZhong Yang * left or right round bracket (see [8]);
66*8af74909SZhong Yang * - when followed by a digit 1 to 9 (see [9]);
67*8af74909SZhong Yang * - when followed by a left or right angle bracket
68*8af74909SZhong Yang * (see [10]);
69*8af74909SZhong Yang * - when followed by d, D, s, S, w or W (see [11]);
70*8af74909SZhong Yang * - when followed by x and two hexa digits (see [12].
71*8af74909SZhong Yang * Backslash is used as an escape character for all
72*8af74909SZhong Yang * other meta-characters, and itself.
73*8af74909SZhong Yang *
74*8af74909SZhong Yang * [4] [set] matches one of the characters in the set.
75*8af74909SZhong Yang * If the first character in the set is "^",
76*8af74909SZhong Yang * it matches the characters NOT in the set, i.e.
77*8af74909SZhong Yang * complements the set. A shorthand S-E (start dash end)
78*8af74909SZhong Yang * is used to specify a set of characters S up to
79*8af74909SZhong Yang * E, inclusive. S and E must be characters, otherwise
80*8af74909SZhong Yang * the dash is taken literally (eg. in expression [\d-a]).
81*8af74909SZhong Yang * The special characters "]" and "-" have no special
82*8af74909SZhong Yang * meaning if they appear as the first chars in the set.
83*8af74909SZhong Yang * To include both, put - first: [-]A-Z]
84*8af74909SZhong Yang * (or just backslash them).
85*8af74909SZhong Yang * examples: match:
86*8af74909SZhong Yang *
87*8af74909SZhong Yang * [-]|] matches these 3 chars,
88*8af74909SZhong Yang *
89*8af74909SZhong Yang * []-|] matches from ] to | chars
90*8af74909SZhong Yang *
91*8af74909SZhong Yang * [a-z] any lowercase alpha
92*8af74909SZhong Yang *
93*8af74909SZhong Yang * [^-]] any char except - and ]
94*8af74909SZhong Yang *
95*8af74909SZhong Yang * [^A-Z] any char except uppercase
96*8af74909SZhong Yang * alpha
97*8af74909SZhong Yang *
98*8af74909SZhong Yang * [a-zA-Z] any alpha
99*8af74909SZhong Yang *
100*8af74909SZhong Yang * [5] * any regular expression form [1] to [4]
101*8af74909SZhong Yang * (except [8], [9] and [10] forms of [3]),
102*8af74909SZhong Yang * followed by closure char (*)
103*8af74909SZhong Yang * matches zero or more matches of that form.
104*8af74909SZhong Yang *
105*8af74909SZhong Yang * [6] + same as [5], except it matches one or more.
106*8af74909SZhong Yang *
107*8af74909SZhong Yang * [5-6] Both [5] and [6] are greedy (they match as much as possible).
108*8af74909SZhong Yang * Unless they are followed by the 'lazy' quantifier (?)
109*8af74909SZhong Yang * In which case both [5] and [6] try to match as little as possible
110*8af74909SZhong Yang *
111*8af74909SZhong Yang * [7] ? same as [5] except it matches zero or one.
112*8af74909SZhong Yang *
113*8af74909SZhong Yang * [8] a regular expression in the form [1] to [13], enclosed
114*8af74909SZhong Yang * as \(form\) (or (form) with posix flag) matches what
115*8af74909SZhong Yang * form matches. The enclosure creates a set of tags,
116*8af74909SZhong Yang * used for [9] and for pattern substitution.
117*8af74909SZhong Yang * The tagged forms are numbered starting from 1.
118*8af74909SZhong Yang *
119*8af74909SZhong Yang * [9] a \ followed by a digit 1 to 9 matches whatever a
120*8af74909SZhong Yang * previously tagged regular expression ([8]) matched.
121*8af74909SZhong Yang *
122*8af74909SZhong Yang * [10] \< a regular expression starting with a \< construct
123*8af74909SZhong Yang * \> and/or ending with a \> construct, restricts the
124*8af74909SZhong Yang * pattern matching to the beginning of a word, and/or
125*8af74909SZhong Yang * the end of a word. A word is defined to be a character
126*8af74909SZhong Yang * string beginning and/or ending with the characters
127*8af74909SZhong Yang * A-Z a-z 0-9 and _. Scintilla extends this definition
128*8af74909SZhong Yang * by user setting. The word must also be preceded and/or
129*8af74909SZhong Yang * followed by any character outside those mentioned.
130*8af74909SZhong Yang *
131*8af74909SZhong Yang * [11] \l a backslash followed by d, D, s, S, w or W,
132*8af74909SZhong Yang * becomes a character class (both inside and
133*8af74909SZhong Yang * outside sets []).
134*8af74909SZhong Yang * d: decimal digits
135*8af74909SZhong Yang * D: any char except decimal digits
136*8af74909SZhong Yang * s: whitespace (space, \t \n \r \f \v)
137*8af74909SZhong Yang * S: any char except whitespace (see above)
138*8af74909SZhong Yang * w: alphanumeric & underscore (changed by user setting)
139*8af74909SZhong Yang * W: any char except alphanumeric & underscore (see above)
140*8af74909SZhong Yang *
141*8af74909SZhong Yang * [12] \xHH a backslash followed by x and two hexa digits,
142*8af74909SZhong Yang * becomes the character whose ASCII code is equal
143*8af74909SZhong Yang * to these digits. If not followed by two digits,
144*8af74909SZhong Yang * it is 'x' char itself.
145*8af74909SZhong Yang *
146*8af74909SZhong Yang * [13] a composite regular expression xy where x and y
147*8af74909SZhong Yang * are in the form [1] to [12] matches the longest
148*8af74909SZhong Yang * match of x followed by a match for y.
149*8af74909SZhong Yang *
150*8af74909SZhong Yang * [14] ^ a regular expression starting with a ^ character
151*8af74909SZhong Yang * $ and/or ending with a $ character, restricts the
152*8af74909SZhong Yang * pattern matching to the beginning of the line,
153*8af74909SZhong Yang * or the end of line. [anchors] Elsewhere in the
154*8af74909SZhong Yang * pattern, ^ and $ are treated as ordinary characters.
155*8af74909SZhong Yang *
156*8af74909SZhong Yang *
157*8af74909SZhong Yang * Acknowledgements:
158*8af74909SZhong Yang *
159*8af74909SZhong Yang * HCR's Hugh Redelmeier has been most helpful in various
160*8af74909SZhong Yang * stages of development. He convinced me to include BOW
161*8af74909SZhong Yang * and EOW constructs, originally invented by Rob Pike at
162*8af74909SZhong Yang * the University of Toronto.
163*8af74909SZhong Yang *
164*8af74909SZhong Yang * References:
165*8af74909SZhong Yang * Software tools Kernighan & Plauger
166*8af74909SZhong Yang * Software tools in Pascal Kernighan & Plauger
167*8af74909SZhong Yang * Grep [rsx-11 C dist] David Conroy
168*8af74909SZhong Yang * ed - text editor Un*x Programmer's Manual
169*8af74909SZhong Yang * Advanced editing on Un*x B. W. Kernighan
170*8af74909SZhong Yang * RegExp routines Henry Spencer
171*8af74909SZhong Yang *
172*8af74909SZhong Yang * Notes:
173*8af74909SZhong Yang *
174*8af74909SZhong Yang * This implementation uses a bit-set representation for character
175*8af74909SZhong Yang * classes for speed and compactness. Each character is represented
176*8af74909SZhong Yang * by one bit in a 256-bit block. Thus, CCL always takes a
177*8af74909SZhong Yang * constant 32 bytes in the internal nfa, and RESearch::Execute does a single
178*8af74909SZhong Yang * bit comparison to locate the character in the set.
179*8af74909SZhong Yang *
180*8af74909SZhong Yang * Examples:
181*8af74909SZhong Yang *
182*8af74909SZhong Yang * pattern: foo*.*
183*8af74909SZhong Yang * compile: CHR f CHR o CLO CHR o END CLO ANY END END
184*8af74909SZhong Yang * matches: fo foo fooo foobar fobar foxx ...
185*8af74909SZhong Yang *
186*8af74909SZhong Yang * pattern: fo[ob]a[rz]
187*8af74909SZhong Yang * compile: CHR f CHR o CCL bitset CHR a CCL bitset END
188*8af74909SZhong Yang * matches: fobar fooar fobaz fooaz
189*8af74909SZhong Yang *
190*8af74909SZhong Yang * pattern: foo\\+
191*8af74909SZhong Yang * compile: CHR f CHR o CHR o CHR \ CLO CHR \ END END
192*8af74909SZhong Yang * matches: foo\ foo\\ foo\\\ ...
193*8af74909SZhong Yang *
194*8af74909SZhong Yang * pattern: \(foo\)[1-3]\1 (same as foo[1-3]foo)
195*8af74909SZhong Yang * compile: BOT 1 CHR f CHR o CHR o EOT 1 CCL bitset REF 1 END
196*8af74909SZhong Yang * matches: foo1foo foo2foo foo3foo
197*8af74909SZhong Yang *
198*8af74909SZhong Yang * pattern: \(fo.*\)-\1
199*8af74909SZhong Yang * compile: BOT 1 CHR f CHR o CLO ANY END EOT 1 CHR - REF 1 END
200*8af74909SZhong Yang * matches: foo-foo fo-fo fob-fob foobar-foobar ...
201*8af74909SZhong Yang */
202*8af74909SZhong Yang
203*8af74909SZhong Yang #include <cstddef>
204*8af74909SZhong Yang #include <cstdlib>
205*8af74909SZhong Yang
206*8af74909SZhong Yang #include <stdexcept>
207*8af74909SZhong Yang #include <string>
208*8af74909SZhong Yang #include <algorithm>
209*8af74909SZhong Yang #include <iterator>
210*8af74909SZhong Yang
211*8af74909SZhong Yang #include "Position.h"
212*8af74909SZhong Yang #include "CharClassify.h"
213*8af74909SZhong Yang #include "RESearch.h"
214*8af74909SZhong Yang
215*8af74909SZhong Yang using namespace Scintilla;
216*8af74909SZhong Yang
217*8af74909SZhong Yang #define OKP 1
218*8af74909SZhong Yang #define NOP 0
219*8af74909SZhong Yang
220*8af74909SZhong Yang #define CHR 1
221*8af74909SZhong Yang #define ANY 2
222*8af74909SZhong Yang #define CCL 3
223*8af74909SZhong Yang #define BOL 4
224*8af74909SZhong Yang #define EOL 5
225*8af74909SZhong Yang #define BOT 6
226*8af74909SZhong Yang #define EOT 7
227*8af74909SZhong Yang #define BOW 8
228*8af74909SZhong Yang #define EOW 9
229*8af74909SZhong Yang #define REF 10
230*8af74909SZhong Yang #define CLO 11
231*8af74909SZhong Yang #define CLQ 12 /* 0 to 1 closure */
232*8af74909SZhong Yang #define LCLO 13 /* lazy closure */
233*8af74909SZhong Yang
234*8af74909SZhong Yang #define END 0
235*8af74909SZhong Yang
236*8af74909SZhong Yang /*
237*8af74909SZhong Yang * The following defines are not meant to be changeable.
238*8af74909SZhong Yang * They are for readability only.
239*8af74909SZhong Yang */
240*8af74909SZhong Yang #define BLKIND 0370
241*8af74909SZhong Yang #define BITIND 07
242*8af74909SZhong Yang
243*8af74909SZhong Yang static const char bitarr[] = { 1, 2, 4, 8, 16, 32, 64, '\200' };
244*8af74909SZhong Yang
245*8af74909SZhong Yang #define badpat(x) (*nfa = END, x)
246*8af74909SZhong Yang
247*8af74909SZhong Yang /*
248*8af74909SZhong Yang * Character classification table for word boundary operators BOW
249*8af74909SZhong Yang * and EOW is passed in by the creator of this object (Scintilla
250*8af74909SZhong Yang * Document). The Document default state is that word chars are:
251*8af74909SZhong Yang * 0-9, a-z, A-Z and _
252*8af74909SZhong Yang */
253*8af74909SZhong Yang
RESearch(CharClassify * charClassTable)254*8af74909SZhong Yang RESearch::RESearch(CharClassify *charClassTable) {
255*8af74909SZhong Yang failure = 0;
256*8af74909SZhong Yang charClass = charClassTable;
257*8af74909SZhong Yang sta = NOP; /* status of lastpat */
258*8af74909SZhong Yang bol = 0;
259*8af74909SZhong Yang constexpr unsigned char nul = 0;
260*8af74909SZhong Yang std::fill(bittab, std::end(bittab), nul);
261*8af74909SZhong Yang std::fill(tagstk, std::end(tagstk), 0);
262*8af74909SZhong Yang std::fill(nfa, std::end(nfa), '\0');
263*8af74909SZhong Yang Clear();
264*8af74909SZhong Yang }
265*8af74909SZhong Yang
~RESearch()266*8af74909SZhong Yang RESearch::~RESearch() {
267*8af74909SZhong Yang Clear();
268*8af74909SZhong Yang }
269*8af74909SZhong Yang
Clear()270*8af74909SZhong Yang void RESearch::Clear() noexcept {
271*8af74909SZhong Yang for (int i = 0; i < MAXTAG; i++) {
272*8af74909SZhong Yang pat[i].clear();
273*8af74909SZhong Yang bopat[i] = NOTFOUND;
274*8af74909SZhong Yang eopat[i] = NOTFOUND;
275*8af74909SZhong Yang }
276*8af74909SZhong Yang }
277*8af74909SZhong Yang
GrabMatches(const CharacterIndexer & ci)278*8af74909SZhong Yang void RESearch::GrabMatches(const CharacterIndexer &ci) {
279*8af74909SZhong Yang for (unsigned int i = 0; i < MAXTAG; i++) {
280*8af74909SZhong Yang if ((bopat[i] != NOTFOUND) && (eopat[i] != NOTFOUND)) {
281*8af74909SZhong Yang const Sci::Position len = eopat[i] - bopat[i];
282*8af74909SZhong Yang pat[i].resize(len);
283*8af74909SZhong Yang for (Sci::Position j = 0; j < len; j++)
284*8af74909SZhong Yang pat[i][j] = ci.CharAt(bopat[i] + j);
285*8af74909SZhong Yang }
286*8af74909SZhong Yang }
287*8af74909SZhong Yang }
288*8af74909SZhong Yang
ChSet(unsigned char c)289*8af74909SZhong Yang void RESearch::ChSet(unsigned char c) noexcept {
290*8af74909SZhong Yang bittab[((c) & BLKIND) >> 3] |= bitarr[(c) & BITIND];
291*8af74909SZhong Yang }
292*8af74909SZhong Yang
ChSetWithCase(unsigned char c,bool caseSensitive)293*8af74909SZhong Yang void RESearch::ChSetWithCase(unsigned char c, bool caseSensitive) noexcept {
294*8af74909SZhong Yang ChSet(c);
295*8af74909SZhong Yang if (!caseSensitive) {
296*8af74909SZhong Yang if ((c >= 'a') && (c <= 'z')) {
297*8af74909SZhong Yang ChSet(c - 'a' + 'A');
298*8af74909SZhong Yang } else if ((c >= 'A') && (c <= 'Z')) {
299*8af74909SZhong Yang ChSet(c - 'A' + 'a');
300*8af74909SZhong Yang }
301*8af74909SZhong Yang }
302*8af74909SZhong Yang }
303*8af74909SZhong Yang
escapeValue(unsigned char ch)304*8af74909SZhong Yang static unsigned char escapeValue(unsigned char ch) noexcept {
305*8af74909SZhong Yang switch (ch) {
306*8af74909SZhong Yang case 'a': return '\a';
307*8af74909SZhong Yang case 'b': return '\b';
308*8af74909SZhong Yang case 'f': return '\f';
309*8af74909SZhong Yang case 'n': return '\n';
310*8af74909SZhong Yang case 'r': return '\r';
311*8af74909SZhong Yang case 't': return '\t';
312*8af74909SZhong Yang case 'v': return '\v';
313*8af74909SZhong Yang }
314*8af74909SZhong Yang return 0;
315*8af74909SZhong Yang }
316*8af74909SZhong Yang
GetHexaChar(unsigned char hd1,unsigned char hd2)317*8af74909SZhong Yang static int GetHexaChar(unsigned char hd1, unsigned char hd2) noexcept {
318*8af74909SZhong Yang int hexValue = 0;
319*8af74909SZhong Yang if (hd1 >= '0' && hd1 <= '9') {
320*8af74909SZhong Yang hexValue += 16 * (hd1 - '0');
321*8af74909SZhong Yang } else if (hd1 >= 'A' && hd1 <= 'F') {
322*8af74909SZhong Yang hexValue += 16 * (hd1 - 'A' + 10);
323*8af74909SZhong Yang } else if (hd1 >= 'a' && hd1 <= 'f') {
324*8af74909SZhong Yang hexValue += 16 * (hd1 - 'a' + 10);
325*8af74909SZhong Yang } else {
326*8af74909SZhong Yang return -1;
327*8af74909SZhong Yang }
328*8af74909SZhong Yang if (hd2 >= '0' && hd2 <= '9') {
329*8af74909SZhong Yang hexValue += hd2 - '0';
330*8af74909SZhong Yang } else if (hd2 >= 'A' && hd2 <= 'F') {
331*8af74909SZhong Yang hexValue += hd2 - 'A' + 10;
332*8af74909SZhong Yang } else if (hd2 >= 'a' && hd2 <= 'f') {
333*8af74909SZhong Yang hexValue += hd2 - 'a' + 10;
334*8af74909SZhong Yang } else {
335*8af74909SZhong Yang return -1;
336*8af74909SZhong Yang }
337*8af74909SZhong Yang return hexValue;
338*8af74909SZhong Yang }
339*8af74909SZhong Yang
340*8af74909SZhong Yang /**
341*8af74909SZhong Yang * Called when the parser finds a backslash not followed
342*8af74909SZhong Yang * by a valid expression (like \( in non-Posix mode).
343*8af74909SZhong Yang * @param pattern : pointer on the char after the backslash.
344*8af74909SZhong Yang * @param incr : (out) number of chars to skip after expression evaluation.
345*8af74909SZhong Yang * @return the char if it resolves to a simple char,
346*8af74909SZhong Yang * or -1 for a char class. In this case, bittab is changed.
347*8af74909SZhong Yang */
GetBackslashExpression(const char * pattern,int & incr)348*8af74909SZhong Yang int RESearch::GetBackslashExpression(
349*8af74909SZhong Yang const char *pattern,
350*8af74909SZhong Yang int &incr) noexcept {
351*8af74909SZhong Yang // Since error reporting is primitive and messages are not used anyway,
352*8af74909SZhong Yang // I choose to interpret unexpected syntax in a logical way instead
353*8af74909SZhong Yang // of reporting errors. Otherwise, we can stick on, eg., PCRE behaviour.
354*8af74909SZhong Yang incr = 0; // Most of the time, will skip the char "naturally".
355*8af74909SZhong Yang int c;
356*8af74909SZhong Yang int result = -1;
357*8af74909SZhong Yang const unsigned char bsc = *pattern;
358*8af74909SZhong Yang if (!bsc) {
359*8af74909SZhong Yang // Avoid overrun
360*8af74909SZhong Yang result = '\\'; // \ at end of pattern, take it literally
361*8af74909SZhong Yang return result;
362*8af74909SZhong Yang }
363*8af74909SZhong Yang
364*8af74909SZhong Yang switch (bsc) {
365*8af74909SZhong Yang case 'a':
366*8af74909SZhong Yang case 'b':
367*8af74909SZhong Yang case 'n':
368*8af74909SZhong Yang case 'f':
369*8af74909SZhong Yang case 'r':
370*8af74909SZhong Yang case 't':
371*8af74909SZhong Yang case 'v':
372*8af74909SZhong Yang result = escapeValue(bsc);
373*8af74909SZhong Yang break;
374*8af74909SZhong Yang case 'x': {
375*8af74909SZhong Yang const unsigned char hd1 = *(pattern + 1);
376*8af74909SZhong Yang const unsigned char hd2 = *(pattern + 2);
377*8af74909SZhong Yang const int hexValue = GetHexaChar(hd1, hd2);
378*8af74909SZhong Yang if (hexValue >= 0) {
379*8af74909SZhong Yang result = hexValue;
380*8af74909SZhong Yang incr = 2; // Must skip the digits
381*8af74909SZhong Yang } else {
382*8af74909SZhong Yang result = 'x'; // \x without 2 digits: see it as 'x'
383*8af74909SZhong Yang }
384*8af74909SZhong Yang }
385*8af74909SZhong Yang break;
386*8af74909SZhong Yang case 'd':
387*8af74909SZhong Yang for (c = '0'; c <= '9'; c++) {
388*8af74909SZhong Yang ChSet(static_cast<unsigned char>(c));
389*8af74909SZhong Yang }
390*8af74909SZhong Yang break;
391*8af74909SZhong Yang case 'D':
392*8af74909SZhong Yang for (c = 0; c < MAXCHR; c++) {
393*8af74909SZhong Yang if (c < '0' || c > '9') {
394*8af74909SZhong Yang ChSet(static_cast<unsigned char>(c));
395*8af74909SZhong Yang }
396*8af74909SZhong Yang }
397*8af74909SZhong Yang break;
398*8af74909SZhong Yang case 's':
399*8af74909SZhong Yang ChSet(' ');
400*8af74909SZhong Yang ChSet('\t');
401*8af74909SZhong Yang ChSet('\n');
402*8af74909SZhong Yang ChSet('\r');
403*8af74909SZhong Yang ChSet('\f');
404*8af74909SZhong Yang ChSet('\v');
405*8af74909SZhong Yang break;
406*8af74909SZhong Yang case 'S':
407*8af74909SZhong Yang for (c = 0; c < MAXCHR; c++) {
408*8af74909SZhong Yang if (c != ' ' && !(c >= 0x09 && c <= 0x0D)) {
409*8af74909SZhong Yang ChSet(static_cast<unsigned char>(c));
410*8af74909SZhong Yang }
411*8af74909SZhong Yang }
412*8af74909SZhong Yang break;
413*8af74909SZhong Yang case 'w':
414*8af74909SZhong Yang for (c = 0; c < MAXCHR; c++) {
415*8af74909SZhong Yang if (iswordc(static_cast<unsigned char>(c))) {
416*8af74909SZhong Yang ChSet(static_cast<unsigned char>(c));
417*8af74909SZhong Yang }
418*8af74909SZhong Yang }
419*8af74909SZhong Yang break;
420*8af74909SZhong Yang case 'W':
421*8af74909SZhong Yang for (c = 0; c < MAXCHR; c++) {
422*8af74909SZhong Yang if (!iswordc(static_cast<unsigned char>(c))) {
423*8af74909SZhong Yang ChSet(static_cast<unsigned char>(c));
424*8af74909SZhong Yang }
425*8af74909SZhong Yang }
426*8af74909SZhong Yang break;
427*8af74909SZhong Yang default:
428*8af74909SZhong Yang result = bsc;
429*8af74909SZhong Yang }
430*8af74909SZhong Yang return result;
431*8af74909SZhong Yang }
432*8af74909SZhong Yang
Compile(const char * pattern,Sci::Position length,bool caseSensitive,bool posix)433*8af74909SZhong Yang const char *RESearch::Compile(const char *pattern, Sci::Position length, bool caseSensitive, bool posix) noexcept {
434*8af74909SZhong Yang char *mp=nfa; /* nfa pointer */
435*8af74909SZhong Yang char *lp; /* saved pointer */
436*8af74909SZhong Yang char *sp=nfa; /* another one */
437*8af74909SZhong Yang char *mpMax = mp + MAXNFA - BITBLK - 10;
438*8af74909SZhong Yang
439*8af74909SZhong Yang int tagi = 0; /* tag stack index */
440*8af74909SZhong Yang int tagc = 1; /* actual tag count */
441*8af74909SZhong Yang
442*8af74909SZhong Yang int n;
443*8af74909SZhong Yang char mask; /* xor mask -CCL/NCL */
444*8af74909SZhong Yang int c1, c2, prevChar;
445*8af74909SZhong Yang
446*8af74909SZhong Yang if (!pattern || !length) {
447*8af74909SZhong Yang if (sta)
448*8af74909SZhong Yang return nullptr;
449*8af74909SZhong Yang else
450*8af74909SZhong Yang return badpat("No previous regular expression");
451*8af74909SZhong Yang }
452*8af74909SZhong Yang sta = NOP;
453*8af74909SZhong Yang
454*8af74909SZhong Yang const char *p=pattern; /* pattern pointer */
455*8af74909SZhong Yang for (int i=0; i<length; i++, p++) {
456*8af74909SZhong Yang if (mp > mpMax)
457*8af74909SZhong Yang return badpat("Pattern too long");
458*8af74909SZhong Yang lp = mp;
459*8af74909SZhong Yang switch (*p) {
460*8af74909SZhong Yang
461*8af74909SZhong Yang case '.': /* match any char */
462*8af74909SZhong Yang *mp++ = ANY;
463*8af74909SZhong Yang break;
464*8af74909SZhong Yang
465*8af74909SZhong Yang case '^': /* match beginning */
466*8af74909SZhong Yang if (p == pattern) {
467*8af74909SZhong Yang *mp++ = BOL;
468*8af74909SZhong Yang } else {
469*8af74909SZhong Yang *mp++ = CHR;
470*8af74909SZhong Yang *mp++ = *p;
471*8af74909SZhong Yang }
472*8af74909SZhong Yang break;
473*8af74909SZhong Yang
474*8af74909SZhong Yang case '$': /* match endofline */
475*8af74909SZhong Yang if (!*(p+1)) {
476*8af74909SZhong Yang *mp++ = EOL;
477*8af74909SZhong Yang } else {
478*8af74909SZhong Yang *mp++ = CHR;
479*8af74909SZhong Yang *mp++ = *p;
480*8af74909SZhong Yang }
481*8af74909SZhong Yang break;
482*8af74909SZhong Yang
483*8af74909SZhong Yang case '[': /* match char class */
484*8af74909SZhong Yang *mp++ = CCL;
485*8af74909SZhong Yang prevChar = 0;
486*8af74909SZhong Yang
487*8af74909SZhong Yang i++;
488*8af74909SZhong Yang if (*++p == '^') {
489*8af74909SZhong Yang mask = '\377';
490*8af74909SZhong Yang i++;
491*8af74909SZhong Yang p++;
492*8af74909SZhong Yang } else {
493*8af74909SZhong Yang mask = 0;
494*8af74909SZhong Yang }
495*8af74909SZhong Yang
496*8af74909SZhong Yang if (*p == '-') { /* real dash */
497*8af74909SZhong Yang i++;
498*8af74909SZhong Yang prevChar = *p;
499*8af74909SZhong Yang ChSet(*p++);
500*8af74909SZhong Yang }
501*8af74909SZhong Yang if (*p == ']') { /* real brace */
502*8af74909SZhong Yang i++;
503*8af74909SZhong Yang prevChar = *p;
504*8af74909SZhong Yang ChSet(*p++);
505*8af74909SZhong Yang }
506*8af74909SZhong Yang while (*p && *p != ']') {
507*8af74909SZhong Yang if (*p == '-') {
508*8af74909SZhong Yang if (prevChar < 0) {
509*8af74909SZhong Yang // Previous def. was a char class like \d, take dash literally
510*8af74909SZhong Yang prevChar = *p;
511*8af74909SZhong Yang ChSet(*p);
512*8af74909SZhong Yang } else if (*(p+1)) {
513*8af74909SZhong Yang if (*(p+1) != ']') {
514*8af74909SZhong Yang c1 = prevChar + 1;
515*8af74909SZhong Yang i++;
516*8af74909SZhong Yang c2 = static_cast<unsigned char>(*++p);
517*8af74909SZhong Yang if (c2 == '\\') {
518*8af74909SZhong Yang if (!*(p+1)) { // End of RE
519*8af74909SZhong Yang return badpat("Missing ]");
520*8af74909SZhong Yang } else {
521*8af74909SZhong Yang i++;
522*8af74909SZhong Yang p++;
523*8af74909SZhong Yang int incr;
524*8af74909SZhong Yang c2 = GetBackslashExpression(p, incr);
525*8af74909SZhong Yang i += incr;
526*8af74909SZhong Yang p += incr;
527*8af74909SZhong Yang if (c2 >= 0) {
528*8af74909SZhong Yang // Convention: \c (c is any char) is case sensitive, whatever the option
529*8af74909SZhong Yang ChSet(static_cast<unsigned char>(c2));
530*8af74909SZhong Yang prevChar = c2;
531*8af74909SZhong Yang } else {
532*8af74909SZhong Yang // bittab is already changed
533*8af74909SZhong Yang prevChar = -1;
534*8af74909SZhong Yang }
535*8af74909SZhong Yang }
536*8af74909SZhong Yang }
537*8af74909SZhong Yang if (prevChar < 0) {
538*8af74909SZhong Yang // Char after dash is char class like \d, take dash literally
539*8af74909SZhong Yang prevChar = '-';
540*8af74909SZhong Yang ChSet('-');
541*8af74909SZhong Yang } else {
542*8af74909SZhong Yang // Put all chars between c1 and c2 included in the char set
543*8af74909SZhong Yang while (c1 <= c2) {
544*8af74909SZhong Yang ChSetWithCase(static_cast<unsigned char>(c1++), caseSensitive);
545*8af74909SZhong Yang }
546*8af74909SZhong Yang }
547*8af74909SZhong Yang } else {
548*8af74909SZhong Yang // Dash before the ], take it literally
549*8af74909SZhong Yang prevChar = *p;
550*8af74909SZhong Yang ChSet(*p);
551*8af74909SZhong Yang }
552*8af74909SZhong Yang } else {
553*8af74909SZhong Yang return badpat("Missing ]");
554*8af74909SZhong Yang }
555*8af74909SZhong Yang } else if (*p == '\\' && *(p+1)) {
556*8af74909SZhong Yang i++;
557*8af74909SZhong Yang p++;
558*8af74909SZhong Yang int incr;
559*8af74909SZhong Yang const int c = GetBackslashExpression(p, incr);
560*8af74909SZhong Yang i += incr;
561*8af74909SZhong Yang p += incr;
562*8af74909SZhong Yang if (c >= 0) {
563*8af74909SZhong Yang // Convention: \c (c is any char) is case sensitive, whatever the option
564*8af74909SZhong Yang ChSet(static_cast<unsigned char>(c));
565*8af74909SZhong Yang prevChar = c;
566*8af74909SZhong Yang } else {
567*8af74909SZhong Yang // bittab is already changed
568*8af74909SZhong Yang prevChar = -1;
569*8af74909SZhong Yang }
570*8af74909SZhong Yang } else {
571*8af74909SZhong Yang prevChar = static_cast<unsigned char>(*p);
572*8af74909SZhong Yang ChSetWithCase(*p, caseSensitive);
573*8af74909SZhong Yang }
574*8af74909SZhong Yang i++;
575*8af74909SZhong Yang p++;
576*8af74909SZhong Yang }
577*8af74909SZhong Yang if (!*p)
578*8af74909SZhong Yang return badpat("Missing ]");
579*8af74909SZhong Yang
580*8af74909SZhong Yang for (n = 0; n < BITBLK; bittab[n++] = 0)
581*8af74909SZhong Yang *mp++ = static_cast<char>(mask ^ bittab[n]);
582*8af74909SZhong Yang
583*8af74909SZhong Yang break;
584*8af74909SZhong Yang
585*8af74909SZhong Yang case '*': /* match 0 or more... */
586*8af74909SZhong Yang case '+': /* match 1 or more... */
587*8af74909SZhong Yang case '?':
588*8af74909SZhong Yang if (p == pattern)
589*8af74909SZhong Yang return badpat("Empty closure");
590*8af74909SZhong Yang lp = sp; /* previous opcode */
591*8af74909SZhong Yang if (*lp == CLO || *lp == LCLO) /* equivalence... */
592*8af74909SZhong Yang break;
593*8af74909SZhong Yang switch (*lp) {
594*8af74909SZhong Yang
595*8af74909SZhong Yang case BOL:
596*8af74909SZhong Yang case BOT:
597*8af74909SZhong Yang case EOT:
598*8af74909SZhong Yang case BOW:
599*8af74909SZhong Yang case EOW:
600*8af74909SZhong Yang case REF:
601*8af74909SZhong Yang return badpat("Illegal closure");
602*8af74909SZhong Yang default:
603*8af74909SZhong Yang break;
604*8af74909SZhong Yang }
605*8af74909SZhong Yang
606*8af74909SZhong Yang if (*p == '+')
607*8af74909SZhong Yang for (sp = mp; lp < sp; lp++)
608*8af74909SZhong Yang *mp++ = *lp;
609*8af74909SZhong Yang
610*8af74909SZhong Yang *mp++ = END;
611*8af74909SZhong Yang *mp++ = END;
612*8af74909SZhong Yang sp = mp;
613*8af74909SZhong Yang
614*8af74909SZhong Yang while (--mp > lp)
615*8af74909SZhong Yang *mp = mp[-1];
616*8af74909SZhong Yang if (*p == '?') *mp = CLQ;
617*8af74909SZhong Yang else if (*(p+1) == '?') *mp = LCLO;
618*8af74909SZhong Yang else *mp = CLO;
619*8af74909SZhong Yang
620*8af74909SZhong Yang mp = sp;
621*8af74909SZhong Yang break;
622*8af74909SZhong Yang
623*8af74909SZhong Yang case '\\': /* tags, backrefs... */
624*8af74909SZhong Yang i++;
625*8af74909SZhong Yang switch (*++p) {
626*8af74909SZhong Yang case '<':
627*8af74909SZhong Yang *mp++ = BOW;
628*8af74909SZhong Yang break;
629*8af74909SZhong Yang case '>':
630*8af74909SZhong Yang if (*sp == BOW)
631*8af74909SZhong Yang return badpat("Null pattern inside \\<\\>");
632*8af74909SZhong Yang *mp++ = EOW;
633*8af74909SZhong Yang break;
634*8af74909SZhong Yang case '1':
635*8af74909SZhong Yang case '2':
636*8af74909SZhong Yang case '3':
637*8af74909SZhong Yang case '4':
638*8af74909SZhong Yang case '5':
639*8af74909SZhong Yang case '6':
640*8af74909SZhong Yang case '7':
641*8af74909SZhong Yang case '8':
642*8af74909SZhong Yang case '9':
643*8af74909SZhong Yang n = *p-'0';
644*8af74909SZhong Yang if (tagi > 0 && tagstk[tagi] == n)
645*8af74909SZhong Yang return badpat("Cyclical reference");
646*8af74909SZhong Yang if (tagc > n) {
647*8af74909SZhong Yang *mp++ = REF;
648*8af74909SZhong Yang *mp++ = static_cast<char>(n);
649*8af74909SZhong Yang } else {
650*8af74909SZhong Yang return badpat("Undetermined reference");
651*8af74909SZhong Yang }
652*8af74909SZhong Yang break;
653*8af74909SZhong Yang default:
654*8af74909SZhong Yang if (!posix && *p == '(') {
655*8af74909SZhong Yang if (tagc < MAXTAG) {
656*8af74909SZhong Yang tagstk[++tagi] = tagc;
657*8af74909SZhong Yang *mp++ = BOT;
658*8af74909SZhong Yang *mp++ = static_cast<char>(tagc++);
659*8af74909SZhong Yang } else {
660*8af74909SZhong Yang return badpat("Too many \\(\\) pairs");
661*8af74909SZhong Yang }
662*8af74909SZhong Yang } else if (!posix && *p == ')') {
663*8af74909SZhong Yang if (*sp == BOT)
664*8af74909SZhong Yang return badpat("Null pattern inside \\(\\)");
665*8af74909SZhong Yang if (tagi > 0) {
666*8af74909SZhong Yang *mp++ = EOT;
667*8af74909SZhong Yang *mp++ = static_cast<char>(tagstk[tagi--]);
668*8af74909SZhong Yang } else {
669*8af74909SZhong Yang return badpat("Unmatched \\)");
670*8af74909SZhong Yang }
671*8af74909SZhong Yang } else {
672*8af74909SZhong Yang int incr;
673*8af74909SZhong Yang int c = GetBackslashExpression(p, incr);
674*8af74909SZhong Yang i += incr;
675*8af74909SZhong Yang p += incr;
676*8af74909SZhong Yang if (c >= 0) {
677*8af74909SZhong Yang *mp++ = CHR;
678*8af74909SZhong Yang *mp++ = static_cast<unsigned char>(c);
679*8af74909SZhong Yang } else {
680*8af74909SZhong Yang *mp++ = CCL;
681*8af74909SZhong Yang mask = 0;
682*8af74909SZhong Yang for (n = 0; n < BITBLK; bittab[n++] = 0)
683*8af74909SZhong Yang *mp++ = static_cast<char>(mask ^ bittab[n]);
684*8af74909SZhong Yang }
685*8af74909SZhong Yang }
686*8af74909SZhong Yang }
687*8af74909SZhong Yang break;
688*8af74909SZhong Yang
689*8af74909SZhong Yang default : /* an ordinary char */
690*8af74909SZhong Yang if (posix && *p == '(') {
691*8af74909SZhong Yang if (tagc < MAXTAG) {
692*8af74909SZhong Yang tagstk[++tagi] = tagc;
693*8af74909SZhong Yang *mp++ = BOT;
694*8af74909SZhong Yang *mp++ = static_cast<char>(tagc++);
695*8af74909SZhong Yang } else {
696*8af74909SZhong Yang return badpat("Too many () pairs");
697*8af74909SZhong Yang }
698*8af74909SZhong Yang } else if (posix && *p == ')') {
699*8af74909SZhong Yang if (*sp == BOT)
700*8af74909SZhong Yang return badpat("Null pattern inside ()");
701*8af74909SZhong Yang if (tagi > 0) {
702*8af74909SZhong Yang *mp++ = EOT;
703*8af74909SZhong Yang *mp++ = static_cast<char>(tagstk[tagi--]);
704*8af74909SZhong Yang } else {
705*8af74909SZhong Yang return badpat("Unmatched )");
706*8af74909SZhong Yang }
707*8af74909SZhong Yang } else {
708*8af74909SZhong Yang unsigned char c = *p;
709*8af74909SZhong Yang if (!c) // End of RE
710*8af74909SZhong Yang c = '\\'; // We take it as raw backslash
711*8af74909SZhong Yang if (caseSensitive || !iswordc(c)) {
712*8af74909SZhong Yang *mp++ = CHR;
713*8af74909SZhong Yang *mp++ = c;
714*8af74909SZhong Yang } else {
715*8af74909SZhong Yang *mp++ = CCL;
716*8af74909SZhong Yang mask = 0;
717*8af74909SZhong Yang ChSetWithCase(c, false);
718*8af74909SZhong Yang for (n = 0; n < BITBLK; bittab[n++] = 0)
719*8af74909SZhong Yang *mp++ = static_cast<char>(mask ^ bittab[n]);
720*8af74909SZhong Yang }
721*8af74909SZhong Yang }
722*8af74909SZhong Yang break;
723*8af74909SZhong Yang }
724*8af74909SZhong Yang sp = lp;
725*8af74909SZhong Yang }
726*8af74909SZhong Yang if (tagi > 0)
727*8af74909SZhong Yang return badpat((posix ? "Unmatched (" : "Unmatched \\("));
728*8af74909SZhong Yang *mp = END;
729*8af74909SZhong Yang sta = OKP;
730*8af74909SZhong Yang return nullptr;
731*8af74909SZhong Yang }
732*8af74909SZhong Yang
733*8af74909SZhong Yang /*
734*8af74909SZhong Yang * RESearch::Execute:
735*8af74909SZhong Yang * execute nfa to find a match.
736*8af74909SZhong Yang *
737*8af74909SZhong Yang * special cases: (nfa[0])
738*8af74909SZhong Yang * BOL
739*8af74909SZhong Yang * Match only once, starting from the
740*8af74909SZhong Yang * beginning.
741*8af74909SZhong Yang * CHR
742*8af74909SZhong Yang * First locate the character without
743*8af74909SZhong Yang * calling PMatch, and if found, call
744*8af74909SZhong Yang * PMatch for the remaining string.
745*8af74909SZhong Yang * END
746*8af74909SZhong Yang * RESearch::Compile failed, poor luser did not
747*8af74909SZhong Yang * check for it. Fail fast.
748*8af74909SZhong Yang *
749*8af74909SZhong Yang * If a match is found, bopat[0] and eopat[0] are set
750*8af74909SZhong Yang * to the beginning and the end of the matched fragment,
751*8af74909SZhong Yang * respectively.
752*8af74909SZhong Yang *
753*8af74909SZhong Yang */
Execute(const CharacterIndexer & ci,Sci::Position lp,Sci::Position endp)754*8af74909SZhong Yang int RESearch::Execute(const CharacterIndexer &ci, Sci::Position lp, Sci::Position endp) {
755*8af74909SZhong Yang unsigned char c;
756*8af74909SZhong Yang Sci::Position ep = NOTFOUND;
757*8af74909SZhong Yang char *ap = nfa;
758*8af74909SZhong Yang
759*8af74909SZhong Yang bol = lp;
760*8af74909SZhong Yang failure = 0;
761*8af74909SZhong Yang
762*8af74909SZhong Yang Clear();
763*8af74909SZhong Yang
764*8af74909SZhong Yang switch (*ap) {
765*8af74909SZhong Yang
766*8af74909SZhong Yang case BOL: /* anchored: match from BOL only */
767*8af74909SZhong Yang ep = PMatch(ci, lp, endp, ap);
768*8af74909SZhong Yang break;
769*8af74909SZhong Yang case EOL: /* just searching for end of line normal path doesn't work */
770*8af74909SZhong Yang if (*(ap+1) == END) {
771*8af74909SZhong Yang lp = endp;
772*8af74909SZhong Yang ep = lp;
773*8af74909SZhong Yang break;
774*8af74909SZhong Yang } else {
775*8af74909SZhong Yang return 0;
776*8af74909SZhong Yang }
777*8af74909SZhong Yang case CHR: /* ordinary char: locate it fast */
778*8af74909SZhong Yang c = *(ap+1);
779*8af74909SZhong Yang while ((lp < endp) && (static_cast<unsigned char>(ci.CharAt(lp)) != c))
780*8af74909SZhong Yang lp++;
781*8af74909SZhong Yang if (lp >= endp) /* if EOS, fail, else fall through. */
782*8af74909SZhong Yang return 0;
783*8af74909SZhong Yang [[fallthrough]];
784*8af74909SZhong Yang default: /* regular matching all the way. */
785*8af74909SZhong Yang while (lp < endp) {
786*8af74909SZhong Yang ep = PMatch(ci, lp, endp, ap);
787*8af74909SZhong Yang if (ep != NOTFOUND)
788*8af74909SZhong Yang break;
789*8af74909SZhong Yang lp++;
790*8af74909SZhong Yang }
791*8af74909SZhong Yang break;
792*8af74909SZhong Yang case END: /* munged automaton. fail always */
793*8af74909SZhong Yang return 0;
794*8af74909SZhong Yang }
795*8af74909SZhong Yang if (ep == NOTFOUND)
796*8af74909SZhong Yang return 0;
797*8af74909SZhong Yang
798*8af74909SZhong Yang bopat[0] = lp;
799*8af74909SZhong Yang eopat[0] = ep;
800*8af74909SZhong Yang return 1;
801*8af74909SZhong Yang }
802*8af74909SZhong Yang
803*8af74909SZhong Yang /*
804*8af74909SZhong Yang * PMatch: internal routine for the hard part
805*8af74909SZhong Yang *
806*8af74909SZhong Yang * This code is partly snarfed from an early grep written by
807*8af74909SZhong Yang * David Conroy. The backref and tag stuff, and various other
808*8af74909SZhong Yang * innovations are by oz.
809*8af74909SZhong Yang *
810*8af74909SZhong Yang * special case optimizations: (nfa[n], nfa[n+1])
811*8af74909SZhong Yang * CLO ANY
812*8af74909SZhong Yang * We KNOW .* will match everything up to the
813*8af74909SZhong Yang * end of line. Thus, directly go to the end of
814*8af74909SZhong Yang * line, without recursive PMatch calls. As in
815*8af74909SZhong Yang * the other closure cases, the remaining pattern
816*8af74909SZhong Yang * must be matched by moving backwards on the
817*8af74909SZhong Yang * string recursively, to find a match for xy
818*8af74909SZhong Yang * (x is ".*" and y is the remaining pattern)
819*8af74909SZhong Yang * where the match satisfies the LONGEST match for
820*8af74909SZhong Yang * x followed by a match for y.
821*8af74909SZhong Yang * CLO CHR
822*8af74909SZhong Yang * We can again scan the string forward for the
823*8af74909SZhong Yang * single char and at the point of failure, we
824*8af74909SZhong Yang * execute the remaining nfa recursively, same as
825*8af74909SZhong Yang * above.
826*8af74909SZhong Yang *
827*8af74909SZhong Yang * At the end of a successful match, bopat[n] and eopat[n]
828*8af74909SZhong Yang * are set to the beginning and end of subpatterns matched
829*8af74909SZhong Yang * by tagged expressions (n = 1 to 9).
830*8af74909SZhong Yang */
831*8af74909SZhong Yang
832*8af74909SZhong Yang extern void re_fail(char *,char);
833*8af74909SZhong Yang
isinset(const char * ap,unsigned char c)834*8af74909SZhong Yang static inline int isinset(const char *ap, unsigned char c) noexcept {
835*8af74909SZhong Yang return ap[(c & BLKIND) >> 3] & bitarr[c & BITIND];
836*8af74909SZhong Yang }
837*8af74909SZhong Yang
838*8af74909SZhong Yang /*
839*8af74909SZhong Yang * skip values for CLO XXX to skip past the closure
840*8af74909SZhong Yang */
841*8af74909SZhong Yang
842*8af74909SZhong Yang #define ANYSKIP 2 /* [CLO] ANY END */
843*8af74909SZhong Yang #define CHRSKIP 3 /* [CLO] CHR chr END */
844*8af74909SZhong Yang #define CCLSKIP 34 /* [CLO] CCL 32 bytes END */
845*8af74909SZhong Yang
PMatch(const CharacterIndexer & ci,Sci::Position lp,Sci::Position endp,char * ap)846*8af74909SZhong Yang Sci::Position RESearch::PMatch(const CharacterIndexer &ci, Sci::Position lp, Sci::Position endp, char *ap) {
847*8af74909SZhong Yang int op, c, n;
848*8af74909SZhong Yang Sci::Position e; /* extra pointer for CLO */
849*8af74909SZhong Yang Sci::Position bp; /* beginning of subpat... */
850*8af74909SZhong Yang Sci::Position ep; /* ending of subpat... */
851*8af74909SZhong Yang Sci::Position are; /* to save the line ptr. */
852*8af74909SZhong Yang Sci::Position llp; /* lazy lp for LCLO */
853*8af74909SZhong Yang
854*8af74909SZhong Yang while ((op = *ap++) != END)
855*8af74909SZhong Yang switch (op) {
856*8af74909SZhong Yang
857*8af74909SZhong Yang case CHR:
858*8af74909SZhong Yang if (ci.CharAt(lp++) != *ap++)
859*8af74909SZhong Yang return NOTFOUND;
860*8af74909SZhong Yang break;
861*8af74909SZhong Yang case ANY:
862*8af74909SZhong Yang if (lp++ >= endp)
863*8af74909SZhong Yang return NOTFOUND;
864*8af74909SZhong Yang break;
865*8af74909SZhong Yang case CCL:
866*8af74909SZhong Yang if (lp >= endp)
867*8af74909SZhong Yang return NOTFOUND;
868*8af74909SZhong Yang if (!isinset(ap, ci.CharAt(lp++)))
869*8af74909SZhong Yang return NOTFOUND;
870*8af74909SZhong Yang ap += BITBLK;
871*8af74909SZhong Yang break;
872*8af74909SZhong Yang case BOL:
873*8af74909SZhong Yang if (lp != bol)
874*8af74909SZhong Yang return NOTFOUND;
875*8af74909SZhong Yang break;
876*8af74909SZhong Yang case EOL:
877*8af74909SZhong Yang if (lp < endp)
878*8af74909SZhong Yang return NOTFOUND;
879*8af74909SZhong Yang break;
880*8af74909SZhong Yang case BOT:
881*8af74909SZhong Yang bopat[static_cast<int>(*ap++)] = lp;
882*8af74909SZhong Yang break;
883*8af74909SZhong Yang case EOT:
884*8af74909SZhong Yang eopat[static_cast<int>(*ap++)] = lp;
885*8af74909SZhong Yang break;
886*8af74909SZhong Yang case BOW:
887*8af74909SZhong Yang if ((lp!=bol && iswordc(ci.CharAt(lp-1))) || !iswordc(ci.CharAt(lp)))
888*8af74909SZhong Yang return NOTFOUND;
889*8af74909SZhong Yang break;
890*8af74909SZhong Yang case EOW:
891*8af74909SZhong Yang if (lp==bol || !iswordc(ci.CharAt(lp-1)) || iswordc(ci.CharAt(lp)))
892*8af74909SZhong Yang return NOTFOUND;
893*8af74909SZhong Yang break;
894*8af74909SZhong Yang case REF:
895*8af74909SZhong Yang n = *ap++;
896*8af74909SZhong Yang bp = bopat[n];
897*8af74909SZhong Yang ep = eopat[n];
898*8af74909SZhong Yang while (bp < ep)
899*8af74909SZhong Yang if (ci.CharAt(bp++) != ci.CharAt(lp++))
900*8af74909SZhong Yang return NOTFOUND;
901*8af74909SZhong Yang break;
902*8af74909SZhong Yang case LCLO:
903*8af74909SZhong Yang case CLQ:
904*8af74909SZhong Yang case CLO:
905*8af74909SZhong Yang are = lp;
906*8af74909SZhong Yang switch (*ap) {
907*8af74909SZhong Yang
908*8af74909SZhong Yang case ANY:
909*8af74909SZhong Yang if (op == CLO || op == LCLO)
910*8af74909SZhong Yang while (lp < endp)
911*8af74909SZhong Yang lp++;
912*8af74909SZhong Yang else if (lp < endp)
913*8af74909SZhong Yang lp++;
914*8af74909SZhong Yang
915*8af74909SZhong Yang n = ANYSKIP;
916*8af74909SZhong Yang break;
917*8af74909SZhong Yang case CHR:
918*8af74909SZhong Yang c = *(ap+1);
919*8af74909SZhong Yang if (op == CLO || op == LCLO)
920*8af74909SZhong Yang while ((lp < endp) && (c == ci.CharAt(lp)))
921*8af74909SZhong Yang lp++;
922*8af74909SZhong Yang else if ((lp < endp) && (c == ci.CharAt(lp)))
923*8af74909SZhong Yang lp++;
924*8af74909SZhong Yang n = CHRSKIP;
925*8af74909SZhong Yang break;
926*8af74909SZhong Yang case CCL:
927*8af74909SZhong Yang while ((lp < endp) && isinset(ap+1, ci.CharAt(lp)))
928*8af74909SZhong Yang lp++;
929*8af74909SZhong Yang n = CCLSKIP;
930*8af74909SZhong Yang break;
931*8af74909SZhong Yang default:
932*8af74909SZhong Yang failure = true;
933*8af74909SZhong Yang //re_fail("closure: bad nfa.", *ap);
934*8af74909SZhong Yang return NOTFOUND;
935*8af74909SZhong Yang }
936*8af74909SZhong Yang ap += n;
937*8af74909SZhong Yang
938*8af74909SZhong Yang llp = lp;
939*8af74909SZhong Yang e = NOTFOUND;
940*8af74909SZhong Yang while (llp >= are) {
941*8af74909SZhong Yang Sci::Position q;
942*8af74909SZhong Yang if ((q = PMatch(ci, llp, endp, ap)) != NOTFOUND) {
943*8af74909SZhong Yang e = q;
944*8af74909SZhong Yang lp = llp;
945*8af74909SZhong Yang if (op != LCLO) return e;
946*8af74909SZhong Yang }
947*8af74909SZhong Yang if (*ap == END) return e;
948*8af74909SZhong Yang --llp;
949*8af74909SZhong Yang }
950*8af74909SZhong Yang if (*ap == EOT)
951*8af74909SZhong Yang PMatch(ci, lp, endp, ap);
952*8af74909SZhong Yang return e;
953*8af74909SZhong Yang default:
954*8af74909SZhong Yang //re_fail("RESearch::Execute: bad nfa.", static_cast<char>(op));
955*8af74909SZhong Yang return NOTFOUND;
956*8af74909SZhong Yang }
957*8af74909SZhong Yang return lp;
958*8af74909SZhong Yang }
959*8af74909SZhong Yang
960*8af74909SZhong Yang
961