native/utils/wordpiece_tokenizer.cc

*993b0882SAndroid Build Coastguard Worker/*
*993b0882SAndroid Build Coastguard Worker * Copyright (C) 2018 The Android Open Source Project
*993b0882SAndroid Build Coastguard Worker *
*993b0882SAndroid Build Coastguard Worker * Licensed under the Apache License, Version 2.0 (the "License");
*993b0882SAndroid Build Coastguard Worker * you may not use this file except in compliance with the License.
*993b0882SAndroid Build Coastguard Worker * You may obtain a copy of the License at
*993b0882SAndroid Build Coastguard Worker *
*993b0882SAndroid Build Coastguard Worker *      http://www.apache.org/licenses/LICENSE-2.0
*993b0882SAndroid Build Coastguard Worker *
*993b0882SAndroid Build Coastguard Worker * Unless required by applicable law or agreed to in writing, software
*993b0882SAndroid Build Coastguard Worker * distributed under the License is distributed on an "AS IS" BASIS,
*993b0882SAndroid Build Coastguard Worker * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
*993b0882SAndroid Build Coastguard Worker * See the License for the specific language governing permissions and
*993b0882SAndroid Build Coastguard Worker * limitations under the License.
*993b0882SAndroid Build Coastguard Worker */
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker#include "utils/wordpiece_tokenizer.h"
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker#include "utils/utf8/unicodetext.h"
*993b0882SAndroid Build Coastguard Worker#include "absl/strings/str_cat.h"
*993b0882SAndroid Build Coastguard Worker#include "absl/strings/str_join.h"
*993b0882SAndroid Build Coastguard Worker#include "absl/strings/string_view.h"
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Workernamespace libtextclassifier3 {
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Workernamespace {
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard WorkerLookupStatus Lookup(int byte_start, int byte_end, const absl::string_view token,
*993b0882SAndroid Build Coastguard Worker                    const std::string& suffix_indicator,
*993b0882SAndroid Build Coastguard Worker                    const WordpieceVocab* vocab_map, bool* in_vocab) {
*993b0882SAndroid Build Coastguard Worker  int byte_len = byte_end - byte_start;
*993b0882SAndroid Build Coastguard Worker  absl::string_view substr(token.data() + byte_start, byte_len);
*993b0882SAndroid Build Coastguard Worker  std::string lookup_value;
*993b0882SAndroid Build Coastguard Worker  if (byte_start > 0) {
*993b0882SAndroid Build Coastguard Worker    lookup_value = absl::StrCat(suffix_indicator, substr);
*993b0882SAndroid Build Coastguard Worker  } else {
*993b0882SAndroid Build Coastguard Worker    // absl::CopyToString
*993b0882SAndroid Build Coastguard Worker    lookup_value.assign(substr.begin(), substr.end());
*993b0882SAndroid Build Coastguard Worker  }
*993b0882SAndroid Build Coastguard Worker  return vocab_map->Contains(lookup_value, in_vocab);
*993b0882SAndroid Build Coastguard Worker}
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker// Sets byte_end to the longest byte sequence which:
*993b0882SAndroid Build Coastguard Worker// 1) is a proper UTF8 sequence
*993b0882SAndroid Build Coastguard Worker// 2) is in the vocab OR if split_unknown_characters is true, is a single
*993b0882SAndroid Build Coastguard Worker//    UTF8 character.
*993b0882SAndroid Build Coastguard Worker// If no match is found, found_match is set to false.
*993b0882SAndroid Build Coastguard WorkerLookupStatus LongestMatchStartingAt(
*993b0882SAndroid Build Coastguard Worker    int byte_start, const absl::string_view token,
*993b0882SAndroid Build Coastguard Worker    const std::string& suffix_indicator, const int max_chars_per_subtoken,
*993b0882SAndroid Build Coastguard Worker    bool split_unknown_characters, const WordpieceVocab* vocab_map,
*993b0882SAndroid Build Coastguard Worker    int* byte_end, bool* found_match, bool* match_is_unknown_character) {
*993b0882SAndroid Build Coastguard Worker  *match_is_unknown_character = false;
*993b0882SAndroid Build Coastguard Worker  *found_match = false;
*993b0882SAndroid Build Coastguard Worker  const UnicodeText unicode_token =
*993b0882SAndroid Build Coastguard Worker      UTF8ToUnicodeText(token.substr(byte_start), /*do_copy=*/false);
*993b0882SAndroid Build Coastguard Worker  std::vector<int32_t> byte_ends;
*993b0882SAndroid Build Coastguard Worker  int32_t codepoint_offset = byte_start;
*993b0882SAndroid Build Coastguard Worker  for (auto it = unicode_token.begin(); it != unicode_token.end(); ++it) {
*993b0882SAndroid Build Coastguard Worker    codepoint_offset += it.utf8_length();
*993b0882SAndroid Build Coastguard Worker    byte_ends.push_back(codepoint_offset);
*993b0882SAndroid Build Coastguard Worker    if (max_chars_per_subtoken > 0 &&
*993b0882SAndroid Build Coastguard Worker        byte_ends.size() == max_chars_per_subtoken) {
*993b0882SAndroid Build Coastguard Worker      // If the max bytes of a subtoken is known, do not search beyond that
*993b0882SAndroid Build Coastguard Worker      // length.
*993b0882SAndroid Build Coastguard Worker      break;
*993b0882SAndroid Build Coastguard Worker    }
*993b0882SAndroid Build Coastguard Worker  }
*993b0882SAndroid Build Coastguard Worker  int n = byte_ends.size();
*993b0882SAndroid Build Coastguard Worker  for (int i = n - 1; i >= 0; i--) {
*993b0882SAndroid Build Coastguard Worker    bool in_vocab;
*993b0882SAndroid Build Coastguard Worker    auto status = Lookup(byte_start, byte_ends[i], token, suffix_indicator,
*993b0882SAndroid Build Coastguard Worker                         vocab_map, &in_vocab);
*993b0882SAndroid Build Coastguard Worker    if (!status.success) return status;
*993b0882SAndroid Build Coastguard Worker    if (in_vocab) {
*993b0882SAndroid Build Coastguard Worker      *byte_end = byte_ends[i];
*993b0882SAndroid Build Coastguard Worker      *found_match = true;
*993b0882SAndroid Build Coastguard Worker      return LookupStatus::OK();
*993b0882SAndroid Build Coastguard Worker    }
*993b0882SAndroid Build Coastguard Worker    if (i == 0 && split_unknown_characters) {
*993b0882SAndroid Build Coastguard Worker      *byte_end = byte_ends[0];
*993b0882SAndroid Build Coastguard Worker      *found_match = true;
*993b0882SAndroid Build Coastguard Worker      *match_is_unknown_character = true;
*993b0882SAndroid Build Coastguard Worker      return LookupStatus::OK();
*993b0882SAndroid Build Coastguard Worker    }
*993b0882SAndroid Build Coastguard Worker  }
*993b0882SAndroid Build Coastguard Worker  return LookupStatus::OK();
*993b0882SAndroid Build Coastguard Worker}
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker// Sets the outputs 'begin_offset', 'end_offset' and 'num_word_pieces' when no
*993b0882SAndroid Build Coastguard Worker// token is found.
*993b0882SAndroid Build Coastguard WorkerLookupStatus NoTokenFound(const absl::string_view token, bool use_unknown_token,
*993b0882SAndroid Build Coastguard Worker                          const std::string& unknown_token,
*993b0882SAndroid Build Coastguard Worker                          std::vector<std::string>* subwords,
*993b0882SAndroid Build Coastguard Worker                          std::vector<int>* begin_offset,
*993b0882SAndroid Build Coastguard Worker                          std::vector<int>* end_offset, int* num_word_pieces) {
*993b0882SAndroid Build Coastguard Worker  begin_offset->push_back(0);
*993b0882SAndroid Build Coastguard Worker  if (use_unknown_token) {
*993b0882SAndroid Build Coastguard Worker    subwords->push_back(unknown_token);
*993b0882SAndroid Build Coastguard Worker    end_offset->push_back(token.length());
*993b0882SAndroid Build Coastguard Worker  } else {
*993b0882SAndroid Build Coastguard Worker    subwords->emplace_back(token.data(), token.length());
*993b0882SAndroid Build Coastguard Worker    end_offset->push_back(token.length());
*993b0882SAndroid Build Coastguard Worker  }
*993b0882SAndroid Build Coastguard Worker  ++(*num_word_pieces);
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker  return LookupStatus::OK();
*993b0882SAndroid Build Coastguard Worker}
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker// When a subword is found, this helper function will add the outputs to
*993b0882SAndroid Build Coastguard Worker// 'subwords', 'begin_offset' and 'end_offset'.
*993b0882SAndroid Build Coastguard Workervoid AddWord(const absl::string_view token, int byte_start, int byte_end,
*993b0882SAndroid Build Coastguard Worker             const std::string& suffix_indicator,
*993b0882SAndroid Build Coastguard Worker             std::vector<std::string>* subwords, std::vector<int>* begin_offset,
*993b0882SAndroid Build Coastguard Worker             std::vector<int>* end_offset) {
*993b0882SAndroid Build Coastguard Worker  begin_offset->push_back(byte_start);
*993b0882SAndroid Build Coastguard Worker  int len = byte_end - byte_start;
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker  if (byte_start > 0) {
*993b0882SAndroid Build Coastguard Worker    // Prepend suffix_indicator if the token is within a word.
*993b0882SAndroid Build Coastguard Worker    subwords->push_back(::absl::StrCat(
*993b0882SAndroid Build Coastguard Worker        suffix_indicator, absl::string_view(token.data() + byte_start, len)));
*993b0882SAndroid Build Coastguard Worker  } else {
*993b0882SAndroid Build Coastguard Worker    subwords->emplace_back(token.data(), len);
*993b0882SAndroid Build Coastguard Worker  }
*993b0882SAndroid Build Coastguard Worker  end_offset->push_back(byte_end);
*993b0882SAndroid Build Coastguard Worker}
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker// Adds a single unknown character subword, found when split_unknown_characters
*993b0882SAndroid Build Coastguard Worker// is true.
*993b0882SAndroid Build Coastguard Workervoid AddUnknownCharacter(const absl::string_view token, int byte_start,
*993b0882SAndroid Build Coastguard Worker                         int byte_end, const std::string& suffix_indicator,
*993b0882SAndroid Build Coastguard Worker                         bool use_unknown_token,
*993b0882SAndroid Build Coastguard Worker                         const std::string& unknown_token,
*993b0882SAndroid Build Coastguard Worker                         std::vector<std::string>* subwords,
*993b0882SAndroid Build Coastguard Worker                         std::vector<int>* begin_offset,
*993b0882SAndroid Build Coastguard Worker                         std::vector<int>* end_offset) {
*993b0882SAndroid Build Coastguard Worker  begin_offset->push_back(byte_start);
*993b0882SAndroid Build Coastguard Worker  end_offset->push_back(byte_end);
*993b0882SAndroid Build Coastguard Worker  int len = byte_end - byte_start;
*993b0882SAndroid Build Coastguard Worker  if (use_unknown_token) {
*993b0882SAndroid Build Coastguard Worker    if (byte_start > 0) {
*993b0882SAndroid Build Coastguard Worker      // Prepend suffix_indicator if the character is within a word.
*993b0882SAndroid Build Coastguard Worker      subwords->push_back(::absl::StrCat(suffix_indicator, unknown_token));
*993b0882SAndroid Build Coastguard Worker    } else {
*993b0882SAndroid Build Coastguard Worker      subwords->push_back(unknown_token);
*993b0882SAndroid Build Coastguard Worker    }
*993b0882SAndroid Build Coastguard Worker  } else {
*993b0882SAndroid Build Coastguard Worker    if (byte_start > 0) {
*993b0882SAndroid Build Coastguard Worker      // Prepend suffix_indicator if the character is within a word.
*993b0882SAndroid Build Coastguard Worker      subwords->push_back(::absl::StrCat(
*993b0882SAndroid Build Coastguard Worker          suffix_indicator, absl::string_view(token.data() + byte_start, len)));
*993b0882SAndroid Build Coastguard Worker    } else {
*993b0882SAndroid Build Coastguard Worker      subwords->emplace_back(token.data(), len);
*993b0882SAndroid Build Coastguard Worker    }
*993b0882SAndroid Build Coastguard Worker  }
*993b0882SAndroid Build Coastguard Worker}
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard WorkerLookupStatus TokenizeL2RGreedy(
*993b0882SAndroid Build Coastguard Worker    const absl::string_view token, const int max_bytes_per_token,
*993b0882SAndroid Build Coastguard Worker    const int max_chars_per_subtoken, const std::string& suffix_indicator,
*993b0882SAndroid Build Coastguard Worker    bool use_unknown_token, const std::string& unknown_token,
*993b0882SAndroid Build Coastguard Worker    bool split_unknown_characters, const WordpieceVocab* vocab_map,
*993b0882SAndroid Build Coastguard Worker    std::vector<std::string>* subwords, std::vector<int>* begin_offset,
*993b0882SAndroid Build Coastguard Worker    std::vector<int>* end_offset, int* num_word_pieces) {
*993b0882SAndroid Build Coastguard Worker  std::vector<std::string> candidate_subwords;
*993b0882SAndroid Build Coastguard Worker  std::vector<int> candidate_begin_offsets;
*993b0882SAndroid Build Coastguard Worker  std::vector<int> candidate_end_offsets;
*993b0882SAndroid Build Coastguard Worker  const int token_len = token.length();
*993b0882SAndroid Build Coastguard Worker  for (int byte_start = 0; byte_start < token_len;) {
*993b0882SAndroid Build Coastguard Worker    int byte_end;
*993b0882SAndroid Build Coastguard Worker    bool found_subword;
*993b0882SAndroid Build Coastguard Worker    bool match_is_unknown_character;
*993b0882SAndroid Build Coastguard Worker    auto status = LongestMatchStartingAt(
*993b0882SAndroid Build Coastguard Worker        byte_start, token, suffix_indicator, max_chars_per_subtoken,
*993b0882SAndroid Build Coastguard Worker        split_unknown_characters, vocab_map, &byte_end, &found_subword,
*993b0882SAndroid Build Coastguard Worker        &match_is_unknown_character);
*993b0882SAndroid Build Coastguard Worker    if (!status.success) return status;
*993b0882SAndroid Build Coastguard Worker    if (found_subword) {
*993b0882SAndroid Build Coastguard Worker      if (match_is_unknown_character) {
*993b0882SAndroid Build Coastguard Worker        AddUnknownCharacter(token, byte_start, byte_end, suffix_indicator,
*993b0882SAndroid Build Coastguard Worker                            use_unknown_token, unknown_token,
*993b0882SAndroid Build Coastguard Worker                            &candidate_subwords, &candidate_begin_offsets,
*993b0882SAndroid Build Coastguard Worker                            &candidate_end_offsets);
*993b0882SAndroid Build Coastguard Worker      } else {
*993b0882SAndroid Build Coastguard Worker        AddWord(token, byte_start, byte_end, suffix_indicator,
*993b0882SAndroid Build Coastguard Worker                &candidate_subwords, &candidate_begin_offsets,
*993b0882SAndroid Build Coastguard Worker                &candidate_end_offsets);
*993b0882SAndroid Build Coastguard Worker      }
*993b0882SAndroid Build Coastguard Worker      byte_start = byte_end;
*993b0882SAndroid Build Coastguard Worker    } else {
*993b0882SAndroid Build Coastguard Worker      return NoTokenFound(token, use_unknown_token, unknown_token, subwords,
*993b0882SAndroid Build Coastguard Worker                          begin_offset, end_offset, num_word_pieces);
*993b0882SAndroid Build Coastguard Worker    }
*993b0882SAndroid Build Coastguard Worker  }
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker  subwords->insert(subwords->end(), candidate_subwords.begin(),
*993b0882SAndroid Build Coastguard Worker                   candidate_subwords.end());
*993b0882SAndroid Build Coastguard Worker  begin_offset->insert(begin_offset->end(), candidate_begin_offsets.begin(),
*993b0882SAndroid Build Coastguard Worker                       candidate_begin_offsets.end());
*993b0882SAndroid Build Coastguard Worker  end_offset->insert(end_offset->end(), candidate_end_offsets.begin(),
*993b0882SAndroid Build Coastguard Worker                     candidate_end_offsets.end());
*993b0882SAndroid Build Coastguard Worker  *num_word_pieces += candidate_subwords.size();
*993b0882SAndroid Build Coastguard Worker  return LookupStatus::OK();
*993b0882SAndroid Build Coastguard Worker}
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard Worker}  // namespace
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard WorkerLookupStatus WordpieceTokenize(
*993b0882SAndroid Build Coastguard Worker    const absl::string_view token, const int max_bytes_per_token,
*993b0882SAndroid Build Coastguard Worker    const int max_chars_per_subtoken, const std::string& suffix_indicator,
*993b0882SAndroid Build Coastguard Worker    bool use_unknown_token, const std::string& unknown_token,
*993b0882SAndroid Build Coastguard Worker    bool split_unknown_characters, const WordpieceVocab* vocab_map,
*993b0882SAndroid Build Coastguard Worker    std::vector<std::string>* subwords, std::vector<int>* begin_offset,
*993b0882SAndroid Build Coastguard Worker    std::vector<int>* end_offset, int* num_word_pieces) {
*993b0882SAndroid Build Coastguard Worker  int token_len = token.size();
*993b0882SAndroid Build Coastguard Worker  if (token_len > max_bytes_per_token) {
*993b0882SAndroid Build Coastguard Worker    begin_offset->push_back(0);
*993b0882SAndroid Build Coastguard Worker    *num_word_pieces = 1;
*993b0882SAndroid Build Coastguard Worker    if (use_unknown_token) {
*993b0882SAndroid Build Coastguard Worker      subwords->emplace_back(unknown_token);
*993b0882SAndroid Build Coastguard Worker    } else {
*993b0882SAndroid Build Coastguard Worker      subwords->emplace_back(token);
*993b0882SAndroid Build Coastguard Worker    }
*993b0882SAndroid Build Coastguard Worker    end_offset->push_back(token.size());
*993b0882SAndroid Build Coastguard Worker    return LookupStatus::OK();
*993b0882SAndroid Build Coastguard Worker  }
*993b0882SAndroid Build Coastguard Worker  return TokenizeL2RGreedy(token, max_bytes_per_token, max_chars_per_subtoken,
*993b0882SAndroid Build Coastguard Worker                           suffix_indicator, use_unknown_token, unknown_token,
*993b0882SAndroid Build Coastguard Worker                           split_unknown_characters, vocab_map, subwords,
*993b0882SAndroid Build Coastguard Worker                           begin_offset, end_offset, num_word_pieces);
*993b0882SAndroid Build Coastguard Worker}
*993b0882SAndroid Build Coastguard Worker
*993b0882SAndroid Build Coastguard WorkerLookupStatus WordpieceTokenize(
*993b0882SAndroid Build Coastguard Worker    const absl::string_view token, const int max_bytes_per_token,
*993b0882SAndroid Build Coastguard Worker    const std::string& suffix_indicator, bool use_unknown_token,
*993b0882SAndroid Build Coastguard Worker    const std::string& unknown_token, const WordpieceVocab* vocab_map,
*993b0882SAndroid Build Coastguard Worker    std::vector<std::string>* subwords, std::vector<int>* begin_offset,
*993b0882SAndroid Build Coastguard Worker    std::vector<int>* end_offset, int* num_word_pieces) {
*993b0882SAndroid Build Coastguard Worker  return WordpieceTokenize(token, max_bytes_per_token,
*993b0882SAndroid Build Coastguard Worker                           /* max_chars_per_subtoken= */ 0, suffix_indicator,
*993b0882SAndroid Build Coastguard Worker                           use_unknown_token, unknown_token,
*993b0882SAndroid Build Coastguard Worker                           /* split_unknown_characters= */ false, vocab_map,
*993b0882SAndroid Build Coastguard Worker                           subwords, begin_offset, end_offset, num_word_pieces);
*993b0882SAndroid Build Coastguard Worker}
*993b0882SAndroid Build Coastguard Worker}  // namespace libtextclassifier3