← Вернуться к списку

Как работают токенайзеры BPE с параметром `add_prefix_space`, обрабатывая естественный язык, такой как цитаты или поэзия, где префиксный пробел отсутствует?

Краткое содержание

Токенизаторы BPE являются стандартом для современных больших языковых моделей. По умолчанию большинство токенизаторов добавляет пробел перед словом, чтобы фраза «John went away» была предварительно токенизирована как `[_John][_went][_away]`. Для сохранения обратимости при обратном преобразовании начальный пробел удаляется. Это позволяет сопоставлять слово в начале предложения такому же слову в любом другом месте текста.Но что делать в случаях, когда в естественных языках отсутствует ведущий пробел? Примеры включают поэзию (`John went away\nJohn will come back another day`), цитаты (`He yelled "John, get down!"`), языки СJK (добавление ведущего пробела выделит первое слово от остальных, между которыми пробелов нет), а также компьютерный код.Конечно, заставляя слова в этих случаях получать разные токены — это не критично: языковая модель может просто выучить эмбеддинги как для `_John`, так и для `John`. Но тогда какой смысл добавлять ведущий пробел изначально?

Полный текст статьи пока не загружен.