Проблема токенизации: как расширение словаря улучшает обучение представлениям химии в предварительно обученных языковых моделях
Краткое содержание
arXiv:2511.14365v1 Тип объявления: кросс Аннотация: Применение больших языковых моделей (LLM) в химии часто затрудняется проблемой «токенизационного узкого места», при которой токенизаторы, настроенные на общий текстовый домен, склонны разбивать химические представления, такие как SMILES, на семантически неинформативные под-токены. В данной статье предлагается методологически обоснованный подход к решению этой проблемы путем объединения представлений естественного языка и молекулярных структур внутри единой модели. Наш подход включает целевое расширение словаря — дополнение предварительно обученной языковой модели химически значимыми токенами с последующим продолжением предварительного обучения на текстах химической тематики для интеграции этих новых знаний. Мы представляем эмпирическое подтверждение эффективности предложенного подхода, демонстрируя, что наш метод приводит к более высокой производительности на различных задачах химического анализа.
Полный текст статьи пока не загружен.