← Вернуться к списку

МуСРТ (MuCPT): Продолжение предварительного обучения языковой модели естественного языка для музыкальных задач

Краткое содержание

arXiv:2511.14245v1 Тип объявления: новое Аннотация: Большие языковые модели показывают хорошие результаты на общих задачах, но остаются ограниченными в специализированных областях, таких как музыка, особенно в сфере музыкального развлечения, где критически важны масштаб корпуса данных, их чистота и соответствие между данными и целями обучения. Мы решаем эту проблему путем создания большого естественного языкового корпуса, связанного с музыкой (40 млрд токенов), который объединяет открытые источники и собственные данные, а также за счет реализации предметно-ориентированной конвейерной обработки данных: легкий классификатор фильтрует и взвешивает текст по домену, после чего следует многоэтапная очистка, удаление дубликатов и маскировка для сохранения конфиденциальности. Кроме того, мы интегрируем многопоточные музыкальные тексты вместе с соответствующими метаданными, чтобы сформировать более широкую и лучше структурированную основу предметных знаний. На стороне обучения мы вводим методику оценки качества на уровне токенов на основе эталонной модели (RM): единый критерий отношения потерь используется как для отбора данных, так и для динамического снижения веса во время оптимизации,

Полный текст статьи пока не загружен.