Геномные предикторы следующего токена являются контекстными обучающимися
Краткое содержание
arXiv:2511.12797v1 Тип объявления: новый Аннотация: Обучение в контексте (ICL) — способность модели выводить и применять абстрактные шаблоны из примеров, предоставленных в её входных данных, — было всесторонне изучено в больших языковых моделях, обученных на предсказании следующего токена в человеческом тексте. Более того, предыдущие работы часто приписывают это возникающее поведение отличительным статистическим свойствам человеческого языка. Это поднимает фундаментальный вопрос: может ли ICL органически возникнуть в других последовательностных доменах исключительно за счёт крупномасштабного тренировочного предсказания? Чтобы исследовать это, мы обращаемся к геномным последовательностям — альтернативному символическому домену, богатому статистической структурой. В частности, мы изучаем геномную модель Evo2, обученную преимущественно на предсказании следующего нуклеотида (A/T/C/G), в масштабе, сопоставимом со средними LLM. Мы разрабатываем контролируемую экспериментальную структуру, состоящую из задач символьного логического вывода, инстанцированных как в лингвистической, так и в геномной формах, что позволяет напрямую сравнивать ICL в геномных и лингвистических
Полный текст статьи пока не загружен.