Не обращайте внимания
Краткое содержание
arXiv:2506.11305v2 Тип объявления: замена Аннотация: Трансформеры стали фактическим стандартом современных языковых моделей благодаря параллельной тренировке и эффективному автокодированию последовательностей. Однако фиксированное окно контекста и квадратичная временная и ресурсоемкость механизма само-внимания остаются основными узкими местами. Эти ограничения вновь пробудили интерес к рекуррентным архитектурам, масштабируемым линейно относительно длины последовательности, однако ценой снижения уровня параллельности вычислений. В данной работе мы представляем Avey — новую базовую архитектуру, отказывающуюся от механизмов внимания и рекурсии. Avey объединяет ранкер (ранжировщик) с автокодирующим нейропроцессором для выбора и контекстуализации лишь наиболее релевантных токенов для каждого конкретного токена. Конкретнее говоря, она разделяет длину последовательности и ширину контекста, обеспечивая эффективное и экономичное обработку произвольной длины последовательностей. Результаты показывают, что Avey сопоставима с трансформерами по ряду стандартных коротких бенчмарков обработки естественного языка...
Полный текст статьи пока не загружен.