arXiv:2506.05454v2 Тип объявления: замена-перекрёстная публикация Аннотация: Методы нулевого порядка широко применяются в приложениях машинного обучения, когда вычисление градиентов невозможно или дорого обходится, такие как атаки чёрного ящика, обучение с подкреплением и дообучение языковых модел...
Лента материалов из области искусственного интеллекта (AI)
Материалов: 75900
arXiv:2506.10982v3 Тип объявления: замена-перекрёстная Аннотация: Диффузионные мосты представляют собой перспективный класс методов глубокого обучения для выборки из ненормированных распределений. Последние исследования показывают, что потеря логарифмической дисперсии (Log Variance — LV) стабильно...
arXiv:2509.15810v2 Тип объявления: замена-перекрёстная Аннотация: Для снижения интенсивной потребности в экспертизе человека при разработке алгоритмов оптимизации последние исследования в области мета-чёрноящичной оптимизации (MetaBBO) используют силу обобщения метообучения для тренировки политик ...
arXiv:2505.00028v2 Тип объявления: замена-перекрёстная публикация Аннотация: Энд-ту-энд системы преобразования речи в речь (S2S), предназначенные для диалоговых взаимодействий, недавно привлекли повышенное внимание исследователей благодаря своей низкой задержке и естественной интеграции невербальн...
arXiv:2511.07464v1 Тип объявления: кросс Аннотация: Мы представляем Motif-2-12.7B — новую открытую базовую модель, расширяющую границы эффективности больших языковых моделей благодаря сочетанию архитектурных инноваций и оптимизации на уровне системы. Разработанная для масштабируемого понимания язык...
arXiv:2511.08579v1 Тип объявления: кросс Аннотация: Могут ли языковые модели (LM) научиться достоверно описывать свои внутренние вычисления? Способны ли они лучше описывать себя, чем другие модели? Мы исследуем степень, в которой привилегированный доступ языковых моделей к своим внутренним механиз...
arXiv:2410.12982v2 Тип объявления: замена-перекрёстная публикация Аннотация: Хотя трансформеры лежат в основе большинства последних достижений в моделях последовательностной генерации, их вычислительная стоимость остаётся квадратичной относительно длины последовательности. Для решения этой проблем...
arXiv:2510.22026v2 Тип объявления: замена-перекрёстная публикация Аннотация: Мы исследуем влияние схем нормализации на представления токенов в глубоких трансформерах. Моделируя эволюцию представлений как взаимодействие частиц на сфере, мы показываем, что нормализация действует как форма регулирова...
arXiv:2511.08243v1 Тип объявления: новый Аннотация: Архитектура трансформера добилась выдающихся успехов в обработке естественного языка, компьютерном зрении и научных вычислениях благодаря механизму само-внимания. Однако её основные компоненты — позиционное кодирование и механизмы внимания — до с...
arXiv:2508.05164v2 Тип объявления: замена Аннотация: Обнаружение слухового внимания (AAD) направлено на декодирование фокуса слушателей в сложных акустических условиях на основе записей электроэнцефалографии (ЭЭГ), что имеет решающее значение для разработки нейроуправляемых слуховых устройств. Нес...