Главная - AST-AIHub

Оптимизация нулевого порядка находит плоские минимумы

2025-11-12 05:00:00

arXiv:2506.05454v2 Тип объявления: замена-перекрёстная публикация Аннотация: Методы нулевого порядка широко применяются в приложениях машинного обучения, когда вычисление градиентов невозможно или дорого обходится, такие как атаки чёрного ящика, обучение с подкреплением и дообучение языковых модел...

Читать оригинал Подробнее

Переосмысление функций потерь для диффузионных мостовых семплеров

2025-11-12 05:00:00

arXiv:2506.10982v3 Тип объявления: замена-перекрёстная Аннотация: Диффузионные мосты представляют собой перспективный класс методов глубокого обучения для выборки из ненормированных распределений. Последние исследования показывают, что потеря логарифмической дисперсии (Log Variance — LV) стабильно...

Читать оригинал Подробнее

Генерация экземпляров для мета-чёрноящичной оптимизации через обратное проектирование латентного пространства

2025-11-12 05:00:00

arXiv:2509.15810v2 Тип объявления: замена-перекрёстная Аннотация: Для снижения интенсивной потребности в экспертизе человека при разработке алгоритмов оптимизации последние исследования в области мета-чёрноящичной оптимизации (MetaBBO) используют силу обобщения метообучения для тренировки политик ...

Читать оригинал Подробнее

Повышение качества моделирования диалогов речь-речь с помощью сквозной генерации с расширением поиском

2025-11-12 05:00:00

arXiv:2505.00028v2 Тип объявления: замена-перекрёстная публикация Аннотация: Энд-ту-энд системы преобразования речи в речь (S2S), предназначенные для диалоговых взаимодействий, недавно привлекли повышенное внимание исследователей благодаря своей низкой задержке и естественной интеграции невербальн...

Читать оригинал Подробнее

Технический отчет Motif 2 12.7B

2025-11-12 05:00:00

arXiv:2511.07464v1 Тип объявления: кросс Аннотация: Мы представляем Motif-2-12.7B — новую открытую базовую модель, расширяющую границы эффективности больших языковых моделей благодаря сочетанию архитектурных инноваций и оптимизации на уровне системы. Разработанная для масштабируемого понимания язык...

Читать оригинал Подробнее

Обучение языковых моделей объяснять собственные вычисления

2025-11-12 05:00:00

arXiv:2511.08579v1 Тип объявления: кросс Аннотация: Могут ли языковые модели (LM) научиться достоверно описывать свои внутренние вычисления? Способны ли они лучше описывать себя, чем другие модели? Мы исследуем степень, в которой привилегированный доступ языковых моделей к своим внутренним механиз...

Читать оригинал Подробнее

Мгновенный вывод (inference): Вывод почти линейного времени для моделей длинных свёрточных последовательностей и далее

2025-11-12 05:00:00

arXiv:2410.12982v2 Тип объявления: замена-перекрёстная публикация Аннотация: Хотя трансформеры лежат в основе большинства последних достижений в моделях последовательностной генерации, их вычислительная стоимость остаётся квадратичной относительно длины последовательности. Для решения этой проблем...

Читать оригинал Подробнее

Нормализация динамики внимания

2025-11-12 05:00:00

arXiv:2510.22026v2 Тип объявления: замена-перекрёстная публикация Аннотация: Мы исследуем влияние схем нормализации на представления токенов в глубоких трансформерах. Моделируя эволюцию представлений как взаимодействие частиц на сфере, мы показываем, что нормализация действует как форма регулирова...

Читать оригинал Подробнее

Единая геометрическая теория поля для трансформеров: от многообразий вложений до модуляции ядра

2025-11-12 05:00:00

arXiv:2511.08243v1 Тип объявления: новый Аннотация: Архитектура трансформера добилась выдающихся успехов в обработке естественного языка, компьютерном зрении и научных вычислениях благодаря механизму само-внимания. Однако её основные компоненты — позиционное кодирование и механизмы внимания — до с...

Читать оригинал Подробнее

S$^2$M-Former: Спайковый симметричный смешивающий Branchformer для обнаружения слухового внимания мозга

2025-11-12 05:00:00

arXiv:2508.05164v2 Тип объявления: замена Аннотация: Обнаружение слухового внимания (AAD) направлено на декодирование фокуса слушателей в сложных акустических условиях на основе записей электроэнцефалографии (ЭЭГ), что имеет решающее значение для разработки нейроуправляемых слуховых устройств. Нес...

Читать оригинал Подробнее

Лента материалов из области искусственного интеллекта (AI)