arXiv:2508.04663v2 Тип объявления: замена Аннотация: Современные модели диффузии текста в изображение (DM) демонстрируют выдающееся качество, однако их огромный масштаб параметров (от 8 до 11 миллиардов) создает значительные трудности при выполнении вычислений на устройствах с ограниченными ресурс...
Лента материалов из области искусственного интеллекта (AI)
Материалов: 78412
arXiv:2508.05162v2 Тип объявления: замена Аннотация: Генерация движений на основе текста привлекает всё большее внимание благодаря широкому спектру применений в виртуальной реальности, анимации и робототехнике. В то время как существующие методы обычно моделируют движения человека и животных отдел...
arXiv:2508.07251v3 Тип объявления: замена Аннотация: Понимание динамических сцен 4D от эгоцентрической перспективы — моделирование изменений трехмерной пространственной структуры во времени — имеет решающее значение для взаимодействия человека и машины, автономного навигационного управления и вопл...
arXiv:2511.13535v1 Тип объявления: новый Аннотация: По мере всё большего развертывания моделей машинного обучения в критически важных областях безопасности визуальные методы объяснения становятся важнейшими инструментами обеспечения прозрачности. В данной работе мы раскрываем новый класс атак, нар...
arXiv:2511.13575v1 Тип объявления: новый Аннотация: Задача идентификации личности (ReID) заключается в поиске целевых изображений пешехода по визуальным запросам (изображение-к-изображению, I2I) либо текстовым описаниям (текст-к-изображению, T2I). Несмотря на общую цель поиска, обе задачи имеют ра...
arXiv:2511.13607v1 Тип объявления: новый Аннотация: Задача улучшения изображений низкого освещения (LLIE) заключается в повышении контрастности одновременно с восстановлением деталей и текстур для изображений, снятых в условиях низкой освещенности. Пространство цветов HVI добилось значительных усп...
arXiv:2510.07656v2 Тип объявления: замена Аннотация: Адаптация диффузионных моделей под индивидуальные запросы позволяет пользователям создавать новые изображения, включающие заданный объект, обеспечивая больший контроль, нежели простой текстовый запрос. Однако такие модели часто страдают от пробл...
arXiv:2509.10122v2 Тип объявления: замена Аннотация: Предварительно обученные диффузионные модели продемонстрировали большой потенциал в реальных задачах повышения разрешения изображений (Real-ISR), обеспечивая реконструкцию высокого разрешения. В то время как одношаговые методы диффузии (OSD) зна...
arXiv:2509.21715v2 Тип объявления: замена Аннотация: Многотрековый трекинг объектов (MOT) в видеоматериалах остается сложной задачей ввиду сложных движений объектов и многолюдности сцен. Современные фреймворки на основе DETR предлагают решения типа «из конца в конец», однако обычно обрабатывают за...
arXiv:2509.07864v2 Тип объявления: замена Аннотация: Многомодальные большие языковые модели (Multimodal Large Language Models — MLLM) демонстрируют высокую производительность в задачах вроде аннотирования изображений и визуального вопросно-ответного анализа, однако остаются подвержены эффекту галл...