Главная - AST-AIHub

HierarchicalPrune: Позиционно-ориентированная компрессия для крупномасштабных диффузионных моделей

2025-11-18 05:00:00

arXiv:2508.04663v2 Тип объявления: замена Аннотация: Современные модели диффузии текста в изображение (DM) демонстрируют выдающееся качество, однако их огромный масштаб параметров (от 8 до 11 миллиардов) создает значительные трудности при выполнении вычислений на устройствах с ограниченными ресурс...

Читать оригинал Подробнее

X-MoGen: Единый генератор движений для людей и животных

2025-11-18 05:00:00

arXiv:2508.05162v2 Тип объявления: замена Аннотация: Генерация движений на основе текста привлекает всё большее внимание благодаря широкому спектру применений в виртуальной реальности, анимации и робототехнике. В то время как существующие методы обычно моделируют движения человека и животных отдел...

Читать оригинал Подробнее

Понимание динамических сцен в эгоцентричных 4D облаках точек

2025-11-18 05:00:00

arXiv:2508.07251v3 Тип объявления: замена Аннотация: Понимание динамических сцен 4D от эгоцентрической перспективы — моделирование изменений трехмерной пространственной структуры во времени — имеет решающее значение для взаимодействия человека и машины, автономного навигационного управления и вопл...

Читать оригинал Подробнее

Точности недостаточно: отравление интерпретируемости в федеративном обучении посредством цветового смещения

2025-11-18 05:00:00

arXiv:2511.13535v1 Тип объявления: новый Аннотация: По мере всё большего развертывания моделей машинного обучения в критически важных областях безопасности визуальные методы объяснения становятся важнейшими инструментами обеспечения прозрачности. В данной работе мы раскрываем новый класс атак, нар...

Читать оригинал Подробнее

Иерархическое обучение подсказкам для повторной идентификации личности по изображениям и тексту

2025-11-18 05:00:00

arXiv:2511.13575v1 Тип объявления: новый Аннотация: Задача идентификации личности (ReID) заключается в поиске целевых изображений пешехода по визуальным запросам (изображение-к-изображению, I2I) либо текстовым описаниям (текст-к-изображению, T2I). Несмотря на общую цель поиска, обе задачи имеют ра...

Читать оригинал Подробнее

ICLR: Взаимодействие между хроматическими компонентами и яркостью для естественного восстановления цвета при улучшении изображений низкого освещения

2025-11-18 05:00:00

arXiv:2511.13607v1 Тип объявления: новый Аннотация: Задача улучшения изображений низкого освещения (LLIE) заключается в повышении контрастности одновременно с восстановлением деталей и текстур для изображений, снятых в условиях низкой освещенности. Пространство цветов HVI добилось значительных усп...

Читать оригинал Подробнее

MONKEY: Адаптер маскирования активации ключ-значение (KEY-Value) для персонализации

2025-11-18 05:00:00

arXiv:2510.07656v2 Тип объявления: замена Аннотация: Адаптация диффузионных моделей под индивидуальные запросы позволяет пользователям создавать новые изображения, включающие заданный объект, обеспечивая больший контроль, нежели простой текстовый запрос. Однако такие модели часто страдают от пробл...

Читать оригинал Подробнее

Однопроходная диффузионная модель контроля реализма для сверхразрешения реальных изображений

2025-11-18 05:00:00

arXiv:2509.10122v2 Тип объявления: замена Аннотация: Предварительно обученные диффузионные модели продемонстрировали большой потенциал в реальных задачах повышения разрешения изображений (Real-ISR), обеспечивая реконструкцию высокого разрешения. В то время как одношаговые методы диффузии (OSD) зна...

Читать оригинал Подробнее

Трансформер с учетом движения для отслеживания нескольких объектов

2025-11-18 05:00:00

arXiv:2509.21715v2 Тип объявления: замена Аннотация: Многотрековый трекинг объектов (MOT) в видеоматериалах остается сложной задачей ввиду сложных движений объектов и многолюдности сцен. Современные фреймворки на основе DETR предлагают решения типа «из конца в конец», однако обычно обрабатывают за...

Читать оригинал Подробнее

Отслеживание и устранение иллюзий (галлюцинаций) в мультимодальных больших языковых моделях посредством динамической локализации внимания

2025-11-18 05:00:00

arXiv:2509.07864v2 Тип объявления: замена Аннотация: Многомодальные большие языковые модели (Multimodal Large Language Models — MLLM) демонстрируют высокую производительность в задачах вроде аннотирования изображений и визуального вопросно-ответного анализа, однако остаются подвержены эффекту галл...

Читать оригинал Подробнее

Лента материалов из области искусственного интеллекта (AI)