Главная - AST-AIHub

ViMoNet: Многомодальная визуалингвистическая архитектура для понимания человеческого поведения на основе движения и видеоданных

18.11.2025 05:00

arXiv:2508.09818v2 Тип объявления: замена Аннотация: В данном исследовании изучается возможность использования больших языковых моделей (LLM) для понимания человеческого поведения на основе данных движения и видеоданных. Мы считаем, что сочетание обоих типов данных является необходимым условием по...

Читать оригинал Подробнее

Метод сегментации-управляемой модификации дефектов болтов для их увеличения и обнаружения

18.11.2025 05:00

arXiv:2508.10509v2 Тип объявления: замена Аннотация: Обнаружение дефектов болтов критически важно для обеспечения безопасности линий электропередач. Однако нехватка изображений с дефектами и несбалансированные распределения данных существенно ограничивают эффективность обнаружения. Для решения это...

Читать оригинал Подробнее

HumanSense: От мультимодального восприятия до эмпатичных контекстуально-зависимых реакций через рассуждения МЛЛМ (Multilingual Large Language Models — многоязычные большие языковые модели)

18.11.2025 05:00

arXiv:2508.10576v3 Тип объявления: замена Аннотация: Несмотря на огромный потенциал мультимодальных больших языковых моделей (MLLM), прогресс сдерживается отсутствием детальных оценочных фреймворков для сценариев ориентированных на человека, охватывающих как понимание сложных человеческих намерени...

Читать оригинал Подробнее

GANDiff FR: Гибридный синтез диффузии GAN для атрибуции причинно-следственного смещения в распознавании лиц

18.11.2025 05:00

arXiv:2508.11334v2 Тип объявления: замена Аннотация: Мы представляем GANDiff FR — первую синтетическую платформу, позволяющую точно контролировать демографические и экологические факторы для измерения, объяснения и снижения предвзятости с воспроизводимой строгостью. GANDiff FR объединяет основанну...

Читать оригинал Подробнее

InsFusion: Переосмысление уровня экземпляров слияния LiDAR-камер для трехмерного обнаружения объектов

18.11.2025 05:00

arXiv:2509.08374v2 Тип объявления: замена Аннотация: Обнаружение трехмерных объектов с использованием многовидовых камер и лидара является важнейшим компонентом автономных транспортных средств и интеллектуальных транспортных систем. Однако в процессе базовой экстракции признаков, преобразования пе...

Читать оригинал Подробнее

Вероятностный анализ робастности в пространстве высокой размерности: применение к сети семантической сегментации

18.11.2025 05:00

arXiv:2509.11838v2 Тип объявления: замена Аннотация: Сети семантической сегментации (SSN) играют ключевую роль в критически важных приложениях, таких как медицинская визуализация и автономное вождение, где крайне важна устойчивость к неопределенности. Однако существующие методы вероятностной вериф...

Читать оригинал Подробнее

Рассуждение на основе зрения: понимание визуально-пространственного познания в моделях видения и языка применительно к CAPTCHA

18.11.2025 05:00

arXiv:2510.06067v2 Тип объявления: замена Аннотация: CAPTCHA, изначально разработанная для различения людей и роботов, превратилась в реальный эталонный тест для оценки пространственных способностей моделей видения-языка. В данной работе мы впервые показываем, что пошаговое рассуждение критически ...

Читать оригинал Подробнее

К лучшему пониманию оценки глубины по монокулярному изображению

18.11.2025 05:00

arXiv:2510.19814v3 Тип объявления: замена Аннотация: Оценка глубины по монокулярному изображению — важная задача, демонстрирующая быстрый прогресс, однако вопрос её оценки до конца не решён, что проявляется отсутствием стандартизации в существующей литературе и наличием большого количества метрик ...

Читать оригинал Подробнее

LeMiCa: Лексикографический минимаксный кэш путей для эффективного диффузионного видеогенерации

18.11.2025 05:00

arXiv:2511.00090v2 Тип объявления: замена Аннотация: Мы представляем LeMiCa — метод ускорения генерации видеопоследовательностей на основе диффузионных моделей, который не требует дополнительного обучения и обладает высокой эффективностью. В существующих стратегиях кеширования основное внимание уд...

Читать оригинал Подробнее

Неявное знание визуального вопросно-ответного анализа с использованием структурированных трасс рассуждений

18.11.2025 05:00

arXiv:2510.06638v2 Тип анонса: замена Аннотация: Задачи визуального вопросно-ответного анализа на основе знаний (KVQA) требуют от моделей привязки сущностей к изображениям и рассуждений над фактическими знаниями. В недавних исследованиях была представлена её разновидность — KVQA с использованием н...

Читать оригинал Подробнее

Лента материалов из области искусственного интеллекта (AI)