arXiv:2508.09818v2 Тип объявления: замена Аннотация: В данном исследовании изучается возможность использования больших языковых моделей (LLM) для понимания человеческого поведения на основе данных движения и видеоданных. Мы считаем, что сочетание обоих типов данных является необходимым условием по...
Лента материалов из области искусственного интеллекта (AI)
Материалов: 78228
arXiv:2508.10509v2 Тип объявления: замена Аннотация: Обнаружение дефектов болтов критически важно для обеспечения безопасности линий электропередач. Однако нехватка изображений с дефектами и несбалансированные распределения данных существенно ограничивают эффективность обнаружения. Для решения это...
arXiv:2508.10576v3 Тип объявления: замена Аннотация: Несмотря на огромный потенциал мультимодальных больших языковых моделей (MLLM), прогресс сдерживается отсутствием детальных оценочных фреймворков для сценариев ориентированных на человека, охватывающих как понимание сложных человеческих намерени...
arXiv:2508.11334v2 Тип объявления: замена Аннотация: Мы представляем GANDiff FR — первую синтетическую платформу, позволяющую точно контролировать демографические и экологические факторы для измерения, объяснения и снижения предвзятости с воспроизводимой строгостью. GANDiff FR объединяет основанну...
arXiv:2509.08374v2 Тип объявления: замена Аннотация: Обнаружение трехмерных объектов с использованием многовидовых камер и лидара является важнейшим компонентом автономных транспортных средств и интеллектуальных транспортных систем. Однако в процессе базовой экстракции признаков, преобразования пе...
arXiv:2509.11838v2 Тип объявления: замена Аннотация: Сети семантической сегментации (SSN) играют ключевую роль в критически важных приложениях, таких как медицинская визуализация и автономное вождение, где крайне важна устойчивость к неопределенности. Однако существующие методы вероятностной вериф...
arXiv:2510.06067v2 Тип объявления: замена Аннотация: CAPTCHA, изначально разработанная для различения людей и роботов, превратилась в реальный эталонный тест для оценки пространственных способностей моделей видения-языка. В данной работе мы впервые показываем, что пошаговое рассуждение критически ...
arXiv:2510.19814v3 Тип объявления: замена Аннотация: Оценка глубины по монокулярному изображению — важная задача, демонстрирующая быстрый прогресс, однако вопрос её оценки до конца не решён, что проявляется отсутствием стандартизации в существующей литературе и наличием большого количества метрик ...
arXiv:2511.00090v2 Тип объявления: замена Аннотация: Мы представляем LeMiCa — метод ускорения генерации видеопоследовательностей на основе диффузионных моделей, который не требует дополнительного обучения и обладает высокой эффективностью. В существующих стратегиях кеширования основное внимание уд...
arXiv:2510.06638v2 Тип анонса: замена Аннотация: Задачи визуального вопросно-ответного анализа на основе знаний (KVQA) требуют от моделей привязки сущностей к изображениям и рассуждений над фактическими знаниями. В недавних исследованиях была представлена её разновидность — KVQA с использованием н...