Сбросить

arXiv:2511.12150v1 Тип: новая статья Аннотация: Интеграция событийных камер и импульсных нейронных сетей (ИНС) открывает путь к энергоэффективному зрительному интеллекту, однако недостаток событийных данных и разреженность выходных данных DVS затрудняют эффективное обучение. Перенос знаний из RGB в ...

arXiv:2511.12201v1 Тип: новая статья Аннотация: Существующие методы разреженного внимания в основном нацелены на ускорение вывода путем отбора критически важных токенов в соответствии с предопределенными шаблонами разреженности. Однако они зачастую не способны преодолеть разрыв между обучением и выв...

arXiv:2511.12196v1 Тип объявления: новый Аннотация: Отвлечение внимания водителя остается одной из основных причин дорожно-транспортных происшествий, ежегодно приводя к тысячам смертельных случаев по всему миру. Хотя методы распознавания активности водителя на основе глубокого обучения показали свою...

arXiv:2511.12200v1 Тип: новый Аннотация: Кросс-доменная Few-shot Сегментация (CD-FSS) ставит целью сегментировать новые классы из целевых доменов, которые не участвовали в обучении и имеют существенно отличное от исходного домена распределение данных, используя лишь несколько размеченных примеров. В...

arXiv:2511.12204v1 Тип: новая статья Аннотация: Генерация многовидовых изображений имеет значительную прикладную ценность в компьютерном зрении, особенно в таких областях, как 3D-реконструкция, виртуальная и дополненная реальность. Большинство существующих методов, основанных на расширении одиночных...

arXiv:2511.12207v1 Тип: новая статья Аннотация: Мы представляем MoS (Mixture of States), новую парадигму слияния для мультимодальных диффузионных моделей, которая объединяет модальности с помощью гибких, основанных на состояниях взаимодействий. Основу MoS составляет обучаемый, покомпонентный маршрут...

arXiv:2511.12131v1 Тип: новый Аннотация: Большие языковые модели (LLM) стали ключевым инструментом в задаче визуального ответа на вопросы (VQA) для обработки требующих знаний вопросов в сценариях с малым количеством примеров (few-shot) или без них (zero-shot). Однако их зависимость от массивных набо...

arXiv:2511.12259v1 Тип объявления: новый Аннотация: Автоматическая генерация радиологических заключений по рентгенограммам грудной клетки — важная задача в области искусственного интеллекта, имеющая потенциал для значительного снижения нагрузки на радиологов и сокращения времени ожидания пациентов. ...

arXiv:2511.12215v1 Тип: новая работа Аннотация: Предобучение медицинских моделей «визуальный язык» (VLP) открывает значительные перспективы для улучшения понимания медицинских изображений за счет использования парных данных «изображение-отчет». Однако существующие методы ограничены проблемой **ложно...

arXiv:2511.12202v1 Тип: новая работа Аннотация: В последнее время значительное внимание привлекают методы 3D-генерации на основе диффузии с несколькими видами. Однако этим методам часто свойственно несовпадение формы и текстуры между сгенерированными изображениями с разных видов, что приводит к низк...