Главная - AST-AIHub

Разрушая барьер модальностей: Time-step Mixup для эффективного переноса спайковых знаний из статической в событийную область

2025-11-18 05:00:00

arXiv:2511.12150v1 Тип: новая статья Аннотация: Интеграция событийных камер и импульсных нейронных сетей (ИНС) открывает путь к энергоэффективному зрительному интеллекту, однако недостаток событийных данных и разреженность выходных данных DVS затрудняют эффективное обучение. Перенос знаний из RGB в ...

Читать оригинал Подробнее

OmniSparse: Обучение-осознанная детально-разреженная (Fine-Grained Sparse) система внимания для многомодальных больших языковых моделей, работающих с длинными видео

2025-11-18 05:00:00

arXiv:2511.12201v1 Тип: новая статья Аннотация: Существующие методы разреженного внимания в основном нацелены на ускорение вывода путем отбора критически важных токенов в соответствии с предопределенными шаблонами разреженности. Однако они зачастую не способны преодолеть разрыв между обучением и выв...

Читать оригинал Подробнее

Кросс-модальная адаптация доменов без учителя для системы мониторинга водителя с использованием данных с разных ракурсов

2025-11-18 05:00:00

arXiv:2511.12196v1 Тип объявления: новый Аннотация: Отвлечение внимания водителя остается одной из основных причин дорожно-транспортных происшествий, ежегодно приводя к тысячам смертельных случаев по всему миру. Хотя методы распознавания активности водителя на основе глубокого обучения показали свою...

Читать оригинал Подробнее

Преодоление разрывов в гранулярности: Иерархическое семантическое обучение для кросс-доменной сегментации с малым количеством примеров

2025-11-18 05:00:00

arXiv:2511.12200v1 Тип: новый Аннотация: Кросс-доменная Few-shot Сегментация (CD-FSS) ставит целью сегментировать новые классы из целевых доменов, которые не участвовали в обучении и имеют существенно отличное от исходного домена распределение данных, используя лишь несколько размеченных примеров. В...

Читать оригинал Подробнее

GeoMVD: Модель генерации мультивью на основе геометрической информации с улучшенной геометрией

2025-11-18 05:00:00

arXiv:2511.12204v1 Тип: новая статья Аннотация: Генерация многовидовых изображений имеет значительную прикладную ценность в компьютерном зрении, особенно в таких областях, как 3D-реконструкция, виртуальная и дополненная реальность. Большинство существующих методов, основанных на расширении одиночных...

Читать оригинал Подробнее

Смесь состояний: маршрутизация динамики на уровне токенов для мультимодального генерации

2025-11-18 05:00:00

arXiv:2511.12207v1 Тип: новая статья Аннотация: Мы представляем MoS (Mixture of States), новую парадигму слияния для мультимодальных диффузионных моделей, которая объединяет модальности с помощью гибких, основанных на состояниях взаимодействий. Основу MoS составляет обучаемый, покомпонентный маршрут...

Читать оригинал Подробнее

OAD-Promoter: Улучшение Zero-shot VQA с использованием больших языковых моделей с описанием атрибутов объектов

2025-11-18 05:00:00

arXiv:2511.12131v1 Тип: новый Аннотация: Большие языковые модели (LLM) стали ключевым инструментом в задаче визуального ответа на вопросы (VQA) для обработки требующих знаний вопросов в сценариях с малым количеством примеров (few-shot) или без них (zero-shot). Однако их зависимость от массивных набо...

Читать оригинал Подробнее

Болезнь-ориентированная двухэтапная структура для генерации описаний рентгеновских снимков грудной клетки

2025-11-18 05:00:00

arXiv:2511.12259v1 Тип объявления: новый Аннотация: Автоматическая генерация радиологических заключений по рентгенограммам грудной клетки — важная задача в области искусственного интеллекта, имеющая потенциал для значительного снижения нагрузки на радиологов и сокращения времени ожидания пациентов. ...

Читать оригинал Подробнее

FaNe: В сторону детального межмодального контраста с редукцией ложных отрицаний и разреженным вниманием, обусловленным текстом

2025-11-18 05:00:00

arXiv:2511.12215v1 Тип: новая работа Аннотация: Предобучение медицинских моделей «визуальный язык» (VLP) открывает значительные перспективы для улучшения понимания медицинских изображений за счет использования парных данных «изображение-отчет». Однако существующие методы ограничены проблемой **ложно...

Читать оригинал Подробнее

LSS3D: Обучаемое пространственное смещение для согласованного и высококачественного 3D-генерации из одного изображения

2025-11-18 05:00:00

arXiv:2511.12202v1 Тип: новая работа Аннотация: В последнее время значительное внимание привлекают методы 3D-генерации на основе диффузии с несколькими видами. Однако этим методам часто свойственно несовпадение формы и текстуры между сгенерированными изображениями с разных видов, что приводит к низк...

Читать оригинал Подробнее

Лента материалов из области искусственного интеллекта (AI)