Сбросить

arXiv:2511.11177v1 Тип объявления: новый Аннотация: Последние достижения в области мультимодальных больших языковых моделей (MLLM) обеспечили впечатляющий прогресс в понимании визуальной и языковой информации, однако высокая вычислительная стоимость ограничивает их применение в ресурсоограниченных...

arXiv:2511.11198v1 Тип объявления: новый Аннотация: Геопространственное цепочечное рассуждение (CoT) имеет ключевое значение для развития визуального анализа вопросов и ответов (VQA) на спутниковых изображениях, особенно в климатических приложениях, таких как мониторинг бедствий, оценка рисков инф...

arXiv:2511.11216v1 Тип объявления: новый Аннотация: Позиционное смещение — явление, когда модели чрезмерно акцентируют внимание на определённых позициях независимо от содержания, было показано негативно сказываться на производительности моделей в различных задачах. Хотя недавние исследования подро...

arXiv:2511.11243v1 Тип объявления: новый Аннотация: Модели пространства состояний (SSM), особенно архитектура Mamba, всё чаще применяются для моделирования длинных последовательностных контекстов, обеспечивая линейное агрегирование посредством операции выборочного сканирования, зависящей от входны...

arXiv:2511.10991v1 Тип объявления: новый Аннотация: Автокорреляционные (AR) модели, являющиеся теоретическим эталоном производительности для методов сжатия изображений без потерь, часто отвергаются как непрактичные из-за чрезмерной вычислительной стоимости. В данной работе пересматривается этот по...

arXiv:2511.11313v1 Тип объявления: новый Аннотация: Большие мультимодальные модели видения и языка (LVLM) продемонстрировали сильные возможности обработки многостраничных и сложных документов. Однако высокая ресурсоемкость делает их непрактичными для развертывания на устройствах с ограниченными вы...

arXiv:2511.11262v1 Тип объявления: новое Аннотация: Точная детализированная информация имеет ключевое значение для моделей видения-языка (vision-language), чтобы лучше понимать реальный мир. Хотя уже были попытки получить такие знания в области зрения и языка, основное внимание уделялось согласова...

arXiv:2511.11307v1 Тип объявления: новый Аннотация: Автоматизированный выборочный сбор плодов стал важной областью исследований, особенно ввиду проблем высокой стоимости и нехватки сезонной рабочей силы в развитых экономиках. В данной работе рассматривается задача оценки позы клубники (strawberrie...

arXiv:2511.11407v1 Тип объявления: новый Аннотация: Многомодальные большие языковые модели всё чаще применяются в биомедицинской визуализации, однако научное обоснование для микроскопии ограничено нехваткой крупномасштабных высококачественных наборов тренировочных данных. Мы представляем MicroVQA+...

arXiv:2511.11422v1 Тип объявления: новый Аннотация: Декодирование визуальных признаков из сигналов ЭЭГ является центральной задачей нейробиологии, причем основным подходом служит межмодальная согласованность. Мы утверждаем, что взаимосвязь между зрительной и мозговой модальностями фундаментально а...