Сбросить

arXiv:2512.17278v1 Тип объявления: новое Аннотация: Сегментация изображений ультразвукового исследования молочной железы (BUS) играет важную роль в поддержке клинической диагностики и раннего скрининга опухолей. Однако такие вызовы, как шум от speckle, артефакты изображения, нерегулярная форма пор...

arXiv:2512.17226v1 Тип объявления: новое Аннотация: Недавние методы визуальной локализации на основе обучения используют глобальные описатели для устранения неоднозначности визуально схожих мест, но существующие подходы часто выводят эти описатели только из геометрических подсказок (например, граф...

arXiv:2512.17227v1 Тип объявления: новое Аннотация: Многоуровневые большие языковые модели (MLLM) демонстрируют значительный потенциал, но остаются хрупкими в сложных задачах длинной цепочки зрительного рассуждения. Критический режим неудачи - "забывание зрения", когда модели постепенно теряют зри...

arXiv:2512.17206v1 Тип объявления: новое Аннотация: Емкость для исследования влияет как на производительность во время вывода, так и на обучение с подкреплением (RL) для больших моделей языка и зрения, поскольку случайная выборка часто приводит к избыточным путям рассуждений с низкой разнообразнос...

arXiv:2512.16978v1 Тип объявления: новое Аннотация: Понимание длинных видеороликов с множественными модальностями требует интеграции зрения, речи и окружающего звука с последовательным долгосрочным рассуждением. Существующие бенчмарки акцентируют внимание либо на временной длине, либо на многообра...

arXiv:2512.17281v1 Тип объявления: cross Аннотация: Устойчивое обнаружение активности речи (VAD) остается сложной задачей, особенно в условиях шума, разнообразия и незнакомых акустических условий. Помимо разработки алгоритмов, ключевым ограничением в развитии исследований VAD является отсутствие к...