Быстрая сегментация изображений и видеопоследовательностей на основе рассуждений
Краткое содержание
arXiv:2511.12368v1 Тип объявления: новый Аннотация: Сегментация рассуждений позволяет осуществлять сегментацию объектов открытого множества через неявные текстовые запросы, таким образом служа основой для автономных агентов, действующих в реальных условиях окружающей среды. Однако существующие методы сегментации рассуждений требуют мультимодальных больших языковых моделей с миллиардами параметров, превышающих вычислительные возможности периферийных устройств, на которых обычно развертываются системы искусственного интеллекта. Дистилляция предлагает путь сжатия этих моделей, сохраняя их функциональные возможности. Тем не менее, существующие подходы дистилляции не способны передать многошаговую способность рассуждать, требуемую сегментацией рассуждений, поскольку сосредоточены на сопоставлении выходных прогнозов и промежуточных признаков, а не сохранении цепочек рассуждений. Возникающая парадигма рассуждения над представлениями цифрового двойника открывает возможность для более эффективной дистилляции путем переосмысления проблемы. В результате мы предлагаем FastReason
Полный текст статьи пока не загружен.