Аппаратная оптимизация на Android для инференса моделей искусственного интеллекта
Краткое содержание
arXiv:2511.13453v1 Тип: новая статья Аннотация: Повсеместная интеграция моделей искусственного интеллекта в современные мобильные вычисления наблюдается в многочисленных сценариях использования — от виртуальных ассистентов до сложной обработки изображений. Оптимизация мобильного пользовательского опыта требует минимальной задержки и высокой отзывчивости от развернутых моделей ИИ, что сопряжено с проблемами — от стратегий выполнения, в полной мере учитывающих ограничения реального времени, до использования гетерогенной аппаратной архитектуры. В данной статье мы исследуем и предлагаем оптимальные конфигурации выполнения моделей ИИ в системе Android, фокусируясь на двух ключевых задачах: обнаружение объектов (семейство YOLO) и классификация изображений (ResNet). Эти конфигурации оценивают различные схемы квантования моделей, а также использование встроенных акселераторов, в частности GPU и NPU. Наша главная цель — эмпирически определить комбинацию, обеспечивающую наилучший баланс между минимальной деградацией точности и максимальной скоростью
Полный текст статьи пока не загружен.