Когнитивные вычисления на периферии: всесторонний обзор оптимизации крупных моделей и агентов ИИ для повсеместного развертывания

2025-11-10 05:00:00

Краткое содержание

arXiv:2501.03265v2 Тип объявления: замена-перекрёстная публикация Аннотация: В данной статье рассматривается когнитивный крайевой вычислительный подход как практический и методичный путь развертывания крупных языковых моделей (LLM), обладающих способностью рассуждать, и автономных агентов ИИ на устройствах с ограниченными ресурсами на периферии сети. Мы представляем унифицированную, сохраняющую когнитивные способности структуру, охватывающую следующие аспекты: (1) оптимизация модели (квантование, разреженность, адаптация низкого ранга, дистилляция), направленная на сохранение многошагового рассуждения при жёстких ограничениях памяти и вычислений; (2) архитектура системы (встроенные выводы, эластичная передача нагрузки, сотрудничество облака и края), балансирующая между задержкой, энергопотреблением, конфиденциальностью и мощностью; (3) адаптивный интеллект (сжатие контекста, динамическая маршрутизация, федеративная персонализация), настраивающий вычисления в зависимости от сложности задачи и ограничений устройства. Мы обобщаем достижения в области эффективного проектирования трансформеров, мультимодальной интеграции, аппаратно-зависимой компиляции, защищённого конфиденциальности обучения и инструментального использования агентских инструментов, сопоставляя их с особенностями краевых устройств.

Полный текст статьи пока не загружен.

Читать оригинал статьи