Интеллект на Ватт: измерение эффективности интеллекта локальных систем ИИ
Краткое содержание
arXiv:2511.07885v1 Тип анонса: кросс Аннотация: Запросы больших языковых моделей (LLM) преимущественно обрабатываются передовыми моделями в централизованной облачной инфраструктуре. Быстро растущий спрос создает нагрузку на эту парадигму, и поставщики облаков испытывают трудности с масштабированием инфраструктуры в требуемом темпе. Два достижения позволяют нам пересмотреть этот подход: небольшие языковые модели (с числом активных параметров ≤20 млрд.) теперь демонстрируют конкурентоспособную производительность по сравнению с передовыми моделями во многих задачах, а локальные ускорители (например, Apple M4 Max) запускают эти модели с интерактивной задержкой. Это поднимает вопрос: возможно ли эффективно перераспределять запросы от централизованных ресурсов на локальную обработку? Для ответа нужно измерить способность небольших LLM корректно отвечать на реальные запросы и насколько эффективно они справляются с этой задачей, чтобы оставаться практичными на устройствах с ограниченными ресурсами питания (например, ноутбуки). Мы предлагаем использовать показатель «интеллект на ватт» (IPW), определяемый как отношение точности выполнения задачи к единице потребляемой мощности, в качестве метрики оценки возможностей и эффективности локальной обработки запросов среди различных комбинаций моделей и аппаратных ускорителей.
Полный текст статьи пока не загружен.