3D-оптимизация для масштабирования AI-инференса: балансировка точности, стоимости и задержки
Краткое содержание
arXiv:2510.18905v3 Тип объявления: replace Аннотация: Масштабирование вывода ИИ часто настраивается с помощью одномерных эвристик (фиксированный проход рассуждений) или двумерных двумерных компромиссов (например, точность vs. вычислительные затраты), которые не учитывают ограничения по стоимости и задержкам. Мы представляем трехмерную оптимизационную структуру, которая совместно калибрует точность, стоимость и задержки в едином пространстве решений, обеспечивая масштабирование вывода с учетом ограничений. Используя метод Монте-Карло для трех репрезентативных сценариев и девяти имитационных больших языковых моделей, мы оцениваем четыре метода оптимизации для решения трехмерной многокритериальной задачи оптимизации. Формулировка масштабирования вывода в терминах МКО формирует допустимое пространство, которое не улавливается одномерной и двумерной оптимизацией, позволяя осуществлять адаптивный к среде выбор параметра масштабирования вывода~$k$. Результаты показывают, что оптимизация по точке перегиба на основе фронтов Парето достигает наилучшего баланса, в то время как максимизация точности остается предпочтительной, когда точность является приоритетом. Наши результаты также показывают, что
Полный текст статьи пока не загружен.