OptScale: Вероятностная оптимальность для масштабирования в момент вывода
Краткое содержание
arXiv:2506.22376v3 Тип объявления: замена-перекрёстная публикация Аннотация: Масштабирование во время вывода стало мощным методом повышения производительности рассуждений в больших языковых моделях (LLM). Однако существующие подходы часто полагаются на эвристические стратегии параллельного выборочного анализа, не имея под собой строгой теоретической основы. Для устранения этого пробела мы предлагаем вероятностную структуру, которая формализует оптимальность масштабирования времени вывода при условии, что параллельные образцы распределены независимо и одинаково (i.i.d.) и где стратегия выбора "лучший из N" следует вероятности распределения, которое может быть оценено. В рамках этой структуры мы выводим теоретическую нижнюю границу необходимого количества образцов для достижения целевого уровня производительности, предоставляя впервые обоснованные рекомендации по эффективному с вычислительной точки зрения масштабированию. Используя это понимание, мы разработали алгоритм \textsc{OptScale}, который динамически определяет оптимальное количество отобранных ответов. \textsc{OptScale} использует
Полный текст статьи пока не загружен.