PIXEL: Адаптивное управление путем позиционной инъекции с точными оценочными уровнями в условиях калибровки подпространства
Краткое содержание
arXiv:2510.10205v2 Тип объявления: замена Аннотация: Надежное управление поведением является ключевым аспектом развертывания больших языковых моделей (LLM) в вебе. Активационное наведение предлагает путь настройки без необходимости тонкой подстройки для согласования атрибутов (например, правдивости), обеспечивающих доверительное генерирование текста. Преобладающие подходы полагаются на грубые эвристики и не имеют обоснованного объяснения того, где следует осуществлять вмешательство и насколько сильно оно должно быть. В этой связи мы предлагаем методику позиционного инжектирования с точными оцененными уровнями (PIXEL), которая представляет собой фреймворк позиционно-зависимого активационного наведения. В отличие от предыдущих работ, он обучает свойство-согласованное подпространство из двойных представлений (усредненных по хвосту и конечных токенов) и выбирает силу вмешательства посредством ограниченного геометрического целевого показателя с аналитическим решением, адаптируясь к чувствительности на уровне токена без глобальной настройки гиперпараметров. Кроме того, PIXEL выполняет калибровку ортогонального остатка на уровне выборок для уточнения глобального направления атрибута и использует легковесную процедуру сканирования позиций для выявления...
Полный текст статьи пока не загружен.