← Вернуться к списку

ProFuser: Прогрессивная интеграция больших языковых моделей

Краткое содержание

arXiv:2408.04998v2 Тип объявления: замена Аннотация: Хотя объединение возможностей и преимуществ различных больших языковых моделей открывает путь к созданию более мощных и универсальных моделей, фундаментальной проблемой является правильный выбор предпочтительной модели во время обучения. Современные методы слияния главным образом сосредоточены на режиме обучения, использующем перекрестную энтропию на эталонной истине в настройке принудительного обучения учителем (teacher forcing), чтобы оценить преимущества модели, что может давать ограниченное представление о её преимуществах. В данной работе мы предлагаем новый подход, который улучшает процесс объединения путем включения как режима обучения, так и режима вывода. Наш метод оценивает преимущество модели не только через перекрестную энтропию во время обучения, но также учитывает результаты вывода, обеспечивая более всестороннюю оценку. Для эффективного совмещения двух режимов мы вводим ProFuser — механизм постепенного перехода от режима вывода к режиму обучения. Чтобы подтвердить эффективность ProFuser, мы объединили три модели, включая Vic...

Полный текст статьи пока не загружен.