← Вернуться к списку

CG-FedLLM: Как сжимать градиенты при федерированной тонкой настройке больших языковых моделей

Краткое содержание

arXiv:2405.13746v3 Тип объявления: replace Аннотация: Успех современных больших языковых моделей (LLM) зависит от обширных данных для обучения, которые собираются и хранятся централизованно, что называется централизованным обучением (CL). Однако такой способ сбора данных создает угрозу конфиденциальности, и одним из потенциальных решений является федеративное обучение (FL), при котором между клиентами передаются градиенты, а не исходные данные. В отличие от традиционных сетей, FL для LLM влечет значительные коммуникационные издержки из-за огромного количества параметров. Данное исследование представляет инновационный подход к сжатию градиентов для повышения эффективности связи в процессе федеративного обучения LLM, формируя новый конвейер FL под названием CG-FedLLM. Этот подход включает в себя кодировщик на стороне клиента для получения сжатых признаков градиента и декодировщик на стороне сервера для восстановления градиентов. Мы также разработали новую стратегию обучения, которая включает предварительное обучение с учетом временного ансамбля градиентов (TGAP) для выявления характеристических градиентов целевой модели и

Полный текст статьи пока не загружен.