Сжатие INT3 + объединённые ядра Metal [R]
Краткое содержание
Ребята, я исследователь и соло-основатель. Я сжимаю модели с помощью INT3 при +0.14 натах и создал 2-битовый кэш KV для задач с большим горизонтом. Я выпустил оба компонента (модель INT3 + KV INT2) с использованием кастомных объединенных ядер Metal для Mac (серия M). В настоящее время Qwen 7B доступен в режиме предварительного просмотра. #install brew install reinforceai/spiral/spiral #chat spiral-chatЯ продолжаю оптимизировать ядра и работаю над ядрами Triton для поддержки GPU. Ещё есть куда улучшить упаковку, я скоро поделюсь большеми моделями. Я буду благодарен за любые отзывы или любую модель, которую вы хотите, чтобы я сжал в пределах 100 млрд параметров.github.com/ReinforceAI/spiralsubmitted by/u/Financial_Buy_2287[link][comments]
Полный текст статьи пока не загружен.