Есть ли способ работать с узлами NUMA?
Краткое содержание
Я купил двухпроцессорный сервер на базе Skylake, потому что мне понадобилось 12 каналов памяти (и две карты 3090), а затем узнал об узлах NUMA после своих неудачных тестов. Очень разочарован. Есть ли какие-либо способы использовать полную пропускную способность памяти двух ЦП или выполнять параллельную обработку на нескольких узлах NUMA? Полностью откровенно скажу, что я новичок в llamacpp (пришел из kobold). Я хотел сделать кое-что более "правильно" с этим сервером. Я читал, что llamacpp может быть "NUMA aware", но это дает только около половины общей пропускной способности. У кого-нибудь есть советы, как приблизиться к полной пропускной способности или, в идеале, реализовать параллельную обработку для узлов NUMA? РЕДАКТИРОВАНИЕ: Я надеялся запустить одну большую модель вместо нескольких экземпляров других моделей. Например, Qwen 3.5 397B с использованием ОЗУ из обоих узлов. опубликовано пользователем/u/An_Original_ID[ссылка][комментарии]
Полный текст статьи пока не загружен.