Размерность против точности: сравнительный анализ автоэнкодеров и квантования для эффективного поиска векторов на наборе данных BEIR SciFact
Краткое содержание
arXiv:2511.13057v2 Тип объявления: замена-перекрёстная публикация Аннотация: Плотные модели поиска информации стали стандартом для передовых систем информационного поиска. Однако их многомерные векторы с высокой точностью представления данных (float32) создают значительные проблемы хранения и памяти при реальном развертывании. Для решения этой проблемы мы провели тщательное эмпирическое исследование на эталонном наборе данных BEIR SciFact, оценивая компромиссы между двумя основными стратегиями сжатия: (1) Снижение размерности с помощью глубоких автокодировщиков (AE), уменьшающих исходные вектора размером 384 измерения до латентных пространств от 384 до 12 измерений; и (2) Уменьшение точности за счет квантования (float16, int8 и бинарное представление). Мы систематически сравниваем каждый метод путем измерения «потери производительности» (или выигрыша) относительно базовой версии float32 по полному спектру метрик поиска информации (NDCG, MAP, MRR, Recall, Precision) при различных порогах отсечения k. Наши результаты показывают, что скалярное квантование int8 обеспечивает наиболее эффективное соотношение качества и размера («сладкое место»), достигая коэффициента сжатия 4х с незначительной потерей или даже улучшением показателей эффективности.
Полный текст статьи пока не загружен.