Ассоциация посредством уменьшения энтропии
Краткое содержание
arXiv:2511.04901v1 Тип объявления: кросс Аннотация: До недавних успехов, достигнутых с помощью нейронных сетей, частота термина — обратная частота документа (tf-idf) считалась очевидным выбором для выявления документов, связанных с запросом. Мы предлагаем альтернативную оценку, названную aver, и наблюдаем, что на наборе данных с разметкой истинности ассоциаций, aver лучше справляется с поиском ассоциированных пар, чем tf-idf. Этот пример связан с задачей поиска ассоциированных вершин в большом графе, и это та область, где нейронные сети пока не являются очевидным лучшим решением. Помимо данного примера, мы отмечаем следующие моменты: (1) у aver есть естественный порог для определения несвязанных пар, тогда как у tf-idf такого порога нет; (2) aver способен различать пары документов, которым tf-idf присваивает одинаковый балл равный 1.0; (3) aver применим к большим коллекциям документов, а не только парам, в отличие от tf-idf; (4) aver выводится из энтропии в рамках простой статистической модели, тогда как tf-idf является конструкцией, специально разработанной для достижения определённых целей.
Полный текст статьи пока не загружен.