Количественная оценка согласованности и точности метода латентного распределения Дирихле
Краткое содержание
arXiv:2511.12850v1 Тип объявления: новый Аннотация: Моделирование тематики (topic modeling) в обработке естественного языка позволяет выявлять скрытые темы в больших наборах необработанных текстовых данных. Оно широко применяется в областях информационного поиска, обобщения содержания и анализа трендов в различных дисциплинах. Однако вероятностные модели тематического моделирования могут давать разные результаты при повторном запуске вследствие своей стохастической природы, приводя к несогласованности латентных тем. К таким вариациям приводят такие факторы, как перемешивание корпуса текста, удаление редких фрагментов текста и исключение документов. Эта нестабильность влияет на воспроизводимость, надежность и интерпретацию результатов, вызывая сомнения относительно того, отражают ли модели тематики значимые темы или лишь шум. Для решения указанных проблем мы определили новую меру стабильности, включающую точность и согласованность, и используем генерирующие свойства LDA-модели для формирования нового корпуса с известными истинными метками. Эти искусственно созданные корпуса прогоняются через алгоритм LDA 50 раз для оценки степени вариабельности выходных данных. Мы пока...
Полный текст статьи пока не загружен.