Когда F1 терпит неудачу: оценка с учетом гранулярности для сегментации тем в диалоге

Оценка: 5/10 2025-12-22 05:00:00

Краткое содержание

arXiv:2512.17083v1 Тип объявления: новое Аннотация: Разделение тем в диалоге поддерживает резюмирование, извлечение информации, управление памятью и непрерывность разговора. Несмотря на десятилетия предыдущих исследований, практика оценки разделения тем в диалоге по-прежнему доминируется строгим сопоставлением границ и метриками на основе F1, даже когда современные системы общения на основе LLM все чаще полагаются на разделение для управления историей разговора за пределами фиксированного окна контекста модели, где накопление неструктурированного контекста снижает эффективность и связность. В этой статье вводится цель оценки для разделения тем в диалоге, которая рассматривает плотность границ и согласованность сегментов как основные критерии, наряду с F1, устойчивым к окну (W-F1). С помощью обширной междатасетовой эмпирической оценки мы показываем, что различия в заявленных результатах по разным бенчмаркам для разделения тем в диалоге не обусловлены качеством модели, а расхождением в гранулярности аннотаций и скудностью меток границ. Это указывает на то, что многие повторяющиеся проблемы могут быть связаны с проблемами согласованности аннотаций.

Полный текст статьи пока не загружен.

Читать оригинал статьи