К надежным человеческим оценкам в генерации жестов: выводы из общедоступного передового эталонного теста
Краткое содержание
arXiv:2511.01233v2 Тип объявления: замена Аннотация: Мы анализируем практику оценки работы человеком в области автоматизированной генерации трехмерных жестов на основе речи и выявляем отсутствие стандартизации и частое использование несовершенных экспериментальных установок. Это приводит к ситуации, когда невозможно определить, как различные методы соотносятся друг с другом или какое состояние является передовым уровнем техники. Для устранения типичных недостатков дизайна оценок и стандартизации будущих пользовательских исследований по генерации жестов мы представляем подробный протокол человеческой оценки для широко используемого набора данных захвата движения BEAT2. Используя этот протокол, мы проводим крупномасштабную оценку, основанную на краудсорсинге, чтобы ранжировать шесть недавних моделей генерации жестов — каждая из которых была обучена их оригинальными авторами — по двум ключевым измерениям оценки: реалистичность движений и согласованность между речью и жестами. Наши результаты дают убедительные доказательства того, что 1) новые модели не всегда превосходят более ранние подходы; 2) опубликованные утверждения о высокой реалистичности движений или согласованности между речью и жестами могут быть неточными.
Полный текст статьи пока не загружен.