← Вернуться к списку

MMWOZ: Построение мультимодального агента для целевых диалогов

Краткое содержание

arXiv:2511.12586v1 Тип объявления: новый Аннотация: Диалоговые системы ориентированные на выполнение задач привлекли значительное внимание благодаря своей способности вести диалоги для достижения целей, таких как бронирование авиабилетов пользователями. Традиционно такие диалоговые системы рассматриваются как интеллектуальные агенты, взаимодействующие с пользователями посредством естественного языка и имеющие доступ к специализированным API серверной части. Однако в реальных сценариях повсеместное распространение графических интерфейсов пользователя (GUI), ориентированных на веб-интерфейс, и отсутствие специализированных API серверной части создают значительный разрыв между традиционными диалоговыми системами, ориентированными на выполнение задач, и практическими приложениями. В данной статье для преодоления данного разрыва мы собираем набор данных мультимодальных диалогов MMWOZ, расширенный от набора данных MultiWOZ 2.3. Конкретно, сначала мы разрабатываем интерфейс типа веб-GUI, который служит фронт-эндом. Затем мы создаем автоматизированный скрипт для преобразования состояний диалога и действий системы из исходного набора данных в инструкции по выполнению операций для...

Полный текст статьи пока не загружен.