← Вернуться к списку

PerspAct: Повышение навыков ситуационного взаимодействия больших языковых моделей через принятие точки зрения и активное зрение

Краткое содержание

arXiv:2511.08098v1 Тип объявления: кросс Аннотация: Последние достижения в области больших языковых моделей (LLM) и мультимодальных фундаментальных моделей существенно расширили область их применения в робототехнике и системах коллективной работы. Однако эффективное взаимодействие между несколькими агентами требует надежных способностей восприятия перспективы, позволяющих моделям интерпретировать как физические, так и эпистемические точки зрения. Современные парадигмы обучения часто игнорируют такие интерактивные контексты, что создает трудности, когда модели вынуждены рассуждать о субъективности индивидуальных перспектив или ориентироваться в средах с множеством наблюдателей. В данном исследовании оценивается возможность улучшения способности языковой модели понимать и учитывать требования других агентов путем явного включения различных точек зрения с использованием фреймворка ReAct — подхода, объединяющего рассуждение и действие. Мы расширяем классическую задачу Директора, вводя активное визуальное исследование в наборе из семи сценариев возрастающей сложности восприятия перспективы. Эти сценарии...

Полный текст статьи пока не загружен.