Геопространственное цепочечное рассуждение для улучшения визуального ответа на вопросы по спутниковым изображениям
Краткое содержание
arXiv:2511.11198v1 Тип объявления: новый Аннотация: Геопространственное цепочечное рассуждение (CoT) имеет ключевое значение для развития визуального анализа вопросов и ответов (VQA) на спутниковых изображениях, особенно в климатических приложениях, таких как мониторинг бедствий, оценка рисков инфраструктуры, планирование городской устойчивости и поддержка политики. Современные модели VQA позволяют масштабируемо интерпретировать данные дистанционного зондирования, однако часто не обладают структурированным рассуждением, необходимым для сложных геопространственных запросов. Мы предлагаем фреймворк VQA, который интегрирует рассуждения CoT с оптимизацией прямого предпочтения (DPO), чтобы повысить интерпретируемость, устойчивость и точность. Генерируя промежуточные обоснования, модель лучше справляется с задачами, связанными с обнаружением объектов, классификацией, пространственными отношениями и сравнительным анализом — критически важными аспектами надежного принятия решений в высокорисковых климатических областях. Эксперименты показывают, что надзирание методом CoT повышает точность на 34,9% относительно базовых подходов, тогда как применение DPO дополнительно улучшает результаты.
Полный текст статьи пока не загружен.