Предсказание предстоящих визуальных признаков во время движений глаз позволяет получить представления сцены, согласованные с человеческим зрительным корковым слоем

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.12715v1 Тип объявления: кросс Аннотация: Сцены представляют собой сложные, но структурированные коллекции элементов, включая объекты и поверхности, демонстрирующие пространственные и семантические отношения друг с другом. Эффективная визуальная система должна иметь унифицированное представление сцены, связывающее части сцены с их местоположением и совместным появлением. Мы предполагаем, что эта структура может быть изучена методом самообучения из естественного опыта путем использования временных закономерностей активного зрения: каждая фиксация раскрывает локально детализированный фрагмент, который статистически связан с предыдущим через совместное появление и пространственную регулярность, обусловленную саккадическими движениями глаз. Мы реализовали эту идею с помощью сетей прогнозирования фрагментов (GPN — Glimpse Prediction Networks) — рекуррентных моделей, обученных предсказывать вектор признаков следующего фрагмента вдоль траекторий сканирования естественных сцен, аналогичных человеческим. Сети GPN успешно осваивают структуру совместного появления и, когда получают относительные вектора расположения саккад, демонстрируют чувствительность к пространственному расположению. Более того, повторное использование...

Полный текст статьи пока не загружен.

Читать оригинал статьи