В чём разница между архитектурами и базовыми сетями (backbones)?

18.12.2020 13:57

Краткое содержание

В статье «ForestNet: классификация факторов обезлесивания в Индонезии с использованием глубокого обучения на спутниковых изображениях» авторы говорят о применении следующих элементов: - Feature Pyramid Networks (в качестве архитектуры) - EfficientNet-B2 (в роли базовой сети — backbone) - Показатели производительности на проверочном наборе данных Модель случайного леса (RF), использующая данные исключительно видимых спектральных диапазонов спутника Landsat 8, показала самую низкую производительность на проверочной выборке. Однако включение вспомогательных предикторов значительно улучшило её результаты. Все модели свёрточных нейронных сетей (CNN) превзошли модели случайного леса. Лучшая модель, названная нами ForestNet, применяла архитектуру Feature Pyramid Network с базовой сетью EfficientNet-B2. Использование пространственно-временной агрегации (SDA) обеспечило значительное повышение производительности на проверочных данных, а предварительная подготовка на основе типов землепользования и добавление вспомогательных признаков дополнительно повысили качество работы модели. В чём разница между архитектурами и базовыми сетями (backbones)? В интернете сложно найти чёткое разъяснение. Конкретно интересует, какие цели преследует каждая из них? С точки зрения общего понимания, какую роль играет каждая составляющая?

Полный текст

В чём разница между архитектурами и базовыми сетями?

В статье «ForestNet: Классификация факторов обезлесивания Индонезии с использованием глубокого обучения на спутниковых изображениях» авторы говорят о применении следующих методов:

- Сеть пирамид признаков (FPN — как архитектуру)
- EfficientNet-B2 (как базовую сеть)
- Метрики производительности на проверочном наборе

Модель случайного леса (RF), использующая данные только видимых спектральных диапазонов спутника Landsat 8, показала самую низкую производительность на проверочном наборе, однако включение вспомогательных предикторов существенно улучшило её результаты. Все модели свёрточной нейронной сети (CNN) превзошли модели случайного леса. Лучшая модель, названная нами ForestNet, использовала архитектуру FPN с базовой сетью EfficientNet-B2. Применение самообучаемого анализа данных (SDA) дало значительные улучшения производительности на проверочном наборе, предварительная подготовка по типу покрытия земли и использование вспомогательных предикторов также привели к дополнительным улучшениям.

В чём заключается различие между архитектурами и базовыми сетями? Я не нашёл много полезной информации онлайн. В частности, какие цели преследует каждая из них? Какова будет интеграция двух подходов с точки зрения высокого уровня абстракции?

---

Терминология определённо нестандартная и немного запутывающая, но сеть пирамиды признаков используется здесь как экстрактор признаков, а её выход затем передаётся в EfficientNet-B2 для классификации изображений. Одна нейросетевая модель соединяется последовательно после другой.

Таким образом, кажется, что «архитектура» представляет собой первую половину нейросетевой модели, принимающую входное изображение со спутника и извлекающую признаки изображения, непосредственно подключаясь ко второй половине модели («базовая сеть»), которая принимает извлечённые признаки от архитектуры и производит классификацию.

Эта терминология определённо является нестандартной здесь, по крайней мере, в сообществе ИИ, и если вы спросите кого-либо здесь, думаю, редко кто естественным образом подумает о словах «архитектура» против «базовая сеть», если только они не специализируются в области, аналогичной авторам этой работы.

Читать оригинал статьи