Техника агрегирования множества входных изображений в единую представление релевантных признаков внутри
Краткое содержание
У меня есть несколько тысяч изображений, и я хотел бы сгенерировать представление переднего плана на них - композицию всех его особенностей, так сказать. В простых терминах: возьмите 10000 изображений собаки и затем нарисуйте архетипическую собаку. Есть ли у этой задачи название, и существует ли метод специально для таких целей? Изображения имеют разные размеры и не инвариантны по масштабу или повороту, поэтому простые алгоритмы усреднения не подойдут. Я предполагаю, что техники глубокого обучения могут быть способны - например, извлечение особенностей с первых слоев нейронной сети - как указано здесь: "...оригинальная сеть не может использоваться для классификации новых идентичностей, на которых она не была обучена. Но k-й слой может обеспечить хорошее представление лиц в целом...". Мне просто не обязательно нужна модель для последующего предсказания, достаточно агрегированного представления.
Полный текст статьи пока не загружен.