← Вернуться к списку

Изменяется ли количество полностью связанных нейронных сетей в архитектуре трансформера в зависимости от максимального размера входного текста?

Краткое содержание

Учитывая архитектуру энкодера и декодера в трансформере, как показано ниже: каждый входной токен после механизма self‑attention (z1, z2, z3, ...) проходит через свой отдельный Feed‑forward нейронный слой или все Z собираются в один массив и передаются в один FFNN? Если все Z собираются в один массив, как учитываются различия в формах разных входов? Если у каждого z есть свой Feed‑forward нейронный слой, как это реализуется на практике при произвольной длине входов?

Полный текст статьи пока не загружен.