ЛАЙА: Послойное Агрегирование Внимания для Интерпретируемых Нейросетевых Моделей с Учетом Глубины

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.12723v1 Тип: новая работа Аннотация: Глубокие нейронные сети обычно используют для прогнозирования представление, создаваемое их последним скрытым слоем, подразумевая, что этот единый вектор полностью захватывает семантику, закодированную во всех предыдущих преобразованиях. Однако промежуточные слои содержат богатую и дополнительную информацию — от низкоуровневых паттернов до высокоуровневых абстракций — которая часто отбрасывается, когда решающая головка зависит исключительно от последнего представления. В данной работе пересматривается роль выходного слоя и представлена LAYA (Layer-wise Attention Aggregator) — новая выходная головка, которая динамически агрегирует внутренние представления с помощью механизма внимания. Вместо проецирования только самого глубокого эмбеддинга LAYA обучается вычислять веса внимания, обусловленные входными данными, для признаков каждого слоя, обеспечивая интерпретируемый и не зависящий от архитектуры механизм для синтеза прогнозов. Эксперименты на бенчмарках для задач компьютерного зрения и обработки естественного языка показывают, что LAYA последовательно улуч

Полный текст статьи пока не загружен.

Читать оригинал статьи