От масштабирования к структурированной выразительности: Переосмысление трансформеров для прогнозирования CTR
Краткое содержание
arXiv:2511.12081v1 Тип анонса: cross Аннотация: Несмотря на масштабные инвестиции в увеличение размеров моделей, глубокие модели для прогнозирования показателя кликабельности (CTR) часто демонстрируют быстрое снижение отдачи — что разительно контрастирует с плавным, предсказуемым ростом, наблюдаемым у больших языковых моделей. Мы определяем коренную причину как структурное несоответствие: трансформеры предполагают последовательную композициональность, в то время как данные CTR требуют комбинаторных рассуждений над высокоразмерными семантическими полями. Неструктурированное внимание распространяет возможности модели бессистемно, усиливая шум в условиях экстремальной разреженности и нарушая масштабируемое обучение. Чтобы восстановить соответствие, мы представляем Field-Aware Transformer (FAT), который внедряет априорные знания о межполевых взаимодействиях в механизм внимания посредством декомпозиции контентного выравнивания и межполевой модуляции. Эта конструкция обеспечивает масштабирование сложности модели с количеством полей F, а не с общим размером словаря n >> F, что приводит к более строгой обобщающей способности и, что критически важно, наблюдаемому степенному закону роста AUC с увеличением ширины модели.
Полный текст статьи пока не загружен.