CAE: Автоэнкодер на уровне символов для группировки нереляционных данных без семантики

2025-11-12 05:00:00

Краткое содержание

arXiv:2511.07657v1 Тип объявления: новый Аннотация: Предприятия всё чаще хранят огромные объёмы несемантических данных — IP-адреса, идентификаторы продуктов, закодированные ключи и метки времени — что усложняет традиционную семантическую обработку. В данной статье предлагается новый подход на основе автоэнкодера уровня символов (Character-Level Autoencoder, CAE), автоматически выявляющий и объединяющий семантически одинаковые столбцы в несемантических реляционных наборах данных путём выявления сходства столбцов на основании закономерностей и структуры данных. В отличие от традиционных моделей обработки естественного языка (Natural Language Processing, NLP), испытывающих трудности с интерпретацией смысла и внесловарными токенами, наш метод работает на уровне отдельных символов с фиксированными ограничениями словаря, обеспечивая масштабируемую обработку больших хранилищ данных и дата-лайков. Архитектура CAE кодирует текстовые представления несемантических столбцов реляционной таблицы и извлекает многомерные признаки для группировки данных. За счёт поддержания фиксированного словаря...

Полный текст статьи пока не загружен.

Читать оригинал статьи