Главная - AST-AIHub

Адаптивная параметрическая активация: унификация и обобщение функций активации для различных задач

2025-11-17 05:00:00

arXiv:2407.08567v3 Тип объявления: замена-перекрёстная публикация Аннотация: Функция активации играет ключевую роль в оптимизации моделей, однако оптимальный выбор до сих пор остаётся неясным. Например, сигмоидная активация фактически является стандартной функцией активации в сбалансированных клас...

Читать оригинал Подробнее

Вычислительное преимущество глубины: обучение высокоразмерных иерархических функций методом градиентного спуска

2025-11-17 05:00:00

arXiv:2502.13961v4 Тип объявления: замена-перекрёстная Аннотация: Понимание преимуществ глубоких нейронных сетей, обучаемых методом градиентного спуска (GD), по сравнению с неглубокими моделями остаётся открытой теоретической задачей. В данной работе мы вводим класс целевых функций (одно- и многом...

Читать оригинал Подробнее

NervePool: Слой симплициальной свертки

2025-11-17 05:00:00

arXiv:2305.06315v2 Тип объявления: замена-перекрёстная публикация Аннотация: Для задач глубокого обучения на графовых структурах данных слои пулинга важны для понижения разрешения (даунсемплинга), снижения вычислительных затрат и минимизации переобучения. Мы определяем слой пулинга, названный nerv...

Читать оригинал Подробнее

Когда Федеральное обучение встречается с квантовыми вычислениями: обзор и исследовательские возможности

2025-11-17 05:00:00

arXiv:2504.08814v4 Тип объявления: замена-перекрёстная публикация Аннотация: Квантовое федеративное обучение (Quantum Federated Learning — QFL) представляет собой новое направление исследований, использующее достижения квантовых вычислений (quantum computing — QC), чтобы повысить масштабируемость ...

Читать оригинал Подробнее

ORIC: Оценка качества распознавания объектов в условиях контекстуальной рассогласованности в больших моделях видения и языка

2025-11-17 05:00:00

arXiv:2509.15695v2 Тип анонса: замена-перекрёстная публикация Аннотация: Большие мультимодальные модели видения и языка (LVLM) превосходят другие подходы в области описания изображений, визуального вопросно-ответного взаимодействия и робототехники благодаря объединению зрения и языка, однако часто...

Читать оригинал Подробнее

Последовательная проверка дифференциальной приватности

2025-11-17 05:00:00

arXiv:2509.07055v2 Тип объявления: замена-перекрёстная публикация Аннотация: Мы предлагаем практический последовательный тест для проверки гарантий дифференциальной приватности чёрных ящиков. Тест обрабатывает потоки выходных данных механизмов, обеспечивая корректность выводов в любой момент време...

Читать оригинал Подробнее

Повышение точности распознавания эмоций речи с помощью порождающей модели с регуляризацией взаимной информацией

2025-11-17 05:00:00

arXiv:2510.10078v2 Тип объявления: замена-перекрёстная публикация Аннотация: Несмотря на значительный прогресс исследований распознавания эмоций речи (SER), достигнутый благодаря методам глубокого обучения, эта область всё ещё сталкивается с проблемой получения высококачественных размеченных набор...

Читать оригинал Подробнее

К верифицированному рассуждению о коде средствами больших языковых моделей

2025-11-17 05:00:00

arXiv:2509.26546v2 Тип объявления: замена-перекрёстная Аннотация: Хотя основанные на больших языковых моделях (LLM) агенты способны решать широкий спектр вопросов, связанных с анализом исходного кода, их ответы не всегда верны. Это ограничивает полезность агента в ситуациях, когда необходима высок...

Читать оригинал Подробнее

Нелинейные лапласианы: настраиваемый метод главных компонент с учетом априорной информации о направлении

2025-11-17 05:00:00

arXiv:2505.12528v2 Тип объявления: замена-перекрёстная публикация Аннотация: Мы представляем новое семейство алгоритмов для обнаружения и оценки сигнала ранга один из зашумлённого наблюдения при наличии априорной информации о направлении данного сигнала, уделяя особое внимание примерам, когда сигн...

Читать оригинал Подробнее

Трансформеры знают больше, чем могут рассказать — изучение последовательности Коллатца

2025-11-17 05:00:00

arXiv:2511.10811v1 Тип объявления: новый Аннотация: Мы исследуем предсказание трансформерами длинных шагов Коллатца — сложной арифметической функции, отображающей нечётные целые числа на их далёких последователей в последовательности Коллатца ($ u_{n+1}=\frac{u_n}{2}$, если $u_n$ чётное, $u_{n+1}=...

Читать оригинал Подробнее

Лента материалов из области искусственного интеллекта (AI)