Главная - AST-AIHub

Применение машинного обучения для выявления экономичных и физически интерпретируемых представлений динамики осадков и стока водосбора

2025-11-11 05:00:00

arXiv:2412.04845v5 Тип объявления: замена Аннотация: В значительной степени вследствие трудностей, связанных с физической интерпретируемостью методов машинного обучения (ML), и поскольку интерпретируемость моделей является ключевым фактором доверия в управленческих приложениях, многие ученые и пра...

Читать оригинал Подробнее

Выберите размер модели: любое сжатие больших языковых моделей без повторного вычисления

2025-11-11 05:00:00

arXiv:2502.01717v2 Тип объявления: замена Аннотация: Внедрение фундаментальных моделей в условиях ограниченных ресурсов остается сложной задачей из-за их большого размера и высоких затрат на выполнение вычислений. Перспективный подход к преодолению этих ограничений — постобучающее сжатие модели, к...

Читать оригинал Подробнее

Новую функцию потерь для системы ежедневной торговли акциями на основе глубокого обучения

2025-11-11 05:00:00

arXiv:2502.17493v2 Тип объявления: замена Аннотация: Принятие стабильно прибыльных финансовых решений на непрерывно развивающемся и волатильном фондовом рынке всегда было сложной задачей. Специалисты различных направлений разработали фундаментальные теории для прогнозирования динамики цен и оценки...

Читать оригинал Подробнее

Слабая-к-сильной обобщаемость даже в сетях случайных признаков, доказуемо

2025-11-11 05:00:00

arXiv:2503.02877v3 Тип анонса: замена Аннотация: Явление слабого-к-сильному обобщению (Weak-to-Strong Generalization, Burns et al., 2024) заключается в том, что сильный ученик, такой как GPT-4, изучая задачу от слабого учителя, такого как GPT-2, значительно превосходит своего учителя. Мы показывае...

Читать оригинал Подробнее

Повышение пропускной способности вывода больших языковых моделей (LLM) посредством асинхронного упреждающего чтения кеша ключ-значение (KV)

2025-11-11 05:00:00

arXiv:2504.06319v2 Тип анонса: замена Аннотация: Большие языковые модели (LLM) демонстрируют выраженные характеристики, ограниченные памятью, во время вывода вследствие ограничений пропускной способности высокоскоростной памяти (HBM). В данной работе мы предлагаем метод асинхронной предварительной...

Читать оригинал Подробнее

Дисциплинированное бивыпуклое программирование

2025-11-11 05:00:00

arXiv:2511.01813v2 Тип объявления: замена-перекрёстная Аннотация: Мы представляем дисциплинированное биконвексное программирование (DBCP) — методологическую основу для спецификации и решения биконвексных оптимизационных задач. Биконвексные оптимизационные задачи возникают во многих приложениях, вк...

Читать оригинал Подробнее

Надежное обнаружение иллюзий (галлюцинаций) в больших языковых моделях посредством адаптивного выбора токенов

2025-11-11 05:00:00

arXiv:2504.07863v3 Тип объявления: замена Аннотация: Галлюцинации в больших языковых моделях (LLM) представляют значительные проблемы безопасности, препятствующие их широкому внедрению. Недавние исследования методов обнаружения галлюцинаций показали, что внутренние представления LLM содержат призн...

Читать оригинал Подробнее

Энергозатраты рассуждений: Анализ энергопотребления больших языковых моделей (LLM) во время тестового вычисления

2025-11-11 05:00:00

arXiv:2505.14733v2 Тип объявления: замена Аннотация: Масштабирование больших языковых моделей (LLM) обеспечило значительные достижения, однако сталкивается с убывающей отдачей и возрастающими энергетическими потребностями. В данной работе исследуется, каким образом вычислительные ресурсы во время ...

Читать оригинал Подробнее

Time-Prompt: Интегрированные гетерогенные подсказки для раскрытия потенциала больших языковых моделей в прогнозировании временных рядов

2025-11-11 05:00:00

arXiv:2506.17631v3 Тип объявления: замена Аннотация: Прогнозирование временных рядов направлено на моделирование временной зависимости между переменными для вывода будущих состояний, играя важную роль и находя широкое применение в реальных сценариях. Несмотря на значительные достижения методов глу...

Читать оригинал Подробнее

Множественные потоки извлечения знаний: обогащение и восстановление информации в трансформерах

2025-11-11 05:00:00

arXiv:2506.20746v2 Тип объявления: замена Аннотация: Когда большая языковая модель (LLM) изучает новый факт во время тонкой настройки (например, новые кинопремьеры, недавно избранный папа и др.), куда попадает эта информация? Обогащаются ли сущности информацией о связях, либо модели извлекают эту ...

Читать оригинал Подробнее

Лента материалов из области искусственного интеллекта (AI)