Сбросить

Gemma 3 вводит мультимодальность, поддерживая входные данные типа «изображение-текст» и текстовые выходные данные. Модель обрабатывает контекстные окна до 128 тысяч токенов, распознаёт свыше 140 языков и предлагает улучшенные возможности работы с математическими вычислениями, рассуждениями и диалого...

Anubis Pro 105B v1 — расширенная и доработанная версия модели Meta Llama 3.3 70B, включающая на 50% больше слоёв и прошедшая дополнительное дообучение для эффективного использования увеличенной ёмкости. Модель предназначена для продвинутых сценариев повествования, ролевых игр и учебных заданий, демо...

Wayfarer Large 70B — это модель для ролевых игр и текстовых приключений, дообученная на основе модели Meta Llama-3.3-70B-Instruct. Она специально оптимизирована для сценариев, основанных на повествовании и сложных ситуациях, вводит реалистичные ставки, конфликты и последствия, которых часто избегают...

Краткая версия Почему мы кэшируем матрицы K(ключ) и V(значение), но не матрицу Q(запрос)? Полная версия Приведенный ниже набор данных представляет собой упрощенный пример 2-мерных векторов встраивания: TokenEmbedding Vector quick[0.27 0.78] lazy[0.38 0.58] brown[0.50 0.83] jumps[0.20 0.53] over...

Примечание: стоимость Sonar Pro включает в себя цену поиска Perplexity. Подробности здесь Sonar Reasoning Pro — премиальная модель рассуждений, основанная на технологии DeepSeek R1 с цепочкой размышлений (Chain of Thought, CoT). Разработана для продвинутых сценариев использования, поддерживает глу...

Примечание: стоимость Sonar Pro включает в себя цену поиска Perplexity. Подробности здесь Для предприятий, которым требуются расширенные возможности, API Sonar Pro способен обрабатывать глубокие многоэтапные запросы с дополнительной масштабируемостью, такие как удвоенное количество цитат на один п...

Sonar Deep Research — исследовательская модель, ориентированная на многоэтапное извлечение, синтезирование и рассуждение по сложным тематикам. Она автономно ищет, читает и оценивает источники, уточняя подход по мере сбора информации. Это позволяет создавать исчерпывающие отчёты по таким областям, ка...

DeepSeek-R1-Zero — это модель, обученная методом крупномасштабного обучения с подкреплением (RL), без предварительного этапа дообучения с учителем (SFT). Она имеет размерность 671 млрд параметров, из которых активно используется 37 млрд при выполнении вывода. Модель демонстрирует выдающиеся результ...