Главная - AST-AIHub

Параллельные вычисления xLSTM - несовпадение размерностей.

2024-05-09 14:09:19

Inthisrecent paper, a new architecture is proposed, called xLSTM. I've implemented the sequential version in PyTorch, but it's slower than I would like, so I'm now implementing the parallel version that's explained in the appendix (page 25-26). I feel like this page might contain a mistake, or maybe...

Читать оригинал Подробнее

Чат Qwen 1.5 110B (qwen/qwen-110b-chat)

2024-05-09 00:00:00

Qwen1.5 110B — бета-версия Qwen2, декодирующей языковой модели на основе трансформеров, предварительно обученной на большом объёме данных. По сравнению с ранее выпущенным Qwen улучшения включают: - Значительное повышение производительности согласно предпочтениям человека для чат-моделей - Полная по...

Читать оригинал Подробнее

Чат Qwen 1.5 4B (qwen/qwen-4b-chat)

2024-05-09 00:00:00

Qwen1.5 4B — это бета-версия Qwen2, декодера на основе трансформеров, предварительно обученного на большом объеме данных. По сравнению с ранее выпущенным Qwen улучшения включают: - Значительное повышение производительности согласно предпочтениям человека для чат-моделей - Полная поддержка нескольки...

Читать оригинал Подробнее

Чат Qwen 1.5 72B (qwen/qwen-72b-chat)

2024-05-09 00:00:00

Qwen1.5 72B — бета-версия модели Qwen2, декодера на основе трансформеров, предварительно обученного на большом объёме данных. По сравнению с предыдущей версией Qwen улучшения включают: - Значительное повышение производительности согласно предпочтениям людей при использовании чат-моделей - Полноценн...

Читать оригинал Подробнее

Чат Qwen 1.5 14B (qwen/qwen-14b-chat)

2024-05-09 00:00:00

Qwen1.5 14B — бета-версия модели Qwen2, декодера на основе трансформеров, предварительно обученного на большом объеме данных. По сравнению с предыдущей версией Qwen улучшения включают: - Значительное повышение производительности согласно предпочтениям людей при использовании чат-моделей - Полная по...

Читать оригинал Подробнее

Чат Qwen 1.5 32B (qwen/qwen-32b-chat)

2024-05-09 00:00:00

Qwen1.5 32B — бета-версия модели Qwen2, основанной на архитектуре трансформера и представляющей собой декодерную языковую модель, предварительно обученную на большом объёме данных. По сравнению с предыдущей версией Qwen улучшения включают: - Значительное повышение производительности согласно предпо...

Читать оригинал Подробнее

Чат Qwen 1.5 7B (qwen/qwen-7b-chat)

2024-05-09 00:00:00

Qwen1.5 7B — бета-версия модели Qwen2, основанной на архитектуре трансформера и представляющей собой декодерную языковую модель, предварительно обученную на большом объёме данных. По сравнению с ранее выпущенной моделью Qwen улучшения включают: - Значительное повышение производительности согласно п...

Читать оригинал Подробнее

AlphaFold 3 предсказывает структуру и взаимодействия всех молекул живой природы.

2024-05-08 16:00:00

Представляем новую модель ИИ, разработанную компанией Google DeepMind и Isomorphic Labs.

Читать оригинал Подробнее

NeverSleep: Лама 3 Люмимейд 8Б (neversleep/llama-3-lumimaid-8b)

2024-05-04 00:00:00

Команда NeverSleep вернулась с тонкой настройкой модели Llama 3 размером 8 миллиардов параметров, обученной на специально отобранных ими данных для ролевых игр. Lumimaid была разработана таким образом, чтобы сочетать серьезность с отсутствием цензуры там, где это необходимо, соблюдая баланс между эл...

Читать оригинал Подробнее

Google DeepMind на ICLR 2024

2024-05-03 13:39:00

Разработка следующего поколения ИИ-агентов, исследование новых модальностей и прокладывание путей в области фундаментального обучения.

Читать оригинал Подробнее

Лента материалов из области искусственного интеллекта (AI)