← Вернуться к списку

Туньи ДипРесёрч 30Б А3Б (бесплатный) (алибаба/туньи-дипресёрч-30б-а3б)

Краткое содержание

Tongyi DeepResearch — агентная большая языковая модель, разработанная лабораторией Tongyi, содержащая всего 30 миллиардов параметров, из которых активируется лишь 3 миллиарда на токен. Она оптимизирована для выполнения сложных информационных задач с длительным горизонтом планирования и демонстрирует передовые результаты на эталонных тестах вроде Humanity’s Last Exam, BrowserComp, BrowserComp-ZH, WebWalkerQA, GAIA, xBench-DeepSearch и FRAMES. Это делает её превосходной для сложного поиска, рассуждений и многошагового решения проблем по сравнению с предыдущими моделями. Модель включает полностью автоматизированную синтетическую конвейерную систему обработки данных для масштабируемого предварительного обучения, тонкой настройки и обучения методом подкрепления. Используется крупномасштабное непрерывное предварительное обучение на разнообразной агентной информации для повышения способности рассуждать и поддержания актуальности модели. В дополнение реализовано сквозное обучение с подкреплением на основе политики (RL), включающее специально разработанный метод оптимизации групповых относительных политик, вычисление градиентов на уровне токенов и фильтрацию отрицательных образцов для стабильного процесса обучения. Модель поддерживает протокол ReAct для проверки базовых способностей и режим «Heavy», основанный на технологии IterResearch для максимальной производительности.

Полный текст статьи пока не загружен.