← Вернуться к списку

ByteDance: UI-TARS 72B (byte-dance-research/ui-tars-72b)

Краткое содержание

UI-TARS 72B — это открытая мультимодальная модель искусственного интеллекта, специально разработанная для автоматизации задач браузера и настольных приложений через визуальное взаимодействие и управление. Модель построена с использованием специализированной архитектуры компьютерного зрения, обеспечивающей точное распознавание и обработку визуальных данных экрана. Она поддерживает автоматизацию задач внутри веб-браузеров, а также настольных приложений, включая Microsoft Office и VS Code. Ключевые возможности включают интеллектуальное обнаружение элементов на экране, моделирование предсказуемых действий и эффективное выполнение повторяющихся взаимодействий. UI-TARS применяет контролируемое дообучение (SFT), адаптированное именно для сценариев управления компьютером. Модель может быть развернута локально либо доступна через платформу Hugging Face для демонстрационных целей. Основные сценарии использования охватывают автоматизацию рабочих процессов, создание скриптов выполнения задач и интерактивное управление элементами рабочего стола.

Полный текст статьи пока не загружен.