Как я сделал Claude мультимодальным, подключив к нему Qwen Omni
Краткое содержание
Клауд слеп. К сожалению, ни одна модель Anthropic не работает напрямую с видео. Да, можно нарезать хоть на каждый кадр и скормить ему, но это не то. Контекст движения теряется, а без него это просто разбор кучи кадров на составляющие и попытка собрать контекст воедино. Для меня как для визуального артиста это большая боль, потому что часто хочется отправить видео-рефы и попросить разобрать движение камеры, персонажа, дизайн в конце концов. И вот конкретная задача: 29 сгенерированных видео-референсов анимации персонажа лежат в папке проекта, надо их разобрать по категориям и описать каждое движение. Вручную мне заниматься этим, конечно же, лень. Час-полтора времени на нудную задачу. Тогда я вспомнил про Qwen Omni, которым уже пользуюсь для создания Цифрового риалтайм персонажа-ассистента. И подумал: а почему бы не подружить их. Продолжить чтение
Полный текст статьи пока не загружен.