На прошлой неделе в сфере генерации изображений и видео
Краткое содержание
Я составляю еженедельный обзор мультимодального ИИ; вот лучшие примеры изображений и видео с открытым исходным кодом за последнюю неделю:Numina – наконец-то позволяет генераторам видео на основе ИИ правильно считать объекты. Попроси три кота, получишь три кота. Отслеживает внимание во время генерации, выявляет ошибки подсчета и исправляет без переобучения.GitHub|Projecthttps://reddit.com/link/1slz1rq/video/t623pxnc2bvg1/playerPrompt Relay – временный контроль для генерации видео с несколькими событиями без обучения. Направляет каждый запрос на определенный временной сегмент с нулевыми вычислительными затратами. Работает "из коробки" с Wan2.2, CogVideo, HunyuanVideo.Projecthttps://preview.redd.it/j1mpwbgt3bvg1.jpg?width=1900&format=pjpg&auto=webp&s=905891a7d7397a6a9f83d74b9824f7d6aa7f8005Inspatio World – берет обычное видео и воссоздает в нем 4D мир, который можно исследовать. Ходите по нему в 3D, перемещайте время вперед и назад, без видимого дрейфа. Работает на потребительских GPU.GitHub|Demohttps://reddit.com/link/1slz1rq/video/wn2lgoqy2bvg1/playerC-MET (Перенос эмоций между модальностями) – Редактирование эмоций
Полный текст статьи пока не загружен.