В Nvidia разработали нейросеть, которая создает видео длиной в минуту «по одному запросу»

Исследователи из Nvidia представили Test-Time Training (TTT) - генеративную нейросеть, разработанную совместно с исследователями из Стэнфордского университета. TTT может создавать видео длиной в минуту «по одному запросу».
Для демонстрации работы TTT разработчики показали несколько видеороликов, для генерации которых нейросеть обучили на 50 часах мультфильмов «Том и Джерри».
Сообщается, что видео не подвергались редактированию после генерации и были сделаны с первой попытки.
«Том приезжает в офис в Нью-Йорке. Джерри перегрызает кабель его компьютера. Том гонится за ним, врезается в стену, а Джерри прячется. Том врывается в кабинет, прерывая совещание, которое ведет бульдог Спайк» - выжимка из текстового запроса
По словам исследователей, в результатах работы TTT все еще есть много ошибок и искажений, но пока они использовали только модель «всего» на 5 млрд параметров. Далее ожидаются улучшения в работе нейросети.
Исходный код Test-Time Training есть на GitHub.