Осенняя GTC 2020 - платформа NVIDIA Maxine для видеоконференций
NVIDIA сегодня анонсировала платформу NVIDIA Maxine, которая предоставляет разработчикам облачное GPU-ускоренное программное обеспечение на базе искусственного интеллекта (ИИ) для видеоконференций, созданное для улучшения потокового видео - источника трафика № 1 в интернете.
NVIDIA Maxine - это облачная платформа искусственного интеллекта для потоковой передачи видео, которая позволяет поставщикам услуг использовать новые возможности ИИ для более чем 30 миллионов веб-встреч, проходящих каждый день. Провайдеры видеоконференцсвязи, использующие платформу на графических процессорах NVIDIA в облаке, могут предложить пользователям новые возможности искусственного интеллекта, включая коррекцию взгляда, сверхвысокое разрешение, шумоподавление, повторное освещение лица и другие.
Так как данные обрабатываются в облаке, а не локально, то конечные пользователи могут наслаждаться этими возможностями без специального аппаратного обеспечения.
"Видеоконференции стали частью нашей жизни, помогая миллионам людей работать, учиться и играть, и даже консультироваться у врачей, - говорит Ян Бак (Ian Buck), вице-президент и директор NVIDIA по ускоренным вычислениям. - NVIDIA Maxine объединяет наши самые передовые возможности видео, аудио и разговорного ИИ, чтобы обеспечить революционную эффективность и новые возможности платформ, позволяющих нам всем оставаться на связи."
Платформа Maxine значительно уменьшает требуемую для видеозвонков полосу пропускания. Вместо потоковой передачи всех пикселей экрана умное программное обеспечение анализирует ключевые черты лица каждого человека, участвующего в звонке, и затем интеллектуально воссоздает лицо с другой стороны. Это позволяет сильно сократить объем данных потокового видео, пересылаемых по Сети туда и обратно.
Используя эту новую технологию сжатия видео на основе ИИ, работающую на графических процессорах NVIDIA, разработчики могут снизить нагрузку на полосу пропускания до одной десятой от требований стандарта сжатия потокового видео H.264. Это сократит расходы для поставщиков и обеспечит более плавную видеоконференцию для конечных пользователей, которые получат еще больше сервисов на базе ИИ при меньшем объеме данных, пересылаемых на компьютеры, планшеты и телефоны.
Новые разработки исследователей NVIDIA, которые будут включены в Maxine, сделают видеоконференцсвязь более похожей на личную беседу. Поставщики услуг видеоконференцсвязи смогут воспользоваться исследованиями NVIDIA в генеративно-состязательных сетях (GAN), чтобы предложить множество новых функций.
Например, функция выравнивания лица позволяет автоматически выравнивать позицию лица таким образом, чтобы казалось, что во время разговора люди смотрят друг другу в лицо, а функция коррекции взгляда помогает имитировать зрительный контакт, даже если камера не совмещена с экраном пользователя. Поскольку объем видеоконференций с начала года увеличился в 10 раз, эти функции помогают людям сосредоточиться на разговоре, а не на камере.
Разработчики также могут добавлять функции, которые позволяют участникам звонка выбирать собственные анимированные аватары с реалистичной анимацией, автоматически управляемой их голосом и эмоциональным тоном в реальном времени. Опция автоматического кадра позволяет видеопотоку отслеживать того, кто говорит в данный момент, даже если он удаляется от экрана.
Используя функции диалогового ИИ на базе SDK NVIDIA Jarvis, разработчики могут интегрировать виртуальных помощников, использующих современные языковые модели ИИ для распознавания речи, понимания языка и генерации речи. Виртуальные помощники могут делать заметки, задавать действия и отвечать на вопросы человеческим голосом. Дополнительные сервисы диалогового ИИ, такие как переводы, субтитры и транскрипция, помогают участникам понять, что обсуждается во время видеоконференции.
Спрос на видеоконференцсвязь трудно предсказать на определенный момент времени, если к звонку будут пытаться присоединиться сотни или даже тысячи пользователей. NVIDIA Maxine использует микросервисы ИИ, работающие в кластерах контейнеров Kubernetes на графических процессорах NVIDIA, чтобы помочь разработчикам масштабировать свои услуги в соответствии с текущими потребностями. Пользователи могут запускать несколько функций ИИ одновременно, совершенно не превышая требований приложений по задержкам.
Поставщики услуг видеоконференций могут использовать Maxine, чтобы предоставить передовые возможности ИИ сотням тысяч пользователей, выполняя инференс на графических процессорах NVIDIA в облаке. Модульная конструкция платформы Maxine позволяет разработчикам легко выбирать возможности ИИ для интеграции в свои решения для видеоконференцсвязи.
Платформа Maxine объединяет технологии из нескольких SDK NVIDIA и API. В дополнение к NVIDIA Jarvis, платформа Maxine также использует SDK NVIDIA DeepStream для высокоскоростной потоковой передачи аудио и видео и SDK NVIDIA TensorRTTM для высокопроизводительного инференса.
Возможности искусственного интеллекта для аудио, видео и естественного языка в SDK NVIDIA, используемом в платформе Maxine, были разработаны в ходе сотен тысяч учебных часов на системах NVIDIA DGXTM - ведущей в мире платформе для обучения, инференса и обработки данных.
Разработчики ИИ-приложений компьютерного зрения, партнеры по программному обеспечению, стартапы и производители компьютеров, создающие аудио- и видео-приложения и сервисы, могут подать заявку на ранний доступ к платформе NVIDIA Maxine.