МТИ и Google создали ИИ, который сможет сопоставлять звук, изображение и текст для восприятия мира
Алгоритм, который учится как человек.
Исследования ИИ обычно рассматривают способность распознавания изображения, звука и текста как три разных алгоритма. Однако две новые статьи от МТИ и Google описывают целостный подход, который соединяет все три чувства для обучения интеллектуальных машин.
Юсуф Айтар (Yusuf Aytar), аспирант по ИИ в Массачусетском технологическом институте, говорит, что ни один из методов Google или МТИ не работает лучше, чем однозадачные алгоритмы. Однако подчеркивает - это лишь вопрос времени.
«Чем больше у вас чувств, тем аккуратнее ваши действия», - убежден ученый.
Ученые МТИ не обучают ИИ чему-то новому - но закладывают «умение» сопоставлять полученные данные. Для обучения нейросети показали видео, которое может быть связано с аудио. После того как ИИ обнаружил объекты в видео, он попытался предсказать, как они соответствуют звуковому ряду. Затем исследователи скормили машине текст, чтобы она могла ассоциировать слова с изображением.
Модель Google ведет себя аналогично, но, помимо прочего, умеет переводить текст.
Ранее инженеры Google превратили ИИ в родителя и учителя себе подобных, а Microsoft анонсировал приложение для создания креативных видео с искусственным интеллектом на борту.
[email protected]
Автор иконки на тизере: Oksana Latysheva, Noun Project.