Хай-тек «Ожившая» Монро пока «чья-то чужая»
Персоны
Рубрика «Хай-тек» с Николаем Гринько на «Вестях ФМ».
Инженеры компании Samsung, работающие в Центре искусственного интеллекта, построили систему, способную взять фотографию любого человека и превратить ее в реалистичное видео, на котором этот человек будет говорить, улыбаться и демонстрировать различные эмоции. Система состоит из трех нейросетей, каждая из которых выполняет собственную задачу. Первая сеть называется FaceSpy, и ее специализация – точно выделять на неподвижном изображении глаза, нос, рот, брови, уши и прочие части лица. Вторая нейросеть занята анимированием картинки: она выдает последовательность кадров, в которых голова человека двигается, губы имитируют речь, брови поднимаются и опускаются и так далее. Еще одна часть системы, нейросеть Discriminator, занимается анализом готового видео и следит за реалистичностью движений «ожившей фотографии».
Разумеется, в качестве исходного изображения можно взять не только фото случайных людей, но и, например, фотографию любой знаменитости или даже картины. Именно так инженеры и проиллюстрировали работу искусственного интеллекта: они «оживили» Альберта Эйнштейна, Сальвадора Дали, Мэрилин Монро и Мону Лизу.
Конечно, готовый результат не идеален. Во-первых, эти ролики без звука: имитировать аудиозапись речи система не умеет. И это даже хорошо, ведь если бы звук был, стал бы особенно заметным второй недостаток: анимированные картинки не произносят каких-то слов, они только имитируют речь: открывают и закрывают рот, двигают губами и так далее. Третий недостаток, как ни странно – отсутствие реалистичности. Например, в случае с Монро хорошо заметно, что мимика получилась «чья-то чужая». Существует множество фильмов с Монро, популярных до сих пор, и мимика актрисы знакома многим. По этой причине ролик с «оживленной» фотографией Мэрилин выглядит самым неестественным. Наиболее реалистично выглядит, как ни странно, Мона Лиза – видимо, так происходит потому, что никто из ныне живущих людей не знает, как она говорила.
Можно предположить, что все эти недостатки рано или поздно исправят, и мы получим максимально естественные кадры с участием людей, которые давно закончили свой земной путь или даже никогда не существовали. Вероятнее всего в ближайшие 10-20 лет мы сможем увидеть новые фильмы, в которых «снимутся» Мэрилин Монро, Джеймс Дин или Чарли Чаплин.
Правда, мы опасаемся, что текст, запись голоса, фотография, видеозапись, личная подпись, отпечатки пальцев – все это будет имитироваться так же легко, как сегодня мы делаем видеоселфи с кошачьими ушками и сердечками. Похоже, что человек ближайшего будущего не будет верить абсолютно никому. Даже самому себе. Хотя…