Искусственный интеллект фабрикует видео, на которых кто угодно говорит что угодно
Видеоролик на глазах перестаёт быть доказательством того, что определённый человек сказал те или иные слова: новая нейронная сеть вкладывает в уста персонажа что угодно по воле создателя. Правда, пока она работает лишь с изображением, а не со звуком. Новинка разработана специалистами Университета Карнеги–Меллона (Carnegie Mellon University) в США.
Технология является развитием методов, с помощью которых на изображения актёров "наклеиваются" лица известных людей. Подобные эффекты применяются в разных областях, от создания комических роликов до порноиндустрии. Новшество идёт дальше: оставляя персонажу видео его собственное лицо, оно придаёт ему нужную артикуляцию, заставляя произносить чужие слова.
Поясним. В распоряжении искусственного интеллекта имеются два видеоролика. Допустим, на одном из них диктор рассказывает о новостях IT-индустрии, а на другом Мэрилин Монро произносит актёрский монолог. Задача системы состоит в том, чтобы скопировать движения губ диктора и заставить почившую в 1962 году голливудскую знаменитость рассуждать об уязвимостях Windows-10.
Как сообщает издание New Atlas, разработка развивает алгоритм машинного обучения, известный как генеративно-состязательная сеть (ГСС). Первая нейронная сеть (генератор) стремится как можно точнее скопировать артикуляцию диктора. Задача другой сети (контролёра) в том, чтобы как можно точнее распознать подделку. Между двумя компьютерными разумами возникает соревнование, в результате которого они обучаются гораздо эффективнее, чем поодиночке. "Вести.Наука" (nauka.vesti.ru) уже рассказывали об этом подходе, позволившем создать картины в уникальном стиле.
Следующей ступенью системы является циклическая ГСС. Здесь качество подражания проверяется так. Создав артикуляцию для Мэрилин Монро на основе движений губ диктора, система выполняет обратный процесс. Взяв за образец эту искусственную "речь" актрисы, она синтезирует такую же артикуляцию для диктора и сравнивает её с исходной. Похожим образом можно проверять качество перевода с русского на английский, переводя результат обратно на русский и сравнивая с исходным текстом.
Такая система работает эффективнее, чем обычная ГСС, но и она довольно часто допускает ошибки. Поэтому авторы разработали алгоритм нового поколения: рециклическую ГСС. Вместо того чтобы обрабатывать каждый кадр независимо, как предыдущие системы, он учитывает, каким было положение губ на предыдущих и последующих кадрах. Это уменьшает процент ошибок и способствует более качественному подражанию.
К слову, алгоритм можно применять не только для того, чтобы вложить речь одного человека в уста другого. На странице проекта можно найти несколько примеров видеороликов, созданных с помощью этого подхода. Там есть "скопированный" процесс раскрытия цветка и бег облаков. Артикуляцию реальных людей можно передавать и персонажам мультфильмов.
Но всё же самым интригующим возможным применением остаётся создание фейковых видеороликов. Остроту проблемы несколько снимает тот факт, что детище инженеров работает только с изображением, а не со звуком. Но не исключено, что в скором будущем искусственный интеллект справится и с этой задачей.
Тогда видеоролик перестанет быть компроматом на политика или доказательством в суде, ведь легко можно будет сфабриковать видео с любой речью, произносимой кем угодно. Есть, впрочем, и приятный момент: лекции сухонького старичка-профессора можно будет вложить в уста прекрасной полуобнажённой модели. Не исключено, что такая мера серьёзно повысит успеваемость некоторых студентов.
К слову, "Вести.Наука" рассказывали о системах искусственного интеллекта, которые читают по губам лучше человека, создают убедительные лица для рекламы, учатся подражать человеку после одного просмотра видео и воспроизводят стиль известных художников. Также мы говорили о нейронной сети, которая распознаёт фейковые новости.