Хай-тек Speech2Face: создание фотороботов телефонных злоумышленников и всё?

11 июня 2019, 06:38

Персоны

Николай
Гринько

Главный звукорежиссер, автор рубрики "Хай-тек"

Рубрика «Хай-тек» с Николаем Гринько на «Вестях ФМ».

В Массачусетском технологическом институте представили технологию Speech2Face. Опытный образец новой нейросети обладает способностью с высокой достоверностью определять внешность человека по его голосу. Пока эта разработка распространяется исключительно в академических кругах и носит чисто научный характер. Speech2Face представляет собой разновидность генеративно-состязательных нейросетей, задача которой – подбирать параметры внешности человека на основе голосовых данных методом проб и ошибок. Результаты работы ИИ впечатляют: ключевые черты внешности участников эксперимента воспроизводятся максимально точно, при этом пока неизвестно, какие алгоритмы использовали разработчики. Система может на основе голоса определять пол, возраст и даже цвет кожи человека. Ученым предстоит усовершенствовать алгоритмы, для чего нужны большие массивы данных и тесты, чтобы повысить репрезентативность. Авторы полагают, что без помощи мирового научного сообщества им не обойтись.

Коллектив редакции нашей программы поясняет: разработчики загрузили в систему несколько тысяч фотографий реальных людей. К каждой из них был прикреплен файл с образцом голоса конкретного человека. После обработки всех данных система способна анализировать новые звуковые файлы и по результатам выдавать картинку: как примерно, по ее мнению, может выглядеть обладатель того или иного голоса. Самое простое – определить пол: это можно сделать, основываясь на высоте тона, поскольку мужские голоса ниже женских (хотя бывают и исключения). Сложнее вычислить возраст – для этого приходится анализировать сложные гармоники звука. Но самое интересное, что программа способна определить по звуку голоса принадлежность к той или иной расе. Это делается после изучения акцента, с которым человек говорит.

В демонстрационном видео есть фотографии людей, голоса которых показывали системе, а рядом с ними – портреты, которые она нарисовала, основываясь только на звуковом файле. На первый взгляд, эти изображения выглядят удивительно похожими на оригиналы. Все это необыкновенно впечатляет, но, с другой стороны – мы никак не можем придумать, где можно было бы использовать этот фантастический функционал. Единственное, что приходит на ум – это отрисовка приблизительных фотороботов по голосам телефонных злоумышленников. Мы опросили всю редакцию, но никто не смог придумать что-нибудь еще. Может быть, нам всем просто не хватает воображения. Хотя…