Хай-тек Голосовые помощники станут понятливыми, а данные пользователя – незащищёнными

21 апреля 2020, 06:13

Персоны

Главный звукорежиссер, автор рубрики "Хай-тек"

Рубрика «Хай-тек» Николая Гринько на «Вестях FM».

Американские инженеры создали алгоритм, позволяющий смартфонам понимать, на что в данный момент смотрит пользователь, и тем самым более точно интерпретировать его голосовые команды. Алгоритм сопоставляет данные с фронтальной и тыловой камер и вычисляет конкретную точку, на которую направлен взгляд пользователя. Это позволяет использовать в общении с голосовым помощником обезличенные команды, например, «Во сколько закрывается этот магазин? Куда едет этот троллейбус? Куда ведет эта улица?» и так далее. Чтобы смартфон мог понимать, о чем именно говорит пользователь в таких случаях, ему необходимо использовать данные от камеры. Самый очевидный способ реализации — просто наводить камеру на интересующий предмет, чтобы он находился в центре кадра. Но это дне слишком удобно, поэтому разработчики под руководством Криса Харрисона из Университета Карнеги-Меллона предложили одновременно использовать камеры с обеих сторон смартфона, чтобы определять направление взгляда человека, не заставляя его точно направлять смартфон.

Коллектив редакции нашей программы ознакомился с демонстрационным видеороликом. В нем девушка идет по улице города, держа смартфон в руке так, будто она в этот момент пользуется навигационной программой – то есть довольно свободно, не напрягаясь. Видео, записанное в этот момент с обеих камер телефона, показывает, что даже в этом положении они отлично фиксируют как лицо владельца, так и детали обстановки прямо перед ним. По глазам пользователя алгоритм определяет направление взгляда, а затем экстраполирует его на картинку с основной камеры. Получается довольно корректно: скажем, программа точно определяет, на какой из двух стоящих рядом в комнате стульев в данный момент направлен взгляд.

С точки зрения развития голосовых помощников это, несомненно, большой шаг вперед. Эти программы пока очень несовершенны — не всегда хорошо распознают слова, неспособны поддерживать многоуровневый диалог, а уж указательные местоимения и вовсе не понимают. Теперь же появился шанс сделать голосовых помощников более функциональными. Но вот с точки зрения сохранения приватности возникает множество вопросов. Для того чтобы алгоритм работал, смартфон должен будет не только записывать все звуки вокруг себя, но и снимать панорамное видео. Известно, что гаджеты не обрабатывают голосовые данные самостоятельно, они отправляют их на серверы компании-производителя. Утверждается, что это делается исключительно для оперативности: смартфоны не способны обработать такое количество аудиоданных самостоятельно. Надо полагать, с видеоданными будет то же самое, поскольку они – на порядки объемнее. То есть чтобы виртуальный помощник работал, пользователь должен будет позволить некой удаленной корпорации постоянно слышать и видеть все, что он делает и говорит. Компании, конечно, утверждают, что все данные надежно зашифрованы, да так, что их не могут расшифровать даже сами компании. Мы, конечно, безоговорочно доверяем их честности. Хотя...

Хай-тек. Все выпуски

Выбрать дату