Вести.net: носимая электроника Microsoft и распознавание речи от Yandex
"Яндекс" представил новые технологии для распознавания речи.
Компания выпустила обновление пакета инструментов для разработчиков мобильных приложений SpeechKit mobile и облачного сервиса голосового управления SpeechKit Cloud. Нововведения позволят сторонним разработчикам создавать приложения с полноценным голосовым интерфейсом.
Основными являются три функции: голосовая активация, понимание естественного языка и синтез речи.
Технология голосовой активации позволяет разработчику выбрать кодовое слово, запускающее какую-либо задачу в приложении. Голосовая активация "Яндекса" работает в фоновом режиме и ждет, когда пользователь произнесёт заданную команду. В целом, эта разработка повторяет возможности Google Now. Разве что технология "Яндекс" запускается на самом устройстве и не требует выхода в Интернет. А вместо фразы "окей, Google" в сервисах "Яндекса" предлагается говорить "слушай, Яндекс".
Вторая технология компании умеет выделять смысловые объекты из речи.
"Самое важное — распознавание смысловых объектов. То есть, когда мы распознаем речь и переводим её в текст, этот текст по сути ничего не значит для приложения, сервиса или какой-то системы. Она работает с объектами. И вот эта технология позволяет сказать, допустим: "вот в этом тексте есть команда переключения звонка" или "есть команда построить маршрут в навигаторе". То есть, это сильно помогает разработчику. Если раньше разработчики сами писали алгоритмы, которые сами из текста что-то выделяют, то теперь мы им помогаем, даем им технологию, и она из коробки работает", — сообщил Денис Филиппов, руководитель отдела голосовых технологий "Яндекса".
Финальное нововведение — технология синтеза речи, которая позволяет приложению проговаривать текст вслух.
"Есть метод, классически, который используют все. Это такой семплинг, когда садится диктор, наговаривает огромный объем текста, и из этого текста вычленяются маленькие кусочки, которые потом используются при конструировании других фраз. Здесь всё немножко по-другому. Садится непрофессиональный диктор, который просто говорит, и чем дольше он говорит, тем лучше мы можем построить его ТТС очень похожий на него", — объяснил Григорий "Бобук" Бакунов, директор по распространению технологий "Яндекса".
Помимо "Яндекса" разработкой голосового управления занимаются только крупнейшие международные корпорации: Microsoft, Google и Nuance. Решения последней используются Apple в электронном ассистенте Siri. При этом индустрия распознавания речи — одна из самых закрытых. В первую очередь, из-за Nuance, которая за время своего становления скупила несколько десятков фирм и теперь не даёт другим компаниям выйти на рынок. Правда, несмотря на патентные войны, качество существующих решений пока оставляет желать лучшего. По-настоящему технология прижилась разве что в навигаторах.
"Главная проблема голосовых технологий последних 10 лет — они были настолько низкого качества, что их вообще нельзя было использовать. Сейчас мы дошли до такой границы, когда уже можно что-то использовать, как-то трогать — применять хоть в чем-то. И это позволит сделать очень большой рывок вперед", — считает Григорий "Бобук" Бакунов.
***
Microsoft вышла на рынок носимой электроники.
Вопреки слухам, новинка IT-гиганта оказалась не часами, а фитнес-браслетом, получившим название Microsoft Band. Вместе с ним компания анонсировала и платформу Health, созданную для ведения наблюдений за состоянием здоровья пользователей — своеобразный аналог HealthKit от Apple.
Microsoft Band — это первое устройство, вышедшее под присмотром нового главы компании — Сатьи Наделлы. Сам гаджет, по крайней мере — в нынешнем виде, практически ничем не отличается от конкурирующих фитнес-браслетов. Его основная задача — собирать данные о физических нагрузках пользователя при помощи многочисленных сенсоров и принимать базовые уведомления со смартфона. Новый фитнес-трекер не будет ограничен платформами Microsoft, и будет работать как на Android, так и на iOS. Единственный бонус, который получат владельцы ВинФонов, это интеграция с цифровым ассистентом Кортаной, обеспечивающим браслету голосовое управление. От конкурентов новинку отличает подход компании, схожий с тем, как Google выпускает свою линейку Nexus. Microsoft планирует выдавать сторонним производителям лицензии на использование сенсорного модуля своего браслета, в надежде, что кто-то из них сможет придумать более оригинальное решение.
Впрочем, основным анонсом тут является Health — глобальная система по сбору и анализу данных о здоровье пользователей.
Однако даже в "Майкрософте" пока не очень понимают, что же делать с таким объемом информации. В компании предполагают, что в будущем, отталкиваясь от собранных данных, можно будет лучше понять сценарии использования нательной электроники.