что такое голосовой ассистент
Голосовой помощник: что это такое и для чего он нужен
Фразы «Алиса» или «Эй, Сири» звучат знакомо? На самом деле они считаются голосовыми помощниками, и десятки миллионов пользователей ежедневно общаются с ними. Если Вам быстро нужно узнать цену СЕО продвижения сайтов, просто скажите «Окей Гугл» и получите тысячи подходящих вариантов.
Что такое голосовой помощник
В то время как текстовые интерфейсы требуют, чтобы машины обрабатывали текст, анализировали его и отображали ответ, голосовые помощники делают это на слух. Проще говоря, вместо нажатия клавиш и набора запроса, например, о том, что такое франшиза, Вы просто проговариваете его вслух. Но, конечно, данная технология является довольно сложной и относительно новой по сравнению с текстовыми интерфейсами.
Что делает голосовой помощник
О том, что делает голосовой помощник всем давно известно, но о том, как он это делает, знают немногие. Некоторые помощники начинают распознавание в ходе проговаривания определённой фразы, например, как «Окей Гугл», после которой Вы озвучиваете желаемый запрос.
После обработки запроса пользователя с помощью распознавания голоса настало время получить информацию, связанную с вопросом. Голосовые помощники делают это, получая доступ к так называемой базе знаний, которая служит центральным хранилищем для извлечения информации.
Для чего нужен голосовой помощник
В заключение скажем о том, для чего нужен голосовой помощник и в каких ситуациях он окажется наиболее полезным. Голосовые помощники стали довольно популярными среди потребителей. Большинство из них просто используют свои устройства для проверки погоды, чтобы узнать, кто выиграл вчерашнюю игру, столицу Японии и для других простых голосовых команд.
В недавнем опросе более 600 высокопоставленных лиц, принимающих решения, 31% из них считают, что голосовые технологии полезны только для повседневной работы. На данный момент, очевидно, что голосовые помощники лучше решают простые, не связанные с бизнесом вопросы для пользователей. Спорно утверждать, что за голосовыми помощниками нет будущего, со временем и их усовершенствованием, станут, бесспорно, открываться новые возможности их использования.
Конечно, вопрос о том, стоит ли пользоваться голосовым помощником или нет, решать только Вам. Всё дело в простоте использования и экономии времени, хоть не такого уж и длительного. Разнообразие таких голосовых технологий поможет подобрать Вам наиболее приятный и удобный вариант.
Как устроена работа голосовых помощников
От распознавания звуков до человечных ответов на вопросы
Голосовые помощники экономят время пользователей: с их помощью можно мгновенно включить музыку или набрать нужный номер. Однако для того, чтобы правильно отреагировать на запрос человека, голосовому ассистенту нужно выполнить десятки действий: распознать отдельные звуки, представить их в виде чисел, перевести в текст и так далее. Академия Яндекса составила путеводитель по работе голосовых помощников и узнала у разработчиков Алисы, как их речь делают человечной.
Как голосовые помощники распознают речь
Первая стадия в работе голосового ассистента — это обработка звука.
Если сказать помощнику «Лев Толстой», то он услышит не два слова, а звуковой сигнал, в котором гласные и согласные плавно перетекают друг в друга.
Задача системы распознавания речи SpeechKit — восстановить по этому сигналу то, что человек говорил.
Процесс распознавания осложняется тем, что одни и те же фразы, произнесённые разными людьми в разной обстановке (например, в вагоне метро или в безлюдном парке), будут давать непохожие друг на друга сигналы. Поэтому для распознавания речи голосовой помощник делит слова на звуковые фрагменты — фонемы. Носители языка узнают именно их: например, первые гласные в словах «дом» и «домашний» мы воспринимаем одинаково, хотя звуки разные. В Алисе различают всего 48 фонем — в соответствии с подходом Ленинградской фонологической школы.
Для того, чтобы распознавать фонемы, помощник работает с их числовым представлением. Так, когда вы произносите запрос, смартфон записывает его и отправляет на сервер компании, которая разрабатывала голосового помощника. Там запись разделяется на множество маленьких фреймов — фрагментов речи длиной в сотые доли секунды.
Затем каждый фрейм подвергают математическим преобразованиям и в результате получают коэффициенты, описывающие его частотные характеристики. А на основании этих данных ассистент может предположить, к какой фонеме принадлежит фрейм.
Как и человек, голосовой помощник не всегда хорошо распознаёт звуки, и ему приходится достраивать слова исходя из контекста и статистики. У него есть таблица вероятностей переходов, которая указывает, что после «к» с одной вероятностью будет «о», с другой — «т» и так далее. Это позволяет определить варианты последовательности фонем и потом варианты слов, которые вы могли сказать.
Голосовому помощнику нужно учитывать множество акцентов, в которых фонемы звучат по-разному. Например, в Москве чаще будет произноситься гласная «а», а в Архангельске — «о». Причем, если для Siri и Alexa можно выбрать британский или американский английский, а вот вологодского или краснодарского русского нет.
Как голосовые ассистенты понимают и выполняют поручения
После того, как голосовой помощник распознал речь и перевёл её в текст, ему нужно понять, какого ответа ждет пользователь. В Алисе запросы пользователей сначала классифицируются по намерениям, а потом перенаправляются в тематические разделы, например, для прослушивания музыки или неформального разговора.
Задача классификатора намерений — определить, что человек хотел сказать своей фразой. Например, если пользователь спросил: «Будет ли завтра дождь?», то голосовой помощник должен понять, что речь идёт о погоде. В классификаторе намерений запрос дробится на слова и пунктуационные знаки. Для них применяют обученные на больших данных эмбеддинги — представления слов, которые позволяют понять, в каком контексте эти слова обычно используются.
Один из самых простых методов эмбеддинга — это контекстные векторы. Сперва для текстового корпуса составляют словарь, из которого выбираются самые распространённые слова. Дальше подсчитывается, сколько раз каждое слово из словаря встречается в контексте выбранных слов, и таким образом получается вектор. Так, если слово «дождь» трижды встречалось рядом со словом «погода», один раз — со словом «прогноз» и ни разу — со словом «радость», то его векторное представление будет выглядеть так: [3;1;0]. Затем смысл (интент) каждого слова определяется по его ближайшим соседям: в приведённом примере это «погода».
Для каждого намерения есть специальная модель, которая выделяет полезную информацию в том, что сказал пользователь, — она называется семантическим теггером. Теггер для погоды по предложению «Будет ли завтра дождь?» понял бы, что завтра — это дата, на которую пользователю нужен прогноз.
Задавая вопросы, люди редко проговаривают всю нужную для ответа информацию, поэтому голосовому помощнику приходится её достраивать. Например, чтобы понять, погоду в каком городе хочет узнать пользователь, ассистент может либо переспросить пользователя, либо получить эту информацию сам, если на смартфоне включено определение геолокации. Только после этого помощник может дать подходящий ответ.
Как голосовых помощников учат быть человечными
Если запрос не подошёл ни под один из сценариев, то его перенаправляют в поиск или в модуль для неформальных разговоров — в Алисе его называют «болталкой». Голосовых ассистентов часто используют не для того, чтобы узнать или сделать что-то конкретное, а чтобы поиграть: спросить у помощника, какие книги ему нравятся или что на нём надето.
Эта задача решается при помощи редакторских ответов: команда авторов выбирает сотни наиболее популярных у пользователей вопросов и пишет по несколько вариантов ответа на каждый. Составлять ответы нужно в едином стиле, чтобы из них складывался цельный образ помощника.
У каждого голосового ассистента есть личность: пол, имя, черты характера и стиль речи.
Алиса не может позволить себе общаться с пользователем на «ты» и соблюдает дистанцию: здесь у неё есть прототип — Мэри Поппинс.
Поэтому помощница не любит, когда с ней начинают заигрывать и сразу одергивает пользователя.
Для ответов на неклассифицируемые вопросы и реплики голосовые помощники обычно используют нейросети, обученные на базе текстов из медиа, книг и кино. Так, Алиса учится на самых разных материалах, в которых персонажи в том числе ругаются и спорят — и может научиться совсем не тому, чего хотят разработчики.
Как и ребёнка, голосового помощника нельзя научить вести себя вежливо, ограждая от всего: то есть, обучая нейросеть на «чистом» датасете, где нет грубостей и прочих неприятных вещей, встречающихся в реальном мире.
Если ассистент не будет знать о существовании подобных выражений, то он будет отвечать на них бездумно, случайными фразами — ведь для него эти слова останутся неизвестными. Пусть лучше голосовой помощник знает, что это такое, и выработает определённую позицию по этим вопросам.
Обучение ассистентов — как обучение детей: они всему учатся постепенно и иногда ошибаются. И это нормально.
Как работает голосовой поиск и какой помощник лучше всех
Технологии распознавания голоса плотно внедрились в нашу жизнь. В смартфонах и даже бытовой технике появились виртуальные помощники, которые готовы выполнить команды, стоит только сказать слово. Что собой представляет данная технология, и какие компании представили свои решения — разбираемся вместе.
Как это появилось
Первые системы распознавания речи в 60-70-х годах определяли только цифры с невысокой точностью, поскольку многое зависело от диктора. Среди ведущих разработчиков были IBM и Bell.
В 70-80-х годах системы научились распознавать до 1000 слов, а точность определения повысилась до 80-90 %. С новым тысячелетием в гонку «речевиков» вступили Microsoft, Google и Apple, представив своих голосовых помощников.
Как работает распознавание речи
Каждая компания имеет свои авторские технологии, но в целом можно выделить несколько общих видов систем:
А еще могут использоваться методы скрытых Марковских моделей, блок распознавания на элементах ассоциативной осцилляторной среды и другое. Это сложные математические алгоритмы, в которые мы не будем углубляться.
Если рассматривать общую схему преобразования для современных голосовых помощников, то можно выделить несколько этапов.
Гаджеты слышат только звуковые колебания (волны) различных частот и амплитуд. Задача алгоритмов распознавания — выделить среди этого сигнала отдельные слова и распознать их. Вы заметили, что голосовой помощник Google и некоторые другие не работают без доступа к интернету? Все потому, что распознавание вашего голоса выполняется непосредственно на удаленных серверах.
Сигнал очищается от помех и выделяется значимая часть. Далее следует разделение на небольшие фрагменты — фреймы, которые накладываются друг на друга с определенным шагом. Длина такого «окошка» обычно 25 мс при шаге в 10 мс. Перекрытие необходимо для того, чтобы уловить не только звуки, но и момент перехода. В среднем для хорошего уровня распознавания требуется до 100 фреймов на одно слово.
После система начинает выделять признаки. Выполняется анализ спектральных и динамических характеристик речевого сигнала. Алгоритмы учитывают динамику и тембр речи.
Далее каждый фрейм пропускается через акустическую модель, в которой выделяются отдельные слова. Ориентиром служат небольшие паузы, которые мы обычно делаем между словами. Алгоритм высчитывает специальный порог (уровень сигнала). Все, что выше него, считается речью, ниже — тишиной (молчанием во время паузы).
Выделив предполагаемые слова, каждый фрейм обрабатывается нейронной сетью для поиска фонем — минимальных смыслоразличительных единиц языка. Система пытается определить, что конкретно было сказано в каждом фрейме и, сравнивая с базой, выдает наиболее вероятный результат.
Финальный шаг — граф-декодирование. Собранные вероятности анализируются, и выдается результат с учетом языковых особенностей. Система также учитывает вероятности перехода. Например, шанс, что два предлога будут стоять друг за другом, достаточно небольшой. Плохо распознанные слова также могут быть восстановлены по смыслу с учетом собранной статистики.
При использовании нейронных сетей распознавание речи даже с акцентом выполняется с точностью более 90 %.
Популярные голосовые помощники на смартфонах
Google Assistant — самый популярный помощник на Android, который базово вшит в ОС. Для работы нужно установить приложение Google (если его по каким-то причинам еще нет) и загрузить языковую базу. Для этого в главном меню приложения нажмите пункт «Еще» и зайдите в «Настройки». Откройте раздел «Голосовой ввод».
В этом разделе вы можете загрузить языки и включить активацию помощника по фразе «Окей Google». Дополнительно вызвать помощника также можно по нажатию центральной кнопки, если вы не хотите каждый раз произносить эту фразу.
Google Assistant умеет:
Siri — помощник от Apple. Его также можно включить или отключить в основных настройках гаджета. Чтобы активировать помощника, необходимо произнести фразу «Привет, Siri». Альтернативный вариант — нажать и отпустить боковую кнопку или клавишу «Домой». Siri способна делать поисковые запросы, управлять настройками смартфона, работать с картой и напоминаниями, открывать различные приложения.
Amazon Alexa — альтернативный помощник, доступный также на английском, немецком и японском языках. Его главная особенность — возможность интеграции в умный дом и управление гаджетами.
Cortana — голосовая помощница с элементами ИИ от Microsoft. Софт можно загрузить на устройства с Windows 10, Android, iOS, а также на консоль Xbox One. Помощник способен работать с личными данными и поддерживать беседу.
Алиса (Яндекс) — голосовой помощник, интегрированный в фирменный поиск от «Яндекс». В возможности Алисы входит включение музыки и видео, взаимодействие с другими сервисами «Яндекса», настройка будильника, напоминаний, чтение текста, QR-кодов многое другое. Алиса также может сыграть с вами в различные игры и поддержать беседу.
Маруся (Mail.ru) — самый молодой голосовой помощник, поэтому в программе могут быть баги и недоработки. Несмотря на это, Маруся имеет несколько особенностей. Например, она достаточно точно понимает завуалированные запросы вроде «Мне будет жарко сегодня на улице?» и способна запоминать все комментарии. Постепенно появляется интеграция с сервисами Mail.ru.
Для интеграции помощников в умный дом используются специальные станции.
Алиса присутствует не только в фирменных решениях от «Яндекса» — «Яндекс.Станции» и «Яндекс.Станции Мини», но и в умных колонках от LG, Dexp, Elari, Irbis и Prestigio. Маруся пока встречается только в оригинальной «капсуле» от Mail.ru.
Какой голосовой помощник лучше
Компания Loup Ventures в 2019 году провела подробное тестирование между Google, Siri, Alexa и Cortana. Каждому из помощников были заданы запросы в нескольких категориях:
В большинстве тестов лидером стал Google Assistant и лишь в разделе управляющих команд его опередила система от Apple.
Голосовой помощник на ПК
Пользоваться голосовым помощником можно и на персональных компьютерах и ноутбуках. Для этого понадобится доступ в интернет и подключенный микрофон.
В Windows доступна Cortana, которую можно скачать в Windows Store. Однако в списке поддерживаемых языков нет русского, а также приложение не будет работать на старых версиях ОС.
Cortana на ПК позволяет общаться с людьми, управлять расписанием, находить свободное время в графике, устанавливать напоминания и добавлять задачи. Чтобы включить Кортану, вам придется поставить в настройках Windows регион США, сменить язык на английский и перезагрузить компьютер. После этого в интерфейсе появится соответствующий тумблер.
В Google Chrome доступен поиск по голосу — достаточно на стартовой странице нажать иконку микрофона и произнести нужный запрос. Это не полноценный помощник — пользователи смогут голосом только запускать поиск в Google.
Алиса — наиболее продвинутое решение для ПК. Она уже встроена в последнюю версию Яндекс-браузера. Помимо стандартных возможностей, тут она может еще открывать каталоги на компьютере и даже запускать программы. Алиса автоматически распознает запрос, как только вы начнете говорить или произнесете ее имя, нажимать дополнительно на кнопку не нужно.
Siri уже предустановлена на Macbook. Для ее включения необходимо нажать аппаратную или программную кнопку. Также работает фирменная фраза «Привет, Siri».
К другим программам голосового управления компьютером относится:
Голосовое управление на ПК еще не столь востребовано, поскольку необходим микрофон, а большинство команд намного быстрее и удобнее выполнить с помощью привычной клавиатуры с мышкой.
Лучший голосовой ассистент: сравниваем 6 помощников
Что лучше, Алиса, Siri или Google Ассистент? А может, Маруся или Дуся? А ведь еще есть Alexa от Амазон. Разбираемся в плюсах и минусах и выбираем самого лучшего голосового помощника.
Алиса
Самый функциональный голосовой помощник среди официально представленных в России. Алиса, разработанная Яндексом, говорит на русском языке, поддерживает русскоязычные сервисы, работает на Android и iOS и может управлять системами Smart Home разных производителей. Бытовую технику и электронику с Алисой на борту выпускает Samsung, LG, Xiaomi, Polaris, Redmond, Philips и другие популярные компании.
При исполнении голосовых команд Алиса использует сервисы Яндекса: ищет информацию в одноименном браузере, узнает погоду на Яндекс.Погоде, данные о трафике — в Яндекс.Картах, ищет музыку с помощью приложения от Яндекса и так далее. Так что если вы активно используете эти сервисы и имеете подписку на Яндекс.Плюс, то сможете пользоваться Алисой в полной мере.
Также отметим, что именно этот голосовой ассистент сейчас активно интегрируют в умные колонки в России. Кроме основных функций помощника Алиса может стать и центром развлечений: играть с детьми в загадки, рассказывать сказки и анекдоты и даже произносить тосты. Полный список возможностей Алисы можно найти на ее страничке в Яндексе.
Преимущества
Недостатки
Ассистент Google
Голосовой помощник от Google по умолчанию установлен на все смартфоны на Android с поддержкой GMS — так как разработан той же компанией, что выпускает операционную систему.Обычно Ассистента предлагают настроить при первом включении устройства, несколько раз произнеся «Окей, Гугл». А далее помощник запускается либо по голосовой команде, либо с помощью долгого нажатия на кнопку «Домой».
Логично, что при работе он обращается к сервисам Google — ищет видео на YouTube, строит маршрут по картам Гугл и так далее. Также Ассистента поддерживают многие бытовые приборы — например, техника из экосистемы Mi Home.
Если рассуждать, кто лучше, Алиса или Гугл Ассистент, то можно отталкиваться от предпочтений пользователя: если вы чаще пользуетесь поиском, навигатором и другими сервисами Яндекса, то стоит поставить на телефон Алису. Если же вы верны Gmail, Google Картам и слушаете YouTube Music — то логичнее будет использовать родного Ассистента. Кстати, на айфонах помощник от Google тоже работает, правда, его приложение понадобится установить отдельно.
Преимущества
Недостатки
Помощница от Apple, которая по умолчанию стоит на айфонах и айпадах. Ее главное преимущество заключается в том, что Siri работает с системными приложениями Apple — с ее помощью можно отвечать на звонки и сообщения, создавать заметки и напоминания, настраивать будильник, прокладывать маршрут и так далее. Siri совместима с Apple Watch и даже поможет найти потерянные AirPods.
Сравнивая, какой голосовой помощник лучше, Алиса или Сири, снова надо учитывать, какими сервисами вы чаще пользуетесь. Если вы не используете сервисы Apple и работаете, например, с Яндекс Картами, вам будет удобнее использовать Алису, а не Siri. Также Сири поддерживает только Apple Music, на которую нужна платная подписка. Теоретически, для помощницы можно создать быстрые команды для работы с приложениями — но это делается на уровне разработки с помощью пакета инструментов SiriKit.
Преимущества
Недостатки
Маруся
Ассистент, разработанный российской компанией Mail.ru. Сервис молодой, но уже активно внедряется в бытовую технику и даже имеет свою умную колонку — Капсулу. По набору функций Маруся напоминает Алису, но использует сервисы родной компании — поиск и почту Mail, музыку ВКонтакте, онлайн-кинотеатр Wink. Ассистент умеет рассказывать новости и гороскопы, устанавливать будильники и напоминания, загадывать загадки и играть в слова.
Приложение Маруси не является частью какой-либо системы и устанавливается отдельно. Удобно, что оно доступно и для iOS, и для Android, и даже для устройств Huawei/Honor, так как представлено в AppGallery. Впрочем, Алиса там тоже есть.
Преимущества
Недостатки
Ассистент Дуся
Приложение Ассистента Дуси доступно в Google Play только для владельцев Android-смартфонов. Помощница понравится гикам и любителям самостоятельно настраивать функции программы, а не довольствоваться стандартным набором. В приложении уже есть более 150 готовых скриптов, которые автоматически запускают разные функции смартфона: навигацию, календарь, заметки и так далее.
Управлять Дусей можно и с помощью ПК или чата в Телеграм, отправляя в него текстовые команды. А еще ассистент распознает жестовое управление и поддерживает запуск функций напрямую из виджета. Главное преимущество Дуси — возможность настроить скрипты для практически любых приложений на смартфоне.
Преимущества
Недостатки
Amazon Alexa
Американский голосовой помощник впервые появился в умных колонках Amazon. В россии они не продаются, более того, программы Алексы нет в наших магазинах приложений. Вы сможете установить его на смартфон, только если в вашей учетной записи Apple или Google указана другая страна.
Ассистент не говорит по-русски и не поддерживает отечественные сервисы вроде Яндекса и Mail.ru. Тем не менее, вы сможете пользоваться им, если будете произносить команды на английском. С помощью Alexa можно запускать музыку из Apple Music и Spotify, создавать списки дел, редактировать свой календарь и искать информацию в интернете — в общем, все то же самое, что и у «наших» голосовых помощников.
Интересно, что помощник от Amazon поддерживает устройства умного дома Xiaomi — так что с его помощью получится управлять лампочками, пылесосами и другой техникой из экосистемы Mi Home.