Система работает таким образом, что голосовой помощник в умной колонке постоянно слушает пользователя, но начинает записывать данные только тогда, когда произносится его имя.
Много математики и никакой магии: как на самом деле работают голосовые помощники
Число пользователей голосовых помощников в России уже превысило 52 миллиона. Многие из нас уже привыкли использовать умные устройства для прослушивания музыки, поиска информации и открытия дверей. Но мало кто знает, как на самом деле работают эти устройства. Станислав Протасов, кандидат физико-математических наук, доцент лаборатории машинного обучения и представления данных Университета Иннополиса, рассказывает, как дикторы понимают нас, превращают наши слова в цифры и взаимодействуют с любыми сервисами.
Читайте Hitech на сайте.
Помощник Цукерберга и операционная система «Саманта»: два вида голосовых систем
Я работаю в лаборатории машинного обучения и представления данных. Я преподаю два курса в университете: один — по прикладному машинному обучению и искусственному интеллекту. Другая тема — поиск и его разновидности. На пересечении этих тем находится область, о которой я хочу поговорить сегодня.
Есть два способа взглянуть на голосового помощника. Представьте, что у вас есть виртуальный дворецкий. Например, Марк Цукерберг около пяти лет назад встроил в свой дом умного помощника, которого он назвал Jarvis. Он мог впускать людей в дом, открывать и закрывать двери и шторы, включать свет. Другие примеры — «Алекса» и «Алиса», которые живут в устройстве и могут улучшить жизнь. Они могут управлять духовкой, стиральной машиной, пылесосом и так далее.
Другой способ взглянуть на помощников — это интерфейс. В фильме «Она» была операционная система по имени Саманта, у которой в русской озвучке был тот же голос, что и у Алисы из «Яндекса». Она служила интерфейсом для управления операционной системой и не была задумана как помощник. Siri от Apple, Согтапа от Microsoft и Google Assistant от Google используют этот подход.
Как они работают?
Все ассистенты основаны на очень похожем принципе. Во-первых, вы должны прислушаться к голосу. Это происходит на устройстве пользователя — мобильном телефоне или умной колонке. Пользователь говорит: «Алиса», «Алекса», «OK Google». После этих волшебных слов устройство готово к записи голоса пользователя. Так происходит до определенного момента — пока клиент не замолчит или пока устройство не устанет ждать, пока он замолчит. Затем данные отправляются на сервер компании, предоставляющей услугу.
Именно здесь начинается волшебство. Первая функция — преобразование речи в текст. Каждый человек говорит по-своему, как преобразовать это в текст? Затем начинается то, для чего мы используем голосовых помощников — предоставление услуг. Это любая функция, которая доступна в Интернете — покупка билетов, заказ столика в ресторане. Вопрос лишь в том, как создать удобный для пользователя интерфейс. Если его нет, устройство становится динамиком.
После обращения к услуге пользователю необходимо получить результаты, а для этого их нужно правильно упаковать. Это может быть текст, сообщение с веб-сайта, песня или данные, которые вычислил компьютер. Данные переводятся обратно в речь и передаются клиенту.
Но дело не только в способности голосовых помощников воспринимать эмоции или конверсии. Похоже, что системы становятся самодостаточными только тогда, когда их дополняют другие устройства. Например, очки AR, которые добавляют визуальный элемент к голосовому управлению.
О Siri – голосовом помощнике Apple
Голосовой помощник Siri создан для того, чтобы пользователи могли делегировать ей рутинные задачи. В частности, Siri может напомнить вам о важном звонке, сама совершить звонок, отправить сообщение, установить будильник и многое другое.
С Siri вы можете легко общаться в чате, задать вопрос и получить быстрый ответ или попросить пошутить. Чтобы узнать больше о возможностях этого голосового помощника, посетите официальный сайт.
Особенности, преимущества и недостатки голосового помощника Siri
Голосовой помощник Siri обладает некоторыми функциями, о которых большинство пользователей не знают по незнанию:
- Siri позволяет настроить экран уведомлений от различных приложений и веб-сайтов.
- С помощью этого голосового помощника можно фильтровать файлы по дате. Например, вы можете попросить Siri показать заметки, созданные в определенный день.
- Если вы не можете выбрать один из двух вариантов, попросите Siri подбросить монетку или выбрать карту.
- Голосовой помощник Siri имеет встроенную функцию распознавания музыки (аналогично приложению Shazam). Чтобы узнать, какая песня играет, просто задайте Siri соответствующий вопрос.
- В большинстве случаев вы можете управлять телефоном с помощью голосового помощника.
Большим преимуществом является то, что Siri может взаимодействовать с различными сервисами Apple. Например, на вопрос, какая песня играет, Siri находит ее и автоматически открывает в Apple Music, чтобы пользователь мог добавить ее в свой плейлист.
К недостаткам можно отнести следующее:
- Siri еще не умеет отличать одного пользователя от другого.
- Иногда ее ставят в тупик даже самые простые вопросы.
- Невозможно установить несколько таймеров одновременно, что необходимо в некоторых случаях.
- Генератор голоса звучит не очень естественно.
О «Алисе» — голосовом помощнике от Яндекса
Алиса — голосовой помощник от Яндекс. Алиса может найти нужную вам информацию во Всемирной паутине, узнать, что изображено на фотографии, вызвать рассказ, найти место для ужина, рассказать о погоде и т.д. Вы можете узнать обо всех возможностях Алисы на официальном сайте этого голосового помощника. Алиса может самостоятельно получать доступ к различным сервисам Яндекса и запускать различные приложения.
Несколько статистических данных от YouGov: Apple Siri и Google Assistant занимают 36% рынка, Amazon Alexa — 25%, а Microsoft Cortana — 19%. И мы считаем, что это далеко не все.
Как работает Алиса
Робот может выполнять следующие действия:
- Голосовое управление,
- распознавание голоса,
- перевод текста в речь,
- заполнять пробелы в устной речи,
- распознавание объектов,
- окна,
- контекстуальная поддержка,
- извлечение,
- давая конкретные ответы.
Машина обучена выполнять эти действия. Яндекс использует данные из своих приложений и сервисов для сбора информации. Чтобы поговорить с Алисой, просто скажите: «Давай пообщаемся».
Что умеет голосовой помощник Алиса
Основные функции виртуального помощника — сбор информации. Вот что вы можете спросить у голосового помощника Алисы
- Прогноз погоды,
- обменные курсы,
- конверсия,
- маршруты и пробки,
- запускает сторонние приложения,
- находит адреса,
- Поиск в Интернете, он также может
- откройте службу Яндекс.Музыка,
- находить и открывать нужные файлы на устройстве,
- говорят они в шутку,
- общаться с вами на отвлеченные темы.
На простые вопросы виртуальный помощник отвечает прямо в окне чата. Если запрашиваемая информация превышает его возможности, открывается страница поисковой системы.
С помощью Алисы можно проверить электронную почту, открыть браузер или запустить музыку со смартфона. Возможности помощника с искусственным интеллектом постоянно расширяются.
Алиса сэкономит вам много времени на поиск информации и планирование маршрута. А когда вам становится скучно, она развлекает вас разговором и смешит шуткой.
Сравнение с другими голосовыми помощниками
Главное преимущество Алисы по сравнению с другими виртуальными помощниками в том, что она свободно говорит по-русски — как письменно, так и устно, — что делает общение пользователя с роботом живым и приятным. Кроме того, помощник Яндекса — это первое в мире речевое приложение с искусственным интеллектом, которое может вести разговор на любую тему. Алиса проста в освоении и может быть адаптирована для любого пользователя.
Для смартфонов приложение необходимо загрузить с официальных торговых площадок — Google PLay для устройств Android и App Store для систем iIOS. Что касается версии для ПК:
- В Windows 10 встроена Алиса, вам просто нужно включить поисковую систему Яндекс,
- Для ПК с более старыми версиями Windows можно загрузить бета-версию с официального сайта Alice.
Алиса доступна для Windows 7 и выше, но если вы используете Internet Explorer, вам понадобится версия не ниже 9. Чтобы получить помощь от виртуального голосового помощника, вам понадобится микрофон.
— Широкая семантика — высокий CTR — низкое внимание — только целевые посещения.