bits of knowledge: software development, technology, management, engineering and more

Яндекс.Станция: неочевидное и примечательное


Конструкция

Яндекс.Станция — это голосовой ассистент, который также презентует информацию визуально на подключенном телевизоре или мониторе (через HDMI).

Некоторые подсистемы из которых состоит Станция:

  • колонка (5 акустических элементов, в сумме 50 Вт);
  • платформа Yandex.IO: главная плата + микрофонная матрица (7 микрофонов).

На платформе крутятся приложения: Алиса (голосовой помощник), приложения для стриминга музыки, кино, браузинга и стриминга видео-роликов в Интернете (например, с ютуба).

Как говорят системные инженеры, все перечисленные выше подсистемы складываются в целевую систему, которая обладает эмерджентностью, то есть дает новое качество, отсутствующее у подсистем. Это качество — быть голосовым ассистентом.

Полезность

Именно в Яндекс.Станции качество «быть голосовым ассистентом» прямо-таки очень круто вписывается в домашнее хозяйство.

Сильно больше музыкального разнообразия дома стало. Больше роликов Arzamas с youtube за завтраком. И вообще интуитивно порываешься отдавать голосовые команды всему в доме.

Двухлетний ребенок, побывавший в гостях, мгновенно стал повторять за взрослыми «Алиса, поставь смешариков». Алиса не разбирала детскую малоразборчивую речь, но суть в том как легко дается управление человеку. Даже если он еще человечек. Ребенок уехал из гостей и у себя дома, где нет Алисы, говорил в пустоту «Алиса, смешарики».

Антропоморфизм — перенесение человеческого образа и его свойств на неодушевлённые предметы. И в общении с Алисой он неизбежно проявляется у тебя. Говоришь и думаешь о ней как о человеке. Например, Алису можно попросить прочесть новости и, похоже, она делегирует эту задачу другому приложению, которое зачитывает новости мужским голосом. Один комментатор с ютуба об этом сказал: «новости читает другой голос», «сама Алиса читать новости и статьи пока не умеет». То есть как-то не воспринимаешь, что делегирование задумано специально и ожидаешь, что раз попросил Алису, то она пусть и читает. А она не умеет.

Siri и Алиса в телефоне как-то не влилась в жизнь дома. А в случае со Станцией ряд примененных технологий сделал достаточно улучшений, чтобы критическая точка была пройдена и ассистент стал частью жизни.

Очень крутая игрушка.

Платформы

Подмодуль Станции — платформа Yandex.IO — является отдельным продуктом. Яндекс приглашает производителей девайсов обращаться и обещает помощь в интеграции платформы в эти девайсы. На лендинге сейчас даже утюг нарисован с Yandex.IO внутри, как возможный девайс.)

Уже есть в продаже устройства, использующие Yandex.IO, но пока, судя по описанию, это просто те же Станции, но в мини формате и без HDMI.

Возможно, Яндекс сделает (сделал?) платформой и саму Станцию. Во-первых, для Алисы можно будет делать т.н. «скиллы», которые есть для десктопной Алисы, но пока нет для Алисы из Станции. Во-вторых, Яндекс может позволить производителям софта делать целые приложения для платформы Yandex.IO. Например, рядом с Яндекс.Музыкой мог бы быть Spotify.

Звук

Качество звука неплохое, но все же даже меньшего размера Sony SRS-X5 дает звук лучше.

Текущий уровень громкости визуализируется с помощью круговой подсветки: по мере увеличения громкости цвет меняется с зелёного до жёлтого и затем красного.

В «красном» режиме, то есть на максимальной громкости, подразумевается, что Станция не будет слышать команды. И здесь включается технология Adaptive Crossfade, которая улучшает звук, уходя от компромиссов ситуации, когда Станции надо и проигрывать звук и слышать команды. Во-первых, для лучшего звука перенаправляются средние частоты (частоты речи) с одних динамиков на другие. Во-вторых, включается стерео. Иными словами, максимальное качество есть только на максимальной громкости.

Если снять кожух, то это определенно добавит Станции децибел.

Станция может работать и просто как Bluetooth-колонка. Надо сказать «Алиса, включи Bluetooth», потом найти Станцию в списке Bluetooth-устройств, например, с айфона. И запустить музыку с айфона.

Пока играет музыка с Bluetooth к Алисе обратиться невозможно.

Кожух

Кожух можно снять. Инструкция «надавить на кожух с двух сторон и стянуть» не дала нужный результат. Но вот если давить рядом с «пластиковой дорожкой» (с гнездами для кабелей) и не стягивать, а выдавливать Станцию из кожуха, то кожух снимается легко.

Микрофоны и прием команд

Микрофонная матрица — отдельная плата с 7 простыми микрофонами, которые, работая согласованно, создают хороший относительно недорогой направленный микрофон.

Нажатие кнопки Mute на корпусе отключает полностью от питания микрофонную матрицу, которая подключена к отдельному контуру питания. То есть все микрофоны оказываются физически обесточены. Очень примечательно, что Яндекс выявил потребность гарантированной приватности, как важнейшую потребность пользователя.

Голосовая активация и обработка некоторых базовых команд («вперед», «дальше») производится через локальную нейросеть. Для обучения на каждое слово, например, «Алиса», сделано около 100 тысяч записей.

При разборе команд платформа Yandex.IO творит магию, среди прочего это

  • Direction of Arrival — определение направления прихода команд
  • Beamforming — формирование направленного сектора приема команд
  • Noise Suppression — шумоподавление
  • De-reverberation — устранение реверберации
  • Acoustic Echo Cancellation — нивелирование звука самой Станции и его отражений

После всех этих процедур речевые команды уходят на сервера для полноценного распознавания нейросетями.

Полезные трюки

Чтобы заставить Алису, например, найти нужное видео на ютубе надо добавлять такие слова как «найди в сети» или «найди в интернете», «youtube». Так можно и пиратский контент смотреть.

Самый частый трюк: ищешь в телефоне видео, которое тебе нужно, потом просишь Алису его найти на youtube и запустить. Если у ролика достаточно специфическое название, то он находится легко.

Станция настраивается через приложения Яндекс на смартфоне. Там пользователь регистрируется, подписывается на сервисы, оплачивает покупки. Там же можно отключить ограничения на контент и Станция сможет искать и стримить даже порно. (Это свойство помогло выбрать название параграфу: «полезные трюки»).

Алиса до некоторой меры учитывает контекст команд. Например, если уже загрузились превью ряда видеороликов, то следующая команда будет интерпретирована в этом контексте: будет запущено видео из найденного, а не из Кинопоиска, например.

Хороший трюк сказать: «Алиса, вернись на главный экран». Главный экран содержит демо с примерами фраз. Это еще и обнуляет контекст.

Команды «дальше» и «вперед» используются во время браузинга по роликами и разбираются локальной нейросетью, поэтому не требуют предварительного обращения «Алиса».

Можно купить две Станции разных цветов, поменять им кожухи, получить уникальные цветовые сочетания и одну Станцию подарить.)

Yandex.Stations colors

Будущее

Обновления софта приходят через Инет и пользователь этим никак не управляет, похоже.

  • Ожидается, что в скором времени, благодаря обновлениям, Станции будут общаться, объединяться. Цели такого объединения могут быть самыми разными. Например, так можно создавать стереозвучание.
  • Слово «Алиса» можно будет использовать в любой части предложения при обращении к Станции, а не только в начале.
  • Добавятся новые языки. Сейчас Станция говорит только на русском, но понимает вставки на английском: названия песен, слово «youtube». Вставки на украинском не удалось заставить понять.
  • Очевидно будут скиллы, как у Amazon Alexa.
  • Вероятно, будут полноценные сторонние приложения.
  • Множество устройств на платформе Yandex.IO будет включать не только домашнюю технику, но и автомобиль и все что угодно на одном аккаунте. Что создает не просто умный дом, а умное распределенное домохозяйство.
  • На многих устройства, наверняка, уже не будет кнопки «обесточить микрофоны».

Comments