freeCodeCamp/guide/russian/voice/index.md

7.7 KiB
Raw Blame History

title localeTitle
Voice голос

голос

Распознавание речи позволяет пользователям, испытывающим трудности с доступом (например, постоянное ухудшение зрения или временное ухудшение во время движения), возможность навигации по содержимому веб-сайта или ввода текстовых данных (например, формы).

Синтез речи предоставляет веб-сайтам возможность предоставлять информацию пользователям, читая текст.

API веб-речи Javascript

Web Speech API позволяет вам включать голосовые данные в веб-приложения, используя как распознавание речи, так и синтез речи.

Как работает API Web Speech

API WebSpeech использует собственную микрофонную систему устройства. Когда высказывание распознается из предопределенной грамматики (см. Ниже), оно возвращается как результат (или список результатов) в виде текстовой строки, а функции обратного вызова могут предоставляться для выполнения дальнейших действий.

Как использовать API SpeechRecognition

Вот простой пример использования SpeechRecognition API. Обратите внимание, что API запускается с new SpeechRecognition() и начинается с recognition.start(); называется. Он создает транскрипт из того, что получено, а затем добавляется к элементу <p class="transcript"> . Нажмите здесь, чтобы получить рабочую демонстрацию этого кода .

Это HTML, к которому добавляется расшифровка:


<main class="main"> 
  <span class="loader"></span> 
  <p class="description">What I think you said: <p class="transcript" data-js="varValue"></p></p> 
 
 </main> 

И вот JavaScript:

window.SpeechRecognition = window.SpeechRecognition || window.webkitSpeechRecognition; 
 
 const span = document.querySelector('[data-js="varValue"]'); 
 const main = document.querySelector('.main'); 
 const loader = document.querySelector('.loader'); 
 
 const recognition = new SpeechRecognition(); 
 recognition.lang = 'en-US'; 
 
 recognition.addEventListener('result', e => { 
    const transcript = Array.from(e.results) 
        .map(result => result[0].transcript) 
 
    span.textContent = transcript; 
    loader.textContent = ''; 
 }); 
 
 recognition.addEventListener('start', () => loader.textContent = 'Listening (enable your microphone)...'); 
 
 recognition.addEventListener('end', recognition.start); 
 recognition.start(); 

Alexa

Alexa - это голосовой сервис Amazon для облачных вычислений, доступный на десятках миллионов устройств от Amazon и сторонних производителей устройств. С Alexa вы можете создать естественный голос, который предлагает клиентам более интуитивный способ взаимодействия с технологией, которую они используют каждый день. Он способен к голосовому взаимодействию, воспроизведению музыки, составлению списков дел, настройке сигналов тревоги, потоковым подкастам, воспроизведению аудиокниг и предоставлению информации о погоде, трафике, спорте и другой информации в режиме реального времени, такой как новости.

Amazon Echo Device Range

  • Amazon Echo
  • Amazon Echo Plus
  • Amazon Echo Dot
  • Amazon Echo Look
  • Amazon Echo Show
  • Amazon Echo Spot

Фарфоровые микрофоны

Системы распознавания речи часто используют несколько микрофонов для уменьшения воздействия реверберации и шума. Эхо-микрофоны расположены в гексагональной компоновке с одним микрофоном в каждой вершине и одной в центре. Задержка между каждым микрофоном, принимающим сигнал, позволяет устройству идентифицировать источник голоса и отменять шум, исходящий из других направлений. Это явление известно как формирование луча.

В то время как современные системы распознавания речи достаточно хорошо работают в условиях микрофона с близким разговором, производительность ухудшается в условиях, когда микрофон находится далеко от пользователя.

Звук, захваченный эхом, будет зависеть от: 1) голос говорящего о стену комнаты, 2) фоновый шум снаружи, 3) акустический эхосигнал, поступающий от громкоговорителя устройства 4) выходной звук на стену комнаты.

Программного обеспечения

Программные компоненты на платформе включают в себя как Natural Language Understanding (NLU), так и автоматизированное распознавание речи (ASR). Эти программные компоненты могут быть задействованы специальными письменными «навыками» независимыми разработчиками программного обеспечения, которые затем сертифицированы по ряду стандартов Amazon. В магазине приложений уже есть более 20 тысяч этих пользовательских навыков.

IBM Watson Speech-to-Text API

IBM Watson Speech-to-Text использует машинное обучение для точного прогнозирования речи в реальном времени. В настоящее время поддерживается семь разных языков, а также живой голос и предварительно записанный звук. API можно использовать бесплатно, или платные версии доступны для приложений большего масштаба.

Больше информации

API веб-речи Alexa API API IBM Watson