JavaScript如何实现语音识别_Web Speech API如何工作?

JavaScript语音识别主要依靠Web Speech API的SpeechRecognition接口,需检查浏览器支持、创建实例、设置属性、绑定事件并调用start()启动;存在HTTPS依赖、移动端兼容性差及无法自定义模型等问题。

JavaScript 实现语音识别主要依靠浏览器原生支持的 Web Speech API,其中核心接口是 SpeechRecognition(目前在 Chrome、Edge 等基于 Chromium 的浏览器中稳定可用,Firefox 有部分支持但需手动启用)。它不是调用第三方服务,而是直接利用系统麦克风和本地/云端语音引擎完成识别,响应快、隐私性较好(语音数据可不离开设备)。

Web Speech API 语音识别的基本流程

整个过程是事件驱动的:开启识别 → 用户说话 → 浏览器处理音频 → 返回文本结果。关键步骤包括:

  • 检查浏览器是否支持 window.SpeechRecognition 或其带前缀版本(如 webkitSpeechRecognition
  • 创建识别实例,设置属性(如 continuous: true 支持连续识别,interimResults: true 允许返回中间结果)
  • 绑定事件:onstart(开始收音)、onresult(拿到识别文本)、onend(识别结束或中断)
  • 调用 recognition.start() 启动,用户授权麦克风后自动开始监听

一个最小可用的语音识别示例

以下代码可直接在支持的浏览器中运行(建议用 HTTPS 环境,HTTP 下部分浏览器会禁用麦克风):

const SpeechRecognition = window.SpeechRecognition || window.webkitSpeechRecognition;
if (!SpeechRecognition) {
  console.error('当前浏览器不支持 Web Speech API');
} else {
  const recognition = new SpeechRecognition();
  recognition.continuous = false;    // 识别一次后停止
  recognition.interimResults = true;  // 返回实时中间结果
  recognition.lang = 'zh-CN';         // 设为中文

  recognition.onresult = (event) => {
    const result = event.results[0][0].transcript;
    const isFinal = event.results[0].isFinal;
    console.log(isFinal ? '最终结果:' + result : '暂定结果:' + result);
  };

  recognition.onstart = () => console.log('开始监听...');
  recognition.onend = () => console.log('识别已结束');

  // 点击按钮触发识别
  document.getElementById('start-btn').onclick = () => recognition.start();
}

常见问题与注意事项

实际使用中容易遇到几个典型问题:

  • 权限被拒绝或未触发授权弹窗:确保页面通过 HTTPS 提供;首次调用 start() 才会触发麦克风请求,不能提前预检权限
  • 识别不准或无响应:确认系统麦克风正常、环境安静;lang 必须准确(如 'zh-CN' 不是 'zh');部分浏览器对 interimResults 支持不稳定
  • 移动端兼容性差:iOS Safari 完全不支持该 API;Android Chrome 支持较好,但部分定制 ROM 可能禁用
  • 无法控制语音模型或自定义词库:Web Speech API 是黑盒,不开放模型训练或热词优化能力;如需更高精度,需对接科大讯飞、百度语音等第三方 SDK

替代方案与增强思路

当 Web Speech API 不满足需求时,可以考虑:

  • MediaRecorder 录制音频流,上传至云语音服务(如阿里云智能语音交互、腾讯云语音识别)做识别,获得更准结果和更多配置项
  • 结合 Web Audio API 做前端语音活动检测(VAD),避免静音段误触发识别
  • SpeechSynthesis 实现语音反馈,构成“听-说”闭环,提升交互体验