语音识别:用声音与世界联通
“侬好”“雷猴”,我国地域广阔,汉语方言众多,但百度语音识别技术能准确识别上述方言的意思为“你好”,这是百度硅谷人工智能实验室推出的全新深度语音识别系统(Deep Speech2)的突出特点之一。日前,美国杂志《麻省理工评论》将该系统列为2016年十大突破技术之一,并称百度在世界语音交互技术领域做出了突出贡献——将语音识别和自然语言理解相结合,为世界上最大的互联网市场创造了切实可用的语音接口。
早在2014年底,百度硅谷人工智能实验室即发布了第一代深度语音识别系统(Deep Speech),通过采集9000余人共计7000小时的语音会话片段,将这些片段与包含餐厅、地铁、火车等公共场所的背景噪音相结合,进而形成了10万小时左右的语音会话数据集,并通过端对端的深度学习技术对外界的声音和其他数据进行识别,从而大幅提升了嘈杂环境下的英语语音识别的准确率。
一年后,该实验室针对语音识别技术再次取得突破性进展,研发出全新的第二代深度语音识别系统(Deep Speech2)。这一系统构建了“深度的神经网络”,能将声音与单个字或短语关联起来,同时基于数以百万计的转录语音,使得该系统在识别汉语语音方面要比人为识别更加准确。据了解,该技术能使语音识别相对错误率比现有技术降低15%以上,使汉语安静环境普通话语音识别的识别率接近97%。
由于汉语拼音由声母和韵母共同组成,在移动产品终端上进行汉字拼写输入十分繁琐,因此我国是发展语音接口的理想市场。目前,百度深度语音识别系统已将用户从传统的拼写输入汉字发出指令中解放出来,实现了语音输入。同时,该技术也被应用在百度新闻APP中,用户可以下拉新闻列表呼出语音播报功能,富有磁性的男声就会开始朗读最新的新闻信息。
据了解,截至2015年底,百度针对相关技术已提交中国专利申请500余件,通过《专利合作条约》(PCT)途径提交专利申请30余件,技术涉及语音识别、语音合成、声纹识别、声学信号处理等。同时,百度积极联手海尔、京东等公司联合发起成立了智能语音知识产权产业联盟,旨在通过组建专利池,引导和促进语音技术跨行业的实施和应用,推动语音相关产业的发展,同时降低国内企业的专利侵权风险。
随着百度语音技术的不断进步和专利布局的愈发完善,语音识别技术将更广泛地运用于人们与各种设备的互动。不久的将来,语音识别技术将不再局限于几个预设的命令,用户将可以通过语音虚拟助理控制家中所有的智能电器,甚至实现与智能家居的对话交流。(知识产权报 胡姝阳)