中科院声学所:谱写智能语音和谐乐曲

17.03.2015  22:17
原标题:中科院声学所:谱写智能语音和谐乐曲

不久前,中科院声学所研究员颜永红带领团队,为其实验室——中科院语言声学与内容理解重点实验室(原名中科院声学所中科信利语音实验室)举行了13周年庆典。

而就在最近,他们又增加了一个庆祝的理由:该实验室和中科院新疆理化所合作开展的“基于海云计算的智能语音处理系统”获得2014年度中科院杰出科技成就奖。

这是该实验室在智能语音领域结出的又一枚硕果。

”研究上的新突破

此次获奖的“基于海云计算的智能语音处理系统”项目,是颜永红团队在智能语音领域多年成果的延续。

他告诉记者,该课题于2008年立项。当时,恰逢中科院副院长阴和俊正在谋划为新疆做点事。为响应号召,颜永红课题组便与新疆理化所合作开展该项目。

如今,“双语教学辅助软件”成为该系统最为人熟知的应用。同时,“基于海云计算的智能语音处理系统”还被用于国家安全领域。

现在‘双语教学’软件已经很成熟,课题也在2014年告一段落。”颜永红说,“但这只是理论上的结束,我们的研究工作还在进一步深入。

在颜永红看来,“基于海云计算的智能语音处理系统”不是单一课题,而是许多研究内容的结合。“这是在多年智能语音系统研究基础上取得的新突破。

没有大的团队,做不了大的事情

短短13年,中科院语言声学与内容理解重点实验室已成为世界上最先进的智能语音实验室之一。“没有什么捷径,我们是一点一点靠竞争活下来的。”颜永红说。

此次获奖项目的主要完成者之一张鹏远,在2004年到声学所攻读博士学位,并成为颜永红的学生。如今已是副研究员的他向记者回忆说:“我刚来时,实验室也不过十几个人,在一层的小房间里。但实验室会抓住每个项目锻炼大家。我记忆特别深刻的是,有一次接到北航的项目,有10万元,那时候绝对是大手笔,大家都下决心要好好完成。

令颜永红自豪的另一件事情是,不同于其他实验室一个课题组一个账本,语言声学与内容理解重点实验室自成立之初便是一个集体、一个账本。“我们实验室有90多位工作人员、40多名学生。这么大的实验室,到现在也只有一个账本。”在颜永红看来,没有大的团队,做不了大的事情。

在这样的理念下,颜永红带领着“大团队”在智能语音领域摘得一个又一个果实:2004年,研发出国内第一款手机语音助手;2006年,开发出国内第一个电信级语音识别引擎;2007年,在步步高、诺亚舟学习机中应用中国第一款语音发音评估矫正软件;2009年,研发出国内第一个语音云,并将其应用于百度语音搜索;2010年,在即时通讯领域开发大规模语音输入,并在腾讯QQ中应用;2013年,研发出中国第一款智能语音客服系统,应用于阿里巴巴……

因为兴趣的坚持

如今,智能语音行业炙手可热,研究院所面临着企业来“挖人”的现象。颜永红和他的团队也不例外。

颜永红的学生、此次获奖项目的主要完成者之一张晴晴告诉记者,如今她和张鹏远带的一些学生一毕业便会被大公司挖走。

另一位课题主要完成者、2009年通过中科院海外引进人才来到声学所的周若华也表示,虽然与中科院其他研究所相比,实验室的待遇并不算差,但和大公司还是有很大差距。“所以,留下来坚持作研究的都是真的喜欢这个领域,是因为兴趣。

留下作研究就要面临做科研的困难。“做科研,晚上加班是家常便饭。”颜永红说,“我们实验室一周七天经常灯火通明。当然,为课题作必要的付出是常有的事。

2008年从北大本科毕业来到声学所硕博连读的李鑫,一到声学所便参与到“基于海云计算的智能语音处理系统”课题中。为了“双语教学”软件的开发,李鑫从2008年开始自学维语发音。

正是在兴趣的驱动下,团队成员在智能语音领域取得了丰硕的成果。

如今,颜永红和他的团队除了开展国家相关课题,还积极参与民用智能语音的应用工作。“我们基本上每年做一个新产品,一定是最前沿的技术和引领性的应用。”颜永红认为,在多媒体时代,智能语音处理技术前景大好,但这些技术在民用市场的应用还不够广。“原因有两个:一是智能语音处理技术计算量太大,使用成本还相对较高;二是该项技术还没有足够好。因此,智能语音在民用市场的普及还需要一段时间。”(王俊宁)