多语种混合语音识别关键技术研发与应用

云知声(上海)智能科技有限公司    上海师范大学

云知声(上海)智能科技有限公司(以下简称云知声)是一家人工智能高新技术企业,专注于物联网人工智能服务,是世界领先的智能语音识别AI技术企业之一。云知声利用机器学习平台,在语音技术、语言技术、知识计算、大数据分析等领域建立了领先的核心技术体系,这些技术共同构成了云知声完整的人工智能技术知识图谱。

云知声连续两年入选福布斯中国最快科技成长公司50强企业,是中国人工智能行业成长最快的创业公司之一,其在智慧家居、车载、医疗、安防、教育等方面的人工智能应用居于国内领先地位,已形成较好的“云端芯”生态闭环,如下图所示。

图1 云知声“云端芯”生态

云知声一直积极与高校、科研院所开展产学研合作,先后与上海师范大学、西北工业大学、中科院自动化研究所、中医药信息研究所建立了联合实验室,主要围绕智能语音、知识、认知计算等核心技术研发、应用等方面开展深入合作,同时联合培养高层次的AI人才,加速人工智能相关技术的产业化进程。

上海师范大学是上海市重点建设的综合性大学,学科门类齐全,覆盖面比较广。在其“厚基础、重实践、国际化”的人才培养理念指导下,学校在教育、心理、语言、计算机科学等与人工智能紧密相关的学科领域具有自己优势。

云知声与上海师大信息与机电工程学院围绕人工智能在人机交互技术、多学科融合以及产业化应用中的一些关键性、综合性问题开展了产学研合作。“多语种混合语音识别关键技术研发与应用”是其中的一个项目。

一、产学研合作的主要做法

云知声与上海师大信息与机电工程学院在产学研合作过程中,秉持诚信,在风险共担、利益共享、平等互利的合作机制的基础上,主要围绕以下六个方面开展产学研合作。

1、企业为高校提供稳定的科研经费

在合作项目完成后,云知声采用上海师大研发团队提供的多语种混合语音识别关键技术,更新了其在人工智能领域中医疗、教育、家居、车载等各个语音识别平台及线上服务的引擎,改善了其产品的用户满意度,为企业带来了较好的经济效益和社会效益。企业又将其利润的一部分反哺到研发单位,双方在该项目结题后,于2017年11月签订了继续合作协议,每四年为一个合作周期,每年持续向高校提供稳定的科研经费(详见附件——自然人机交互联合实验室合同)。比如2018-2019年,企业就为上海师范大学提供50万科研经费。

2、企业邀请高校研发骨干参与企业研发计划、方案的讨论与制定

云知声在与上海师范大学研发团队前期合作基础上,双方建立了良好的信任关系。云知声内部有专门负责人工智能核心技术研发的AI Labs部门。云知声每一年都会邀请高校的研发团队负责人龙艳花教授及团队骨干参与到其AI Labs部门的研发计划、研发方案及制度等的制定。

图2 云知声CTO在上师大做讲座

3、企业与高校共建研发中心

2017年11月22日,上海师范大学与云知声合作共建的“自然人机交互联合实验室”正式揭牌并签约成立。该联合实验室的成立,是产学研协同发展谋求共赢的需求,是对国务院发布的人工智能国家战略规划的积极响应,也是对人工智能新浪潮中发展机会的主动把握。

双方以该联合实验室作为持续合作的平台,以工业界实际应用需求为导向,双方结合自身优势,企业在科研平台建设、大数据资源共享、成果转化及研发经费等方面给予支持,同时结合上海师范大学学科门类齐全的优势,与教育、心理、语言等优势学科开展深入持续的合作。共同研究人工智能领域中人机交互技术中的一些关键性、综合性问题,研究人工智能多学科融合及产业应用等问题。校企双方利用该平台,共同为人工智能领域的科学研究与工程实践培养高质量的人才(主要是硕士研究生、博士研究生的联合培养)。

合作双方在建立长期合作的基础上,分别建立了“上海师范大学产学合作教育基地”(2016年成立),以及“上海师范大学-云知声自然人机交互”联合实验室(2017年成立),双方共同投资建设,通过内外部资源的整合,搭建协同育人新平台。

更进一步地,云知声拟在2019年成立云知声(上海)人工智能研发中心,并计划邀请合作单位骨干教师加入研发团队(预计总规模人数约200人),共同围绕相关的人工智能应用核心技术开展研发工作。

图3 自然人机交互联合实验室挂牌仪式

4、企业为合作单位研发团队提供实验平台和数据资源

学校可在语音语言学方面的前期积累资源,廉价的录音场地和学生劳动力资源,以及海量的文献资源方面等进行校企共享;而企业为高校研发团队提供快速高效的高性能计算实验平台,如云知声提供的“面向深度学习应用的大规模异构并行计算平台Atlas和SGE”,研发团队及其学生可以在这2个平台上进行研究实验。另外,企业方因为有海量的用户,可从实际应用中收集到海量的实际应用场景下的语音数据,为新算法的成功研究及实验验证提供了强有力的支撑。特别是语音识别方面的实际数据,对于基于深度学习的人工智能算法的研究至关重要。因此,企业还会动态地给合作单位科研团队提供海量的语音数据资源,加速合作研发单位的核心技术研发进程。

5、合作高校为企业培养科技人才,搭建协同育人新平台,企业为学生提供实习机会

合作双方在建立长期合作的基础上,分别建立了“上海师范大学产学合作教育基地”(2016年成立),以及“上海师范大学-云知声自然人机交互”联合实验室(2017年成立),双方共同投资建设,通过内外部资源的整合,搭建协同育人新平台。

依托联合实验室,一方面是开展以企业产品实际应用中遇到的问题为导向的科学研究工作,主要为智能语音信息处理相关方面的前沿基础性算法研究;另一方面是高层次的科技人才培养工作。通过与企业的合作,能够及时、准确、快速的从实际应用中发现的问题,提出创新性的解决问题的算法。这使高校的科学研究能真正用于指导工程实践。通过实战实练,使得学生能在解决实际问题的科学研究过程中,逐渐掌握跨专业知识,锻炼出较强的工程实践能力,具备参与较复杂工程项目的工作经验。学生毕业后,可以在智能语音信息处理或人工智能相关领域的行业企业中,担任重要的算法研究和技术开发工作。同时,这些共同培养的人才也为云知声提供了科技人才储备,为AI行业培养了高质量的科技人才。

6、创建良好的校企科技人员互访机制

一方面,高校的科研团队与云知声的AI Labs研究团队频繁到对方单位做学术报告,交流学术思想、工程实践中的技巧等。

另一方面,高校科研人员还定期到企业进行产学研践习,提升师资队伍的科研和工程实践水平。如在学校的支持下,2016/6-2017/6期间,负责课题项目的高校负责人到云知声进行了为期一年的产学研践习。同时,通过这样的校企合作,也提升了双方核心技术在国际上学术界的影响力。

高校也定期邀请了企业的工程师或科技人员到高校实验室为师生做学术讲座或上课,并担任学生毕业设计的企业导师,指导学生开展一些毕业设计工作。上海师范大学还邀请了云知声的董事长兼CTO梁家恩博士担任上海师范大学的国家级“新工科”研究与实践项目《面向“人工智能+教育”的新工科复合型人才培养模式探索与实践》的企业导师。

7、校企合作双方合作完成技术成果的产业化

云知声邀请学校团队的科技人员参与技术成果转化,共同解决其产业化过程中遇到的一些问题,并根据双方协议,按贡献的大小增加企业每一年对高校研发团队的经费支持。

图4 2018年联盟计划证书

二、产学研合作取得的主要成绩

1、合作项目的技术较先进,具有较好可转化性和实用性

多语种混合语音中的插入语中原用语引起的非母语口音现象,不同语种的语音在发音单元、词典结构、发音风格和方式等各方面的差异,都给混合语音的识别增加了很大难度。

但随着语音识别技术应用的不断推进,很多应用场合对多语种混合语音识别的需求急剧增加,特别是在像新加坡这样的多语种混合说话的国家,或者上海这样的国际化大都市中,其应用需求更为迫切。比如,英语作为中国人的第一外语,已经被自然而然地穿插在以汉语普通话为主的日常交流中,由于其表达的便利性被越来越多的人认可,普通话夹杂英语单词的混合语音识别也自然成为很多用户的基本需求。因此,该项目的研发符合市场的需求,其成功研发能为企业带来较好的经济效益,也具备较好的社会效益。

上海师大项目组成功研发了三项原创的关键技术:①基于数据驱动的自动合并不同语种相似音子算法;②通用混合语音声学模型自适应算法;③基于识别任务驱动的声学和语言模型训练方法。基于这三项技术搭建的普通话+英语混合的语音识别系统,从性能上看,相比较原有的单语种,即纯普通话语音识别系统而言,在混合语音识别的任务上,混合语音识别系统性能远超过纯普通话语音识别系统。如果只识别英语语音,混合语音识别系统比纯普通话的语音识别系统的优势则是从无到有的,有了质的提升。除了汉语普通话+英语的混合语音识别之外,研发的算法还具有较好的可推广性,如果要将其应用到其他混合语种的语音识别应用中,比如粤语+普通话的混合语音,只需要做一些较小的改动即可,比如替换发音词典和模型训练语料即可。

该项目研发的技术通过查新,查新报告中指出该项目具有新颖性,其综合技术达到国内领先水平。

2、项目带动了云知声的技术进步,取得较好的经济效益和社会效益

该合作项目解决了云知声现有的语音识别服务引擎在多语种混合语音识别任务中,遇到的混合语言语音的识别率不能满足用户需求的难题。以汉语普通话与英语的混合语音识别任务(简称中英文)为例,在云知声提供的实测混合语音识别测试集上,采用合作项目组研发的技术,其语音识别系统的词错误率相对下降了30%。难题的解决很大程度上提升了用户体验的满意度,提升了企业在语音识别引擎方面的技术等级。

该项目的成功研发提高了企业的经济效益和社会效益。例如,为“云端芯”生态系统提供了更好的用户人机交互接口,对于云知声而言,其利润或收益主要来源于为其他人工智能相关企业提供平台解决方案,而语音识别是人机交互接口的源头,其性能好坏对整个生态系统来说都至关重要。云知声通过产学研合作,在较短时间内提升了自身的技术水平,且仅因为本项目,在项目结题的2017年就实现了超过2000万元的服务产值。截至到目前,云知声的合作伙伴数量已经超过2万家,覆盖用户已经超过2亿,日调用量2亿次,其中语音云平台覆盖的城市超过647个,覆盖设备超过1亿台。

在社会效益方面:该项目的研发充分且较全面地考虑了技术与实际应用的高效结合,同时也充分考虑了实际应用系统之间的差异,为不同语种的混合语音识别提供了较易拓展的整套技术解决方案,可根据不同的应用场景来进行设计,灵活地为客户量身定制,这样就大大拓展了现有人工智能产业中,与人机交互相关产品的实际应用范畴,更好地服务于人类的生产和生活。

3、云知声提升技术等级取得的其他成果

科技创新成果获奖:

1)上海市徐汇区创业梦之星优秀奖( 2018年12月)

2)上海市“科技型中小企业”企业称号( 2018年04月)

科技创新获基金资助情况:

1)上海市创新基金资助(2018年9月),金额:20万元

2)上海市创新基金资助(2016年9月),金额: 20万元

3)上海市人工智能创新发展基金资助(2017年10月),金额:450万元

4)上海市徐汇区现代服务业引导资金资助(2018年9月),金额: 50万元

发明专利授权及申请情况:

已授权:

1)通过噪音识别路面信息的系统及方法,专利号:ZL 201410828299.X

2)基于差分阵列的声源方向定位方法,专利号:201611202139.X

申请中:

1)声学模型自适应方法及系统,申请号:CN201610156697.0

2)一种基于位置信息的语音端点检测方法,申请号:201710624269.0

4、促进上海师大教学科研所取得的成效

在该项目支撑下,上海师大研发项目组由刚开始的2位老师,现在已经发展成了一个真正的科研团队,团队中现有教授1名,副教授3名,硕士研究生每位老师6-9名。在合作企业方的支持下,该科研团队现处于稳定发展阶段,且后续会持续深入地在人工智能相关的智能语音、图像等研究领域开展研究。其他依托本项目取得的成果如下:

1) 2016年建立 “上海师范大学产学合作教育基地”;

2) 2016年国际混合语音识别竞赛(OC16 MixASR-CHEN Challenge),获国际第二;

3) 2017年,成立“云知声-上海师范大学自然人机交互”联合实验室,购置GPU超算实验平台(6台DELL服务器,6块GPU快速运算卡)及SGE集群一个, 集群可同时提交192个任务。

4) 2017年,获得一项国家自然科学基金资助,项目名称“中英文混合语音识别中声学建模关键技术研究”,编号:61701306;

5) 2018年,合作另一个项目“自然人机交互中的防攻击声纹识别技术研发”获得联盟计划资助;

6) 发表论文9篇,申请专利1项,软件着作权3项(具体见附件——发表文章、知识产权列表);

7) 现在,安排联合实验室的优秀研究生到企业实习,将研究课题纳入该项目。

综上,通过校企产学研合作,达到了双方合作共赢、风险共担、利益共享、平等互利的目标,促进了人工智能语音领域的产业发展。依托“云知声-上海师范大学自然人机交互”联合实验室,双方已建立起长期合作,继续在更深层次的项目合作和协同育人方面进行深入合作。

三、下一步深化产学研合作的打算

在与上海师大前期合作基础上,依托双方共建的自然人机交互联合实验室,云知声打算围绕联合实验室的主题——自然人机交互展开深入合作。

在科研项目合作方面:充分结合上海师大和云知声的特色与优势,采用人工智能的方法将科技、人文和教育进行紧密结合,研究和开发更自然的人机交互技术。拟研究课题包括:

  • 声纹识别与用户画像技术
  • 语音场景辨识和内容识别技术
  • 人机语音交互的语言学、心理和认知模型研究
  • 音乐、口语和文化辅助教学与评估技术
  • 以上研究课题将机器学习、语言语音学、心理学、教育学、机器人学等各个交叉学科进行有效融合,解决自然人机交互中的关键问题,最终在人工智能领域形成一批基础研究和集成创新成果。

    在人才联合培养方面:云知声依然积极配合上海师大开展协同育人,为学生创新活动创造条件,双方协同组织智能语音处理等相关内容的学生竞赛等活动。比如,在2018年6月—9月,校企双方合作主办的“云知声杯第三届芝麻开门智能语音处理竞赛之AI语音魔方趣味作品设计大赛”,通过语音处理技术入门和进阶的学术讲座和竞赛系列活动,为学生们揭开智能语音技术的神秘面纱,让学生们在竞赛中体会研究智能语音的乐趣,开发他们的学习兴趣,培养他们的综合技术开发能力。

    专家点评

    云知声是中国人工智能行业成长最快的创业公司之一,其在智慧家居、车载、医疗、安防、教育等方面的人工智能应用居于国内领先地位,已形成较好的“云端芯”生态闭环。在国际化大趋势下,单一语种的语音识别与合成技术已不能满足应用需求,而多语种混合语音识别技术由于诸多技术难点,国内外的深入研究很少,技术难度很高。云知声通过与上海师大的产学研合作所取得的多语种混合语音识别这一关键技术,已达到国内领先、国际先进水平。云知声用这一成果更新其各个语音识别平台及线上服务的引擎,改善了用户满意度,为企业带来了很好的经济效益。

    从双方通过共建“上海师大—云知声自然人机交互联合实验室”、成立“云知声人工智能研发中心”、建立“上海师大产学合作教育基地”等一系列举措,到企业邀请高校研发骨干参与企业研发计划、方案的讨论与制定,到企业为高校研发团队提供实验平台和数据资源,再到合作高校为企业培养科技人才,搭建协同育人新平台,企业为学生提供实习机会,这一个个环节都彰显双方已经相互支撑和认可,在产学研合作的各个层面上,双向的参与度加深,因此必能长期合作下去。

    本案例中云知声与上海师大的合作模式,无论是在科研项目的合作模式,还是协同育人、资源共享的方式,对于以人工智能为主要研究方向的企业、高校来说,都有一定的借鉴意义。