百度Deep Voice 3：一个AI系统 2500个不同的角色

2017年10月27日 15:46　来源：中国新闻网

　　中新网10月27日电近日，据外媒报道，百度新推出的Deep Voice第三版可以通过深度学习技术输出各种声音，这也是百度Deep Voice系列的最后一个版本。这一技术投入使用之后将会使软硬件产品的用户体验更进一步。

　　作为一个完全由深度神经网络构建的高质量TTS系统，Deep Voice系列技术已经被用于百度的各款移动端产品和第三方合作伙伴的软硬件产品中。最新的Deep Voice第三版可以在半个小时内学习一种声音，总共可以同时“掌握”2500种声音。相比前几版系统专注于合成一种或者少量几种非常自然的类真人声音，Deep Voice第三版的目标则是一个能够同时掌握大量具有细微差别口音的系统。

　　对于Deep Voice第三版，百度开发人员表示，这个系统可以高效地生成各种各样的声音，这可以应用于很多场景。例如，有声书或视频游戏里的每个角色都可以有自己独特的声音，这会有效提升用户的体验。此外他们也对媒体表示，通过使用大量高质量数据集进行额外的机器学习工程培训，这套系统将可以掌握超过1万种声音，这是以前发表的TTS模型中从未达到的规模。

Deep Voice 3 架构图

　　今年年初百度推出Deep Voice，通过使用深度学习这一热门的人工智能技术，构建了一个可以实现文本到语音转换的系统。Deep Voice第一版可以通过数小时的自我学习和训练之后掌握一种声音并合成出短句，合成效果非常流畅自然，与真人发音已经相当接近。今年5月，百度又推出了Deep Voice的升级产品Deep Voice 2，新系统可以在半小时的数据学习后模仿一种声音，一个单一系统可以学习上百种不同的口音。

　　目前，Google、Apple和Amazon都有相关的语音合成研发产品，Google旗下的DeepMind一直在进行一个名叫WaveNet的类似项目，最新版本的WaveNet已经能够在掌握口音方面做到真实、高效，甚至可以像真人那样产生咂嘴的声音，现在这一产品已经被应用于英文版和日文版的Google Assistant上。

【编辑:段红彪】

更多精彩内容请进入I T频道

>IT新闻精选：

·中国电信拨通5G电话用户可以不换卡、不换号

·没有秘密的大数据时代：运动步数等可推理出许多信息

·武汉建成5G百站规模试验网行业示范应用将展开

·携号转网即将全国推行操作麻烦或阻碍用户积极性

·苹果不想落后于新兴趋势可折叠iPhone呼之欲出？

·5G技术为中国轨道交通“添翼” 10分钟可下载55GB数据

·王涌天委员：AR眼镜或取代手机成下一代移动终端

99米“高空咖啡屋”	古巴举办“白色晚宴”
德国波恩樱花盛开	荷兰风信子进入盛放期

假期余额告急？点我充	被催婚的女入殓师
致敬森林消防员	阳春三月你想开了吗？