继下棋、写作之后,人工智能开始接近人类歌手水平

微博上,关于人工智能小冰唱歌的消息。图片来源:微博截图
微博上,关于人工智能小冰唱歌的消息。图片来源:微博截图

  中新网客户端北京5月28日电(记者 宋宇晟)“人工智能抢走人类工作的涵盖面非常大,目前趋势看来,并不像我们想象的那样——某些创造性的工作、人与人打交道的工作不会被抢走。很可能最先抢走的不是体力劳动者的工作,恰恰是脑力劳动者。”几天前,科幻作家刘慈欣在接受媒体群访时所做的预测,可能正变为现实。但在科学家们看来,人工智能要做的并非替代人类,而是帮助人类。

  16日,微软小冰在其微博宣布“演唱深度学习模型完成第四次重大升级”,人工智能“开始接近人类歌手水平”,并发布了“新模型生成的最新单曲《我知我新》”。

    他们都顺应潮流

  他们问为什么改变

  青春灼灼花样翩翩

  却不向前

  当世界还在变迁

  若时间无垠

  若探索无边

  认知就不再有极限

  ——《我知我新》歌词节选

  截至5月25日12时,这首单曲在网易云音乐收获了超过1800条评论。点赞数最多的评论写道,“小冰是现在唯一秒回我的女生了吧”;点赞数第二多的评论收获了195个赞,这位网友认为,小冰的“作词水平领先周杰伦两条街了,未来可期”。

  “这首歌小冰参与了歌词的创作,同时也是小冰自己演唱的。” 微软(亚洲)互联网工程院人工智能创造事业部副总经理袁晶向中新网记者介绍,“虽然这次的曲子不是小冰创作的,但之前也发过它作曲的作品。所以其实小冰是可以作曲演唱的,只是这次用的曲子是人类创作的,可以认为这是联合创作。”

  袁晶告诉记者,和此前的写诗类似,人工智能创作歌词也需要通过大量的歌词去“训练”。在经过上万次“学习”后,才能在一些触发源之下刺激它输出。

袁晶向记者展示“训练”小冰的过程。从中可以看出,在最初阶段,小冰写出的歌词难以读懂;但当迭代上万次后,小冰写出的歌词已接近人类水平。微软供图
袁晶向记者展示“训练”小冰的过程。从中可以看出,在最初阶段,小冰写出的歌词难以读懂;但当迭代上万次后,小冰写出的歌词已接近人类水平。微软供图

  “我们训练用了大概一千万行的歌词。在训练中模型我们也会做一些优化,针对曲调的韵律、节奏,会有一些优化。所以这首词生成出来完全是AI的作品。”他说。

  创作歌词之后,让小冰把歌词唱出来又是另外一个过程。

资料图:4月27日,中国围棋职业九段棋手柯洁在福州挑战由中国研制的围棋人工智能“星阵”,弈至145手,柯洁中盘认负。 中新社记者 王东明 摄
资料图:4月27日,中国围棋职业九段棋手柯洁在福州挑战由中国研制的围棋人工智能“星阵”,弈至145手,柯洁中盘认负。 中新社记者 王东明 摄

  在微软的科学家看来,小冰唱歌的原理和虚拟歌手“初音未来”或“洛天依”演唱的原理并不一样——虚拟歌手需要录制好的声音库,再通过重新拼接声音库中的片段形成歌曲;而小冰唱歌是根据输入的信号做出发声的反应。

  微软(亚洲)互联网工程院微软小冰首席语音科学家栾剑直言,在拿到曲子后,会根据小冰的风格,调整曲子的细节。“如果完全按照简谱的节拍和音符来唱,会非常机械,不好听。这部分我们是有模型来做的。”

资料图:第二十届科博会展会现场,观众体验机器人。 韩海丹 摄
资料图:第二十届科博会展会现场,观众体验机器人。 韩海丹 摄

  在人工智能识别了曲子后,就需要用到“另一个模型”——用小冰的声音演唱出来。而这个模型并非简单的发声装置。

  栾剑告诉记者,这次使用的唱歌模型已经是第四代了。“我们的第一代版本挺像一个普通人唱歌,虽然唱得挺自然,但有时候不太在调上;到第二代时,我们解决了基本音准;后来不断迭代模型、优化算法,在音质、自然度,包括衔接上做改进,升级到第三代。”

  “第四代唱歌模型主要改进了三个方面——一个是我们加入了换气的声音。我们跟一些音乐人做了交流,觉得加入这个会提高演唱的自然度;第二是我们让这个模型变得更复杂了一些,加入了控制因素,使得它在字和字之间、转音地方的一些小技巧,能更加流畅、平滑;第三我们加入了更多训练数据,使模型更加稳定,在风格上更加成型。”他说。

  “以前小冰在唱主歌和副歌的感情色彩基本是一样的,虚拟歌手唱歌的时候通常会有这样的问题。而现在可以看到,小冰在唱主歌和副歌的感情、音色是有区别的。副歌的地方情绪会更加激烈,音色会更加高亢。”栾剑觉得,这是新版本与此前三个版本区别最大的地方。

小冰创作的诗集《阳光失了玻璃窗》。
小冰创作的诗集《阳光失了玻璃窗》。

  事实上,对于创造人工智能的科学家们而言,让小冰更像人类一直是他们的目标。“我们在小冰身上主要探索两点,一是情感,一是创造。”袁晶觉得,这两点其实某些时候是紧密联系在一起的。“当你做创作的时候一定有情感,当有情感的时候就会想要表达一些东西。”

  在他看来,这样的研究不仅仅是在尝试将人工智能技术应用到内容创作领域,同时也希望让人工智能的这种能力帮助到人类。

  “其实每个人都有自己创作的欲望。只是有的人比较擅长创作,成为了画家、音乐家,有的人虽然有这样的创作欲望,但他没有这样的能力,或者说没有很高的能力创作出这样的内容。我们觉得,是不是能让AI帮助每一个普通人,都能具有这样创作自己个性化东西的能力。比如说,给他自己或者朋友写首歌。”袁晶说。

  栾剑同时也强调,人工智能的发展并非要替代人类,而是将来“帮助人去处理一些很重复的、没有必要的脑力劳动”。

资料图:阿里云人工智能ET现场为员工书写春联。浙江在线记者 魏志阳 摄 图片来源:浙江在线
资料图:阿里云人工智能ET现场为员工书写春联。浙江在线记者 魏志阳 摄 图片来源:浙江在线

  “况且AI现在还处于很基础的阶段。”栾剑觉得,发展人工智能的目标是将来辅助人类去探索更多未知的领域。“比如在唱歌方面,AI很可能创造一些新的东西。而这并不会替代原有的,却会刺激后来的歌手从中汲取所需的养分,创作出新的东西。这是挺有意思的事情。”

  谈及小冰的未来,袁晶表示,将来会有很多方向可以去尝试。“比如能写诗,是不是可以去试着写散文,之后是不是还可以写短篇小说,是否可以从事专业类文本的撰写。当然难度会一个比一个大。”

  在音乐方面,栾剑认为,现在小冰有自己的风格了,但风格还比较单一。“我们会尝试让小冰做出风格上的变化。另外,目前发出一些不太常见的声音对小冰来说,仍比较困难,比如摇滚中那种比较重的嘶吼声。这方面我们还在探索。”(完)

分享
微博上,关于人工智能小冰唱歌的消息。图片来源:微博截图
微博上,关于人工智能小冰唱歌的消息。图片来源:微博截图

  中新网客户端北京5月28日电(记者 宋宇晟)“人工智能抢走人类工作的涵盖面非常大,目前趋势看来,并不像我们想象的那样——某些创造性的工作、人与人打交道的工作不会被抢走。很可能最先抢走的不是体力劳动者的工作,恰恰是脑力劳动者。”几天前,科幻作家刘慈欣在接受媒体群访时所做的预测,可能正变为现实。但在科学家们看来,人工智能要做的并非替代人类,而是帮助人类。

  16日,微软小冰在其微博宣布“演唱深度学习模型完成第四次重大升级”,人工智能“开始接近人类歌手水平”,并发布了“新模型生成的最新单曲《我知我新》”。

    他们都顺应潮流

  他们问为什么改变

  青春灼灼花样翩翩

  却不向前

  当世界还在变迁

  若时间无垠

  若探索无边

  认知就不再有极限

  ——《我知我新》歌词节选

  截至5月25日12时,这首单曲在网易云音乐收获了超过1800条评论。点赞数最多的评论写道,“小冰是现在唯一秒回我的女生了吧”;点赞数第二多的评论收获了195个赞,这位网友认为,小冰的“作词水平领先周杰伦两条街了,未来可期”。

  “这首歌小冰参与了歌词的创作,同时也是小冰自己演唱的。” 微软(亚洲)互联网工程院人工智能创造事业部副总经理袁晶向中新网记者介绍,“虽然这次的曲子不是小冰创作的,但之前也发过它作曲的作品。所以其实小冰是可以作曲演唱的,只是这次用的曲子是人类创作的,可以认为这是联合创作。”

  袁晶告诉记者,和此前的写诗类似,人工智能创作歌词也需要通过大量的歌词去“训练”。在经过上万次“学习”后,才能在一些触发源之下刺激它输出。

袁晶向记者展示“训练”小冰的过程。从中可以看出,在最初阶段,小冰写出的歌词难以读懂;但当迭代上万次后,小冰写出的歌词已接近人类水平。微软供图
袁晶向记者展示“训练”小冰的过程。从中可以看出,在最初阶段,小冰写出的歌词难以读懂;但当迭代上万次后,小冰写出的歌词已接近人类水平。微软供图

  “我们训练用了大概一千万行的歌词。在训练中模型我们也会做一些优化,针对曲调的韵律、节奏,会有一些优化。所以这首词生成出来完全是AI的作品。”他说。

  创作歌词之后,让小冰把歌词唱出来又是另外一个过程。

资料图:4月27日,中国围棋职业九段棋手柯洁在福州挑战由中国研制的围棋人工智能“星阵”,弈至145手,柯洁中盘认负。 中新社记者 王东明 摄
资料图:4月27日,中国围棋职业九段棋手柯洁在福州挑战由中国研制的围棋人工智能“星阵”,弈至145手,柯洁中盘认负。 中新社记者 王东明 摄

  在微软的科学家看来,小冰唱歌的原理和虚拟歌手“初音未来”或“洛天依”演唱的原理并不一样——虚拟歌手需要录制好的声音库,再通过重新拼接声音库中的片段形成歌曲;而小冰唱歌是根据输入的信号做出发声的反应。

  微软(亚洲)互联网工程院微软小冰首席语音科学家栾剑直言,在拿到曲子后,会根据小冰的风格,调整曲子的细节。“如果完全按照简谱的节拍和音符来唱,会非常机械,不好听。这部分我们是有模型来做的。”

资料图:第二十届科博会展会现场,观众体验机器人。 韩海丹 摄
资料图:第二十届科博会展会现场,观众体验机器人。 韩海丹 摄

  在人工智能识别了曲子后,就需要用到“另一个模型”——用小冰的声音演唱出来。而这个模型并非简单的发声装置。

  栾剑告诉记者,这次使用的唱歌模型已经是第四代了。“我们的第一代版本挺像一个普通人唱歌,虽然唱得挺自然,但有时候不太在调上;到第二代时,我们解决了基本音准;后来不断迭代模型、优化算法,在音质、自然度,包括衔接上做改进,升级到第三代。”

  “第四代唱歌模型主要改进了三个方面——一个是我们加入了换气的声音。我们跟一些音乐人做了交流,觉得加入这个会提高演唱的自然度;第二是我们让这个模型变得更复杂了一些,加入了控制因素,使得它在字和字之间、转音地方的一些小技巧,能更加流畅、平滑;第三我们加入了更多训练数据,使模型更加稳定,在风格上更加成型。”他说。

  “以前小冰在唱主歌和副歌的感情色彩基本是一样的,虚拟歌手唱歌的时候通常会有这样的问题。而现在可以看到,小冰在唱主歌和副歌的感情、音色是有区别的。副歌的地方情绪会更加激烈,音色会更加高亢。”栾剑觉得,这是新版本与此前三个版本区别最大的地方。

小冰创作的诗集《阳光失了玻璃窗》。
小冰创作的诗集《阳光失了玻璃窗》。

  事实上,对于创造人工智能的科学家们而言,让小冰更像人类一直是他们的目标。“我们在小冰身上主要探索两点,一是情感,一是创造。”袁晶觉得,这两点其实某些时候是紧密联系在一起的。“当你做创作的时候一定有情感,当有情感的时候就会想要表达一些东西。”

  在他看来,这样的研究不仅仅是在尝试将人工智能技术应用到内容创作领域,同时也希望让人工智能的这种能力帮助到人类。

  “其实每个人都有自己创作的欲望。只是有的人比较擅长创作,成为了画家、音乐家,有的人虽然有这样的创作欲望,但他没有这样的能力,或者说没有很高的能力创作出这样的内容。我们觉得,是不是能让AI帮助每一个普通人,都能具有这样创作自己个性化东西的能力。比如说,给他自己或者朋友写首歌。”袁晶说。

  栾剑同时也强调,人工智能的发展并非要替代人类,而是将来“帮助人去处理一些很重复的、没有必要的脑力劳动”。

资料图:阿里云人工智能ET现场为员工书写春联。浙江在线记者 魏志阳 摄 图片来源:浙江在线
资料图:阿里云人工智能ET现场为员工书写春联。浙江在线记者 魏志阳 摄 图片来源:浙江在线

  “况且AI现在还处于很基础的阶段。”栾剑觉得,发展人工智能的目标是将来辅助人类去探索更多未知的领域。“比如在唱歌方面,AI很可能创造一些新的东西。而这并不会替代原有的,却会刺激后来的歌手从中汲取所需的养分,创作出新的东西。这是挺有意思的事情。”

  谈及小冰的未来,袁晶表示,将来会有很多方向可以去尝试。“比如能写诗,是不是可以去试着写散文,之后是不是还可以写短篇小说,是否可以从事专业类文本的撰写。当然难度会一个比一个大。”

  在音乐方面,栾剑认为,现在小冰有自己的风格了,但风格还比较单一。“我们会尝试让小冰做出风格上的变化。另外,目前发出一些不太常见的声音对小冰来说,仍比较困难,比如摇滚中那种比较重的嘶吼声。这方面我们还在探索。”(完)

-->