空旷的地方有相当清晰的唱歌感觉背景音乐可以直接用来混切!
AI可以写歌,写歌词,换风格,继续写音乐今天,AI又是编曲人
上传一段《Stay》,按一个键,伴奏和人声就很容易分开了。
在空旷的地方有相当清晰的唱歌感觉,背景音乐可以直接用来混切!
这个惊人的效果也在Reddit上引发了热议。
这项研究的主要负责人孔来自,世界上最大的古典钢琴数据集GiantMIDI—Piano也是他在去年出版的。
那么他今天带来了什么样的AI音乐人呢。
让我们来看看。
基于深度残差网络的声源分离。
这是一个包括相位估计的音乐源分离系统。
首先,幅度和相位解耦以估计复理想比例掩模。
其次,为了实现更灵活的幅度估计,结合了有界掩模估计和直接幅度预测。
最后,为MSS系统引入了一个143层深度残差网络,并使用残差编码块和残差解码块将其深度增加:
在残差编码块和残差卷积块之间引入中间卷积块,以提高残差网络的表达能力。
每个残差编码块由四个残差卷积块组成,残差卷积块由两个核大小为33的卷积层组成。
每个残差解码块由8个卷积层和1个卷积层组成。
实验结果
接下来,在MUSDB18数据集上对系统进行测试。
MUSDB18中的训练/验证集包含100/50个完整的立体声曲目,包括独立的人声,伴奏,低音,鼓和其他乐器。
以信号失真率为判断标准,可以看出resuenet解耦系统在分离人声,低音,其他和伴奏方面明显优于之前的方法3360。
在烧蚀实验中,143层残差网络的性能也证明了有界掩模估计和直接幅度预测的结合确实可以提高声源分离系统的性能。
作为本研究的第一篇论文孔,本硕毕业于华南理工大学,博士毕业于英国萨里大学电子信息工程专业。
2019年加入字节跳动语音,音频和音乐智能研究组,主要负责音频信号处理和声音事件检测的研究。
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。