
省流
笔者不是开发者 但是使用过觉得确实不错好用因而搬运分享 版权所有OpenVPI团队和Diffsinger以及OpenUTAU等相关团队。
有时候填词没人唱歌 自己唱歌又五音不全 虚拟歌姬可以作为下位替代输出作为demo试听也足够了。或许某种意义上来说可以算是人声声源(?)传统的vocaloid和utau无参输出效果又很差 于是发现了这个项目。买不起cevio的声库 没想到开源的项目也可以做的这么不错。
“因为我没有天使吻过的嗓子,所以请你代我唱出我心中的天籁”
类似vocaloid的虚拟歌声合成软件,用过vocaloid的应该会很熟悉。此项目是AI加持的开源歌声合成技术 支持跨语种
基于宿主为OpenUTAU编辑器的,利用ai学习的歌声合成软件。即使是相比传统utau直接输出也有更好的更平滑的音高处理。对于拥有自动音高的声库甚至可以自动绘制音高线。尤其是自动音高线生成,只需要机器推理渲染就可以使得vsinger唱出逼真平滑的歌声。
不同于类似gpt-sovits类的rvc翻唱。打个不恰当的比喻像是wav和midi的原理一样。
自动音高线生成以往只出现在付费的商业引擎类似cevio sv 之类的,但是此项目是完全开源免费的,这意味着不仅项目自由度高 而且您也可以自己训练和制作属于您自己的声库。
可以看做是这些编辑器的下位替代 效果虽然略差这些商业编辑器和声库 但是毕竟开源 还要什么自行车
详见 www.diffsinger.com 内有详细使用教程和声库制作教程 用得到的整理成下面的几个链接了
推理性能要求低,笔者测试环境:Intel I3 4170 2c4t + 4g ram 可以完美运行 支持纯cpu推理 支持gpu加速(基于directml),还是建议用n卡 a卡未测试 i卡体验很差 不支持核显推理
因为人还在出差 不太方便 目前建议各位到官网按照教程一步一步来用,后续会打包一个绿色一键端 开箱即用
@Skyisland 整理分享
正文
详细原理及内容请参见官方文档,github社区内容 和相关论文。以下使用ai摘要:
iffSinger 是一款基于浅层扩散机制的歌声合成技术,由浙江大学学者于2021年提出,旨在通过深度学习生成高质量、自然流畅的歌声。其核心目标是将音乐谱(如歌词、音高、节奏)转化为逼真的梅尔频谱图,并通过声码器转换为音频波形。该技术不仅适用于虚拟歌手创作,还可用于文本到语音(TTS)转换,广泛应用于音乐制作、教育、游戏配音等领域。
软件原理
DiffSinger 基于扩散概率模型(Diffusion Probabilistic Model),其核心流程分为两步:
扩散过程:将输入的音乐谱逐步添加高斯噪声,转化为高斯白噪声。
反向过程:通过神经网络学习去噪路径,从噪声中逐步恢复出目标梅尔频谱图。
浅层扩散机制是 DiffSinger 的创新点:
传统扩散模型需数百步去噪,而 DiffSinger 仅需约20步(浅层),显著提升推理速度。
通过边界预测网络找到真实频谱与简单解码器生成频谱的交点,从交点开始反向生成,减少冗余计算。
软件特色功能
高质量音频生成:支持音色、音准、情感表达的精细控制,生成效果接近真人演唱。
多任务兼容:既可用于歌声合成(SVS),也可扩展至文本到语音(TTS)任务。
快速推理:浅层设计使生成速度比传统扩散模型快45%以上。
开源与灵活:提供预训练模型和详细网页,支持自定义参数调整(如音高、节奏)。
下载 & 参考文档
本质是歌声合成引擎面向最终用户的输入与输出
简单来说输入提供midi文件决定音高节奏,歌词决定发音。以音素为最小单位调整发音决定咬字。再细化调整情感响度换气等参数。输出通过引擎和声码器基于模型渲染合成最终音频文件
环境配置:
OpenUTAU编辑器作为宿主:https://github.com/stakira/OpenUtau/releases
公开的Diffsinger声库:https://docs.qq.com/sheet/DQXNDY0pPaEpOc3JN?tab=BB08J2
声码器(相当于依赖)下载:https://github.com/openvpi/vocoders/releases
使用教程:https://ecn4x4y9jhjs.feishu.cn/wiki/Gx0GwvwknirVLTkPyzDc6Rtrnxb
训练教程&完整教程:https://ecn4x4y9jhjs.feishu.cn/wiki/UK6xwL37NivMfDk8PnnckZGUngZ
原始 GitHub 项目地址: https://github.com/openvpi/DiffSinger
欠各位一个一键端开箱即用版 由于相关配套资源在楼主另外一台电脑上 周末回来补上
评论(0)
暂无评论