用户名
UID
Email
密码
记住
立即注册
找回密码
只需一步,快速开始
微信扫一扫,快速登录
开启辅助访问
收藏本站
快捷导航
门户
Portal
社区
资讯
会议
市场
产品
问答
数据
专题
帮助
签到
每日签到
企业联盟
人才基地
独立实验室
产业园区
投资机构
检验科
招标动态
供给发布
同行交流
悬赏任务
共享资源
VIP资源
百科词条
互动话题
导读
动态
广播
淘贴
法规政策
市场营销
创业投资
会议信息
企业新闻
新品介绍
体系交流
注册交流
临床交流
同行交流
技术杂谈
检验杂谈
今日桔说
共享资源
VIP专区
企业联盟
投资机构
产业园区
业务合作
投稿通道
升级会员
联系我们
搜索
搜索
本版
文章
帖子
用户
小桔灯网
»
社区
›
C、IVD技术区
›
FISH技术
›
【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5 ...
图文播报
2025庆【网站十二周
2024庆中秋、迎国庆
2024庆【网站十一周
2023庆【网站十周年
2022庆【网站九周年
2021庆中秋、迎国庆
返回列表
查看:
7753
|
回复:
0
[分享]
【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比,等你来评!
[复制链接]
病理医师
病理医师
当前离线
金桔
金币
威望
贡献
回帖
0
精华
在线时间
小时
雷达卡
发表于 2025-1-9 21:12
|
显示全部楼层
|
阅读模式
登陆有奖并可浏览互动!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
前言
之前给大家分享很多关于TTS、ASR、大模型应用的文章,部分如下:
【干货分享】4款爆火TTS横向效果对比测试,哪款好用等你来评!!包含ChatTTS、FishSpeech、CosyVocie!
【34.2k star!】Suno开源Bark语音模型,手把手带你实操部署,体验逼真的文字转语音和AI创曲~
Qwen2_Audio语音大模型来啦!语音内容分析、情绪分析、语言翻译轻松拿捏!手把手带你实操部署让其扮演翻译官、情绪安抚师~
首个支持多方言的Bailing-TTS语音模型来啦!超逼真合成普通话、河南话、上海话等多地方言;离真正AI聊天伴侣更近一步~
【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能!效果炸裂!手把手带你理论+实战部署推理!
【克隆TTS领域又更新啦】上海交大开源F5-TTS: 只需要2秒就能克隆语音,可商用,合成语音效果让我震惊不已!
【又一款王炸级别语音克隆TTS模型】FishSpeech重磅开源1.4版本!语音合成更逼真!跟最近爆火F5-TTS相比如何呢?
【又又一款王炸级别TTS模型】趣丸科技&港中大开源MaskGCT语音大模型,性能超过CosyVoice,XTTS-v2!
今天给大家同时展示5款(Fish、F5、GPT、CosyVoice、MaskGCT)爆火的语音克隆-文本合成的效果展示。哪款语音克隆模型最好,等你来评价~本文案例效果仅供参考!下面进入今天的主题~
需要特别注意:本文只是技术分享,在使用对应模型进行语音合成时,需要严格遵照对应项目的要求和法律法规!!
本文目录
5款爆火开源TTS语音克隆项目
GPT-SoVITS模型介绍
MaskGCT模型介绍
F5-TTS语音模型介绍
FishSpeech1.4模型介绍
CosyVoice模型介绍
模型对应的license总结
实战篇:部署5款模型进行语音克隆
GPT-SoVITS模型代码语音克隆-推理部分
fish-speech1.4模型代码语音克隆
F5-TTS模型推理部分代码
Mask-GCT模型推理部分代码
CosyVoice模型的推理代码
效果篇:5款语音克隆模型效果展示
案例1: 萝莉语音克隆-5款模型语音克隆--效果展示
案例2: 萝莉语音克隆-5款模型语音克隆-带数字文本-效果展示
案例3: 萝莉语音克隆-5款模型语音克隆-长文本-效果展示
案例4: 中文动漫人物语言克隆-5款模型语音克隆-中英文克隆-效果展示
案例5: 中文动漫人物语言克隆-5款模型语音克隆-短文本克隆-效果展示
参考链接
5款爆火开源TTS语音克隆项目
GPT-SoVITS模型介绍
GPT-SoVITS项目是TTS克隆领域内效果常年霸榜的模型之一,具有以下功能:
零样本文本到语音(TTS)
: 输入 5 秒的声音样本,即刻体验文本到语音转换。
少样本 TTS
:仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。
跨语言支持
:支持与训练数据集不同语言的推理,目前支持英语、日语、韩语、粤语和中文。
WebUI 工具
:集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,协助初学者创建训练数据集和 GPT/SoVITS 模型。
该文章的目录如下,详情见:
【34.8k点赞量!】TTS领域内明星模型GPT-SoVITS实操教程来啦;2秒语音就能克隆,效果过于惊艳,请谨慎使用!
MaskGCT模型介绍
大型文本到语音(TTS)系统通常被分为自回归和非自回归系统。自回归系统隐式地建模了持续时间,但在鲁棒性方面存在一定的缺陷,并且缺乏持续时间的可控性。非自回归系统在训练期间需要显式的文本和语音之间的对齐信息,并预测语言单位(例如音素)的持续时间,这可能会影响其自然性。在10月24日,趣丸科技&香港中文大学提出一种完全非自回归的TTS模型——掩码生成编解码器变换器(MaskGCT),它消除了对文本和语音监督之间显式对齐信息的需求,以及对音素级别持续时间预测的需求。
该项目的目录如下,详情见:
【又又一款王炸级别TTS模型】趣丸科技&港中大开源MaskGCT语音大模型,性能超过CosyVoice,XTTS-v2!
F5-TTS语音模型介绍
F5-TTS是由上海交通大学(Shanghai Jiao Tong University)、剑桥大学(University of Cambridge)、以及极氪汽车研究院(Geely Automobile Research Institute (Ningbo) Company Ltd.)的研究团队联合开发的。具有以下特点:
改进的文本表示
:F5-TTS使用ConvNeXt对输入文本进行细化,以改善与语音的对齐,解决了E2-TTS中存在的鲁棒性问题。
Sway Sampling策略
:F5-TTS提出了一种新的推理时采样策略,称为Sway Sampling,它显著提高了模型的性能和效率。这种采样策略可以轻松地应用于现有的基于流匹配的模型,而无需重新训练。
更快的训练与推理
:F5-TTS的设计允许更快的训练,并且在推理时实现了0.15的实时因子(Real-Time Factor, RTF),与现有的基于扩散的TTS模型相比,这是一个显著的改进。
零样本能力
:F5-TTS在公共100K小时多语言数据集上训练,展示了高度自然和富有表现力的零样本能力,以及无缝的代码切换能力。
开源
:F5-TTS的代码和检查点被开源,以促进社区发展。
该项目的目录如下,详情见文章:
【克隆TTS领域又更新啦】上海交大开源F5-TTS: 只需要2秒就能克隆语音,可商用,合成语音效果让我震惊不已!
FishSpeech1.4模型介绍
fish.audio团队最新开源的FishSpeech1.4;支持中文、英文等8种语音,具有以下特点:
零样本和少样本文本转语音(TTS)
:输入一个10到30秒的语音样本,即可生成高质量的TTS输出。有关详细指南,请参见语音克隆最佳实践。
多语言和跨语言支持
:只需将多语言文本复制粘贴到输入框中——无需担心语言问题。目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。
无需音素依赖
:该模型具有强大的泛化能力,不依赖于音素进行TTS。它可以处理任何语言脚本的文本。
高度准确
:对于5分钟的英文文本,实现了约2%的低CER(字符错误率)和WER(词错误率)。
快速
:借助fish-tech加速技术,在Nvidia RTX 4060笔记本电脑上实时因子约为1:5,在Nvidia RTX 4090上为1:15。
WebUI推理
:功能强大,基于Gradio的Web UI,兼容Chrome、Firefox、Edge等浏览器。
GUI推理
:提供与API服务器无缝协作的PyQt6图形界面。支持Linux、Windows和macOS。见GUI。
部署友好
:可以轻松设置推理服务器,原生支持Linux、Windows和MacOS,最小化速度损失。
该文章的目录如下,详情见文章:
【又一款王炸级别语音克隆TTS模型】FishSpeech重磅开源1.4版本!语音合成更逼真!跟最近爆火F5-TTS相比如何呢?
CosyVoice模型介绍
CosyVoice
是一个语音生成模型,能够合成自然声音,适用于多种应用。模型支持五种语言:中文、英语、日语、粤语和韩语。CosyVoice 包含三个开源模型:
CosyVoice-base-300M:擅长准确代表说话者身份,无需微调即可适应不同上下文,能够跨语言克隆声音。
CosyVoice-300M-25Hz、CosyVoice-300M-SFT:能够生成富有情感表现力的语音,允许通过指令文本进行精细调整。
CosyVoice-300M-SFT:已针对七位多语言说话者进行了微调,适合立即部署使用。
语音合成模型 CosyVoice 功能特点:
多语言支持
:CosyVoice 支持包括中文、英文、日语、粤语和韩语在内的五种语言。
零样本学习
:能够无需训练即可适应新说话者(zero-shot in-context learning),能够在不同语言之间复制声音。
情感共鸣
:能够创建情感共鸣的声音, CosyVoice-instruct 版本通过情感指令显著提高了情感控制的准确性。
高质量语音合成
:生成的样本在词错误率(WER)和说话者相似性方面达到人类水平。
语音定制化
:能够根据特定说话者生成多语言语音,适应新说话者而无需训练。
语音克隆与风格迁移
:支持在不同语言之间进行语音克隆和情感风格迁移。
该项目的目录如下,详情见文章:
【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能!效果炸裂!手把手带你理论+实战部署推理!
模型对应的license总结
CosyVoice模型
: Apache-2.0 license
GPT-SoVITS模型
: MIT license
F5-TTS模型
:源代码是 MIT License,预训练模型是 CC-BY-NC license
Fish-Speech-1.4模型
: 这个模型在BY-CC-NC-SA-4.0 License下获得了宽松的授权。源代码在BSD-3-Clause License
MASK-GCT模型
: 代码Amphion是MIT License, 模型是cc-by-nc-4.0 License
实战篇:部署5款模型进行语音克隆
在本次实验中5款模型的版本参数:
GPT-SoVITSV2版本、fish-speech1.4、 F5-TTS、 Mask-GCT、CosyVoice-300M-25Hz;
其中核心的代码如下:
GPT-SoVITS模型代码语音克隆-推理部分
%%time
%cd /kaggle/working/GPT-SoVITS
!rm -rf gpt_sovits_output.wav
!python GPT_SoVITS/src.py --gpt_model "GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s1bert25hz-5kh-longer-epoch=12-step=369668.ckpt" \
--sovits_model "GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2G2333k.pth" \
--ref_audio {ref_audio} --ref_text {ref_text} \
--target_text {content}
clear_output()
fish-speech1.4模型代码语音克隆
%%time
%cd /kaggle/working/fish-speech
!rm -rf fishspeech14_output.wav
# 从语音生成 prompt
!python tools/vqgan/inference.py \
-i {ref_audio} \
-o "outputs/fake.wav" \
--checkpoint-path "checkpoints/fish-speech-1.4/firefly-gan-vq-fsq-8x1024-21hz-generator.pth"
# clear_output()
!rm -rf codes_*.npy
# 从文本生成语义 token
!python tools/llama/generate.py \
--text {content} \
--prompt-text {ref_text} \
--prompt-tokens "outputs/fake.npy" \
--checkpoint-path "checkpoints/fish-speech-1.4" \
--num-samples 1 \
--temperature 0.1 \
--half
# clear_output()
# 从语义 token 生成人声
!python tools/vqgan/inference.py \
-i "codes_0.npy" \
--checkpoint-path "checkpoints/fish-speech-1.4/firefly-gan-vq-fsq-8x1024-21hz-generator.pth" \
-o "fishspeech14_output.wav"
# clear_output()
!ls -lh |grep generate
!ls -lh |grep code
!ls -lh outputs
F5-TTS模型推理部分代码
%%time
%cd /kaggle/working/F5-TTS
!rm -rf tests/*
!f5-tts_infer-cli \
--model "F5-TTS" \
--ref_audio {ref_audio} \
--ref_text {ref_text} \
--gen_text {content}
# clear_output()
!ls -lh tests/
Mask-GCT模型推理部分代码
%%time
%cd /kaggle/working/Amphion
!rm -rf mask_gct_output.wav
!python maskgct_main.py --ref_audio {ref_audio} \
--ref_text {ref_text} \
--ref_language 'zh' \
--output_path "./mask_gct_output.wav" \
--target_text {content}
CosyVoice模型的推理代码
%%time
%cd /kaggle/working/CosyVoice
!rm -rf cosyvoice_output.wav
!source activate cosyvoice && export PYTHONPATH=third_party/AcademiCodec:third_party/Matcha-TTS && \
python demo.py --ref_audio {ref_audio} \
--ref_text {ref_text} \
--ref_language 'zh' \
--output_path "./cosyvoice_output.wav" \
--target_text {content}
参考链接
https://github.com/SWivid/F5-TTS
https://hf-mirror.com/amphion/MaskGCT
https://hf-mirror.com/fishaudio/fish-speech-1.4
https://github.com/RVC-Boss/GPT-SoVITS
https://github.com/FunAudioLLM/CosyVoice
z先生说
大家好,今天给大家实操5款爆火的语音克隆模型的效果案例展示,哪款好用等你来评价!本文仅供参考,语音克隆受音频文件和文本内容以及模型性能所影响。
需要特别注意:本文只是技术分享,在使用模型进行语音合成时,需要严格遵照对应项目的要求和法律法规!!
如果本文对你有帮助,还请你在看、转发、添加【星标⭐️】不迷路,这里有很多关于AI应用、实践等有趣的事情,关注下面公众号不迷路~
原文地址:https://zhuanlan.zhihu.com/p/8603402649
楼主热帖
小桔灯网业务合作须知!
如何注册小桔灯网VIP会员?
破局 | 巨头们正在剥离IVD
[
同行交流
]
禁止进口的旧仪器有哪些?
[
免疫仪器
]
瑞派宠物医生:穿越宠物眼科“手术禁区”,争分夺秒镌刻生命印记
[
血球仪器
]
女生主动起来会有多主动?
[
血球仪器
]
超详细解读——免疫组化实验,建议收藏!
[
免疫组化技术
]
医学检验技术专业研究生毕业后去医院好还是IVD行业好?
[
同行交流
]
体系审核中经常会遇到的问题和应对策略
[
NMPA体系考核
]
第11批国采来袭!75个品种大清单曝光,这些药价要“跳水”了?11批国采启动前,清单泄露?集采6年回头看:谁哭了?谁笑了?
[
同行交流
]
回复
使用道具
举报
提升卡
返回列表
发表回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
官方推荐
/3
【扫描左侧二维码关注微信】参与交流!
网站定期开展行业相关话题互动交流活动!对认真参与讨论的桔友将有金桔奖励!欢迎参与。
查看 »
IVD业界薪资调查(月薪/税前)
长期活动,投票后可见结果!看看咱们这个行业个人的前景如何。请热爱行业的桔友们积极参与!
查看 »
小桔灯网视频号开通了!
扫描二维码,关注视频号!
查看 »
返回顶部
快速回复
返回列表
客服中心
搜索
官方QQ群
洽谈合作
关注微信
微信扫一扫关注本站公众号
个人中心
个人中心
登录或注册
业务合作
-
投稿通道
-
友链申请
-
手机版
-
联系我们
-
免责声明
-
返回首页
Copyright © 2008-2024
小桔灯网
(https://www.iivd.net) 版权所有 All Rights Reserved.
免责声明: 本网不承担任何由内容提供商提供的信息所引起的争议和法律责任。
Powered by
Discuz!
X3.5 技术支持:
宇翼科技
浙ICP备18026348号-2
浙公网安备33010802005999号
快速回复
返回顶部
返回列表