一句话声音克隆(文字转语音)使用说明

一句话克隆主图

大家好!一句话声音克隆深受广大用户的喜欢,这里整理一份使用说明,并汇总了常见问题,统一答复大家。

一、介绍:

一句话声音克隆是通过克隆这句话的音色并生成新的语音,广泛用于文字转语音。能轻松模仿任何人说话,比如模仿《西游记》里孙悟空说话,模仿《三国演义》刘备说话,相识度达95%。

二、入口:

2.1 免费体验入口

如下图:

一句话声音克隆手机入口
一句话声音克隆手机入口
2.2 手机入口

如上图所示。手机打开“一句话克隆”后,左边菜单和电脑登录是一样的。下面的2.2和2.3也可以在手机上操作。

2.3 电脑新手入口

适合新手,每次都上传参考音频。电脑登录后,左边菜单路径:文字转语音 -> 一句话克隆。

2.4 电脑老鸟入口

适合老手,上传一次参考音频,以后反复使用,无须重复上传。

电脑登录后,左边菜单路径:文字转语音 -> ALI声音库。点击“创建人物”,进入人物详情后,点击“上传说话感情”,最后在人物详情页点击“一句话克隆”。

三、常见问题

3.1 一句话克隆的参考音频有何要求:

参考音频只需3秒左右,因为一句话克隆只需要这句话的音色,能反应出这句话的感情(如愉快,伤心)就行。可以上传音频或视频,如果音频太长,系统会自动截取前6秒。

参考音频的质量更重要,基本要求是:

  • 只有一个人的声音,可以有少量背景音及杂音,不要有第二个人类的声音。
  • 吐字清晰,支持普通话,不支持方言(方言用Azure声音库或RVC声音库)。
  • 语速均匀,避免语气词,如嗯、啊、哦,越少越好。

3.2 为什么“一句话克隆”长时间都显示“推理中”?

在2024年8月31日修复了长时间未完成的bug。100字内3分钟处理完,1000字5分钟内处理完,5000字10分钟内处理完。

如果出现“失败”,请重新上传参考音频,因为重新上传时,会截取前6秒参考音频,此时请验证音频文案。

3.3 为什么“一句话克隆”的声音音量很小?

如果参考音频音量小,那么生成新的音频音量也小。同样如果参考音频是“愉快”的语气,那么生成的音频的语气也是“愉快”的。参考音频的音量、语速和感情决定了合成的音频。

3.4 数字如何处理,666读六六六吗?

666会读成六百六十六,数字用汉字代替。同样如果有多音字,请用同样读音词代替。

3.5 一次支持多少字?

5000字。

3.6 合成音频的感情不是我想要的?

合成的音频是根据参考音频来的,参考音频如果是很凶狠的语气,那么合成的音频也是凶狠的。所以如果要温柔的语气,请上传温柔的参考音频。

3.7 不上传参考音频可以吗?

在“ALI声音库”有许多公开的参考音频,比如《西游记》《三国演义》《小猪佩奇》等系列的人物,可以直接使用。

3.8 有接口吗?

有的,菜单路径:开放平台 -> 克隆声音API。