做了一个自然语音生成的 AI 模型，大家提点意见

爱意满满的作品展示区。

This topic created in 934 days ago, the information mentioned may be changed or developed.

自己做了一个语音生成的网站，www.zideai.com
不是普通的文字转语音，支持克隆声线，并且生成出来的是自然语音，就是没有机械感。
语音模型是自己写的，自己训练的
和大模型结合做了个 Demo ，感觉这种交互模态不错，起码很自然。演示视频 https://www.bilibili.com/video/BV1tg4y1d7Ee/
网站上也可以体验下，但部署的 GPU 有限，有可能进不去。
用的 webrtc 直连 GPU ，延迟在 3s 左右，后面再优化语音模型可以做到对话零延迟。
优势：
1. 接近于真人的自然发声，包括停顿，韵律等。
2. 可以用一段 3s 的语音克隆声线，视频里有展示。
3. 全中文数据训练的，所以说话没有老外的感觉。
4. 模型可以支持多语言，就是用日语的声音生成中文的语音（暂时还没训练）。
缺点：
1. 生成可能还不太稳定，声线容易跑偏。
2. 很耗 GPU ，是传统语音生成的很多倍。
后续：
训练成本太高了，一个人做吃不消。。。不知道有没有前景，可以的话出一些硬件。比如智能音箱？和手办对话？大家给点意见。

Supplement 1 Oct 25, 2023

因为自然语音和之前传统 tts 有较大使用上区别，很多参数是不能直接设定的，比如音调，断句，停顿等。只能类似 GPT 一样给 Prompt ，输入的句子要规范一下，空格，逗号这些非文字符号模型会认为是提示要停顿。
系统还在测试阶段，使用习惯肯定也不一样，大家有问题可以提出来，我稍后整理下做个教程。

语音

生成

模型

GPU

51 replies 2024-03-14 15:24:27 +08:00

LDa

Oct 24, 2023

天这个太自然了！

passerby233

Oct 24, 2023

棒！

maocat

Oct 24, 2023 via iPhone

虽然是痴心妄想，但我还是想问，开源吗/dog

Simon95

Oct 24, 2023

@maocat 我也想开，但是和大佬们的没法比，主要是数据比较多而已。。。

8X96ZltB8D7WggD7

Oct 24, 2023

训练成高的化，多买点显卡，本地训练不行吗，比云 GPU 便宜很多吧

Simon95

Oct 24, 2023

@scp3041 买不起，百万起的东西。

qweruiop

Oct 24, 2023

op 开源下呗，学习学习。。。

xming

Oct 24, 2023

英语能行吗

jifengg

Oct 24, 2023

中文效果很好，继续关注

wpyfawkes

Oct 24, 2023

发音挺自然,但是断句和停顿不是那么自然.
期待楼主更加牛 X 的版本.

shadio

Oct 24, 2023

语音接近真人，但停顿轻重这些还不太准备。不过已经很不错了。支持 ssml 吗，方便用户后续微调。

linshuizhaoying

Oct 24, 2023

就这个语气一直都是很低沉的。。。其他表现还可以的

Metre

Oct 24, 2023

前几天看了 heygen ，看完之后我就不想让我小孩学习外语了。。。

isSamle

Oct 24, 2023

这很容易被利用吧，骚扰电话+获取录音+AI 生成+各种非法使用

zoharSoul

Oct 24, 2023

可以当成 tts 用吗?

asrpub

Oct 24, 2023 via Android

角色用的是固定的 prompt 吧？

zagfai

Oct 24, 2023

说不来粤语嘿嘿

Simon95

Oct 24, 2023

@shadio 估计支持 ssml 难度比较大，因为有上下文理解能力，就是会根据文本信息和声音信息自己生成情绪，语气等

Simon95

Oct 24, 2023

@zoharSoul 就是 tts ，就是应用场景估计和传统的有区别，需要好好想想

Simon95

Oct 24, 2023

@zagfai 小众方言难做啊，我就是说粤语的，配音没听出来一口广普味？

zoharSoul

Oct 24, 2023

@Simon95 #19 感觉用作听书不错啊, 就是不知道速度和价格怎么样

Simon95

Oct 24, 2023

@zoharSoul 速度实时没问题，最后价格一个小时语音估计要两块钱左右，现在是免费的。

zoharSoul

Oct 24, 2023

@Simon95 #22 明白了, 到时候说不定有机会用用 hah

starcode

Oct 24, 2023

可以合作合作，我有一个录音的 APP ，后续需要录音转文字 API 和文字转录音 API 等。

yanyao233

Oct 24, 2023

帅啊！

bihui

Oct 24, 2023

您用了别人的开源技术吗？

antkites

Oct 24, 2023

@Simon95 大佬，太厉害了，不过还是多问一句能开源吗，学习学习，嘿嘿

Simon95

Oct 24, 2023

@antkites 等后面安排吧，目前生成的还不太稳定。

OneMan

Oct 25, 2023

@Simon95 有联系方式吗，合作聊聊

Simon95

Oct 25, 2023

@OneMan 微信 nonamehorse

jianchang512

Oct 25, 2023

这个不错，正找相关的开源项目呢，没找到合适的。
facebook 的 https://github.com/facebookresearch/seamless_communication
对中文效果似乎很不好。

用于影视翻译配音领域，前景大大的

Simon95

Oct 25, 2023

@jianchang512 多语言怎么讲呢，说实话我不太感冒，感觉都是证明学术有多厉害实际上不好用。影视配音是最终目标。

youthfire

Oct 25, 2023 via iPhone

之前用过一个国外开源的，缺点就是中文语音有国外腔。实际上相比 TTS ，这类虽然更自然，离谱起来也可能更离谱。目前看到最好的还是 openai 在 ios 客户端上的语音效果，应该早晚会作为 whisper 的一部分提供 api 收费服务。

unii23i

Oct 25, 2023

不错啊，之前用国外的生成语音说话很别扭，这个真多了

Hansah

Oct 25, 2023

断字断句好像有点问题

你试试这句

新西兰比澳大利亚通过率高，有新西兰签证在澳大利亚中转的话好像有 3-7 天的免签时间

Simon95

Oct 25, 2023

@siknet 断句没有预处理的，如果没有标点或者空格隔开的话，模型根据语义自动断句。有标点空格模型可能会知道有断句，但是也不不一定会断，总之比较玄幻，只能提示。

OneMan

Oct 25, 2023

支持英语吗

Sylarlong

Oct 25, 2023

这个太厉害了，点赞

shuzhi123

Oct 25, 2023

这个太厉害了，点赞

sanebow

Oct 26, 2023 via iPhone

纯外行，请教一下现在这类新的语音合成技术和传统 tts 有什么本质区别，有什么代表性 paper 可以阅读了解吗

Simon95

Oct 26, 2023

@sanebow 这是不同的技术分支，起源是 AudioLM 为代表的一系列论文

1044523901

Oct 26, 2023

效果不错，干倒语音生成 TTS 厂商。

fenglingyu

Oct 27, 2023

很厉害

DanielNg23

Oct 27, 2023

太牛了！要不要来我们这边打一下黑客马拉松，线上/线下均可参加，来线下能提供 7 天住宿顺便来大理到处玩玩，最高有 AWS 提供的 2.5 万美金算力支持 https://mp.weixin.qq.com/s/MTqByjk8j_ekAMfcxgtP1g

blackboar

Oct 30, 2023

感觉可以做电诈供应商啊哈哈

zoharSoul

Dec 18, 2023

@Simon95 #22 并发怎么样啊大佬有比较具体的指标吗? 比如什么样配置的机器可以支持什么程度的并发, tp99 大概多少

Miller5991

Dec 27, 2023

试了一下感觉还不错，值得鼓励

Miller5991

Dec 27, 2023

op 还会持续迭代吗？感觉还是有点不太自然，不过换气很流畅

irrwood

Jan 3, 2024

感觉很棒啊！

Simon95

Jan 8, 2024

@Miller5991 已经更新了，有兴趣可以试试

xljiulong2031

Mar 14, 2024

楼主现在用不了了