
1 LDa 2023-10-24 11:02:35 +08:00 天 这个太自然了! |
2 passerby233 2023-10-24 11:04:26 +08:00 棒! |
3 maocat 2023-10-24 11:06:18 +08:00 via iPhone 虽然是痴心妄想,但我还是想问,开源吗/dog |
5 8X96ZltB8D7WggD7 2023-10-24 11:14:35 +08:00 训练成高的化,多买点显卡,本地训练不行吗,比云 GPU 便宜很多吧 |
7 qweruiop 2023-10-24 13:01:38 +08:00 op 开源下呗,学习学习。。。 |
8 xming 2023-10-24 13:30:36 +08:00 英语能行吗 |
9 jifengg 2023-10-24 13:31:05 +08:00 中文效果很好,继续关注 |
10 wpyfawkes 2023-10-24 13:38:55 +08:00 发音挺自然,但是断句和停顿不是那么自然. 期待楼主更加牛 X 的版本. |
11 shadio 2023-10-24 13:52:02 +08:00 语音接近真人,但停顿轻重这些还不太准备。不过已经很不错了。支持 ssml 吗,方便用户后续微调。 |
12 linshuizhaoying 2023-10-24 14:23:39 +08:00 就这个语气一直都是很低沉的。。。其他表现还可以的 |
13 Metre 2023-10-24 14:43:19 +08:00 前几天看了 heygen ,看完之后我就不想让我小孩学习外语了。。。 |
14 isSamle 2023-10-24 16:00:05 +08:00 这很容易被利用吧,骚扰电话+获取录音+AI 生成+各种非法使用 |
15 zoharSoul 2023-10-24 16:12:16 +08:00 可以当成 tts 用吗? |
16 asrpub 2023-10-24 16:21:42 +08:00 via Android 角色用的是固定的 prompt 吧? |
17 zagfai 2023-10-24 18:56:30 +08:00 说不来粤语 嘿嘿 |
18 Simon95 OP @shadio 估计支持 ssml 难度比较大,因为有上下文理解能力,就是会根据文本信息和声音信息自己生成情绪,语气等 |
24 starcode 2023-10-24 20:26:25 +08:00 可以合作合作,我有一个录音的 APP ,后续需要录音转文字 API 和文字转录音 API 等。 |
25 yanyao233 2023-10-24 20:36:10 +08:00 帅啊! |
26 bihui 2023-10-24 21:34:53 +08:00 您用了别人的开源技术吗? |
31 jianchang512 2023-10-25 00:27:29 +08:00 这个不错,正找相关的开源项目呢,没找到合适的。 facebook 的 https://github.com/facebookresearch/seamless_communication 对中文效果似乎很不好。 用于影视翻译配音领域,前景大大的 |
32 Simon95 OP @jianchang512 多语言怎么讲呢,说实话我不太感冒,感觉都是证明学术有多厉害实际上不好用。影视配音是最终目标。 |
33 youthfire 2023-10-25 00:49:16 +08:00 via iPhone 之前用过一个国外开源的, 缺点就是中文语音有国外腔。实际上相比 TTS ,这类虽然更自然,离谱起来也可能更离谱。目前看到最好的还是 openai 在 ios 客户端上的语音效果,应该早晚会作为 whisper 的一部分提供 api 收费服务。 |
34 unii23i 2023-10-25 09:22:46 +08:00 不错啊,之前用国外的生成语音说话很别扭,这个真多了 |
35 Hansah 2023-10-25 10:02:47 +08:00 断字断句好像有点问题 你试试这句 新西兰比澳大利亚通过率高,有新西兰签证在澳大利亚中转的话好像有 3-7 天的免签时间 |
36 Simon95 OP @siknet 断句没有预处理的,如果没有标点或者空格隔开的话,模型根据语义自动断句。有标点空格模型可能会知道有断句,但是也不不一定会断,总之比较玄幻,只能提示。 |
37 OneMan 2023-10-25 11:19:23 +08:00 支持英语吗 |
38 Sylarlong 2023-10-25 13:39:56 +08:00 这个太厉害了,点赞 |
39 shuzhi123 2023-10-25 16:39:51 +08:00 这个太厉害了,点赞 |
40 sanebow 2023-10-26 09:33:39 +08:00 via iPhone 纯外行,请教一下现在这类新的语音合成技术和传统 tts 有什么本质区别,有什么代表性 paper 可以阅读了解吗 |
42 1044523901 2023-10-26 22:22:39 +08:00 效果不错,干倒语音生成 TTS 厂商。 |
43 fenglingyu 2023-10-27 10:40:47 +08:00 很厉害 |
44 DanielNg23 2023-10-27 21:03:42 +08:00 太牛了!要不要来我们这边打一下黑客马拉松,线上/线下均可参加,来线下能提供 7 天住宿顺便来大理到处玩玩,最高有 AWS 提供的 2.5 万美金算力支持 https://mp.weixin.qq.com/s/MTqByjk8j_ekAMfcxgtP1g |
45 blackboar 2023-10-30 18:39:14 +08:00 感觉可以做电诈供应商啊哈哈 |
46 zoharSoul 2023-12-18 21:45:24 +08:00 @Simon95 #22 并发怎么样啊 大佬 有比较具体的指标吗? 比如什么样配置的机器可以支持什么程度的并发, tp99 大概多少 |
47 Miller5991 2023-12-27 13:25:49 +08:00 试了一下感觉还不错,值得鼓励 |
48 Miller5991 2023-12-27 13:26:26 +08:00 op 还会持续迭代吗?感觉还是有点不太自然,不过换气很流畅 |
49 irrwood 2024-01-03 23:12:05 +08:00 感觉很棒啊! |
50 Simon95 OP @Miller5991 已经更新了,有兴趣可以试试 |
51 xljiulong2031 2024-03-14 15:24:27 +08:00 楼主现在用不了了 |