
文字转语音,现在有很多厂都有相关 SDK/API 可以使用,但很多都像机器人一样没有感情的在念。想了解下有没有真正基于 NLP 技术的,带情感语气的。
比如,下面 2 行文本:
1. 她脸色大变,生气地说:“给我滚出去”。 2. 他轻声地说:“嘘,我们从后门偷偷溜进去”。 那么,TTS 在朗读第 1 句的时候,应该是语气比较重,比较大声急促。而朗读第 2 句的时候,应该是比较轻声,轻缓的。这样长时间听下来,用户也就不会犯困了。
1 Itoktsnhc 2022 年 7 月 22 日 |
2 fengfuliu 2022 年 7 月 22 日 |
3 xieyqxie 2022 年 7 月 22 日 没那么先进吧,hhhh |
4 lonewolfakela 2022 年 7 月 22 日 只说这两句话的话,我感觉微软的“云枫(预览)”语音的效果比较好…… |
8 ajt2520 2022 年 7 月 22 日 via Android 微软的 TTS 引擎还是不错的 |
9 Belmode 2022 年 7 月 22 日 1 、微软 Speach Stdio TTS 支持 http 和 SDK 2 、讯飞语音配音制作 TTS 支持 http 3 、小爱语音 TTS 支持 http 和 SDK |
10 James369 OP @lonewolfakela 没找到这个“云枫”引擎,是 Edge 上用的那个吗 |
11 Belmode 2022 年 7 月 22 日 或者手写 SSML 其实也可以的。 |
12 p2pCoder 2022 年 7 月 22 日 国内外大厂的内容创作部门,这一方面做的比较多,而且有刚需场景 不过是没有对外商用的 |
13 raycool 2022 年 7 月 22 日 这种应该是根据 SSML 来进行调整的,NLP 情感分析后生成 SSML |
14 geekvcn 2022 年 7 月 22 日 via Android 微软 TTS 效果最好,你 edge 选中你的文字朗读就能体验了 |
15 byzf 2022 年 7 月 22 日 意思是以后机器人小姐姐就能用甜甜的声音给我推销贷款了。 |
16 lingo 2022 年 7 月 22 日 <speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xmlns:emo="http://www.w3.org/2009/10/emotionml" version="1.0" xml:lang="en-US" > <voice name="zh-CN-XiaoxiaoNeural"> <prosody rate="0%" pitch="7%"> 雪姨不停地敲门 <mstts:express-as style="angry"> “出来!给我滚出来!你有本事找女人,你有本事开门-呀!”。 </mstts:express-as> </prosody> </voice> </speak> 以上复制到一楼的微软 TTS 里 SSML 输入框 |
18 laoyur 2022 年 7 月 22 日 锅内自媒体,大部分都是同一个男声,真的听得想吐了。 我自己是不听这些垃圾货的,但是架不住败家娘们总是听这玩意 大部分都是从油管上扒回来的视频,去掉声音截个片段,配几句台词,TTS 配个音就发出来赚流量了 |
19 jstony 2022 年 7 月 22 日 关键词:SSML ,配合微软 tts ,效果一级棒。 |
20 jackma0571 2022 年 7 月 22 日 借楼问下,在 dy 上经常刷到一个台湾腔小姐姐的配音,是怎么弄的,经常在一些股票相关的短视频里听到 |
22 lonewolfakela 2022 年 7 月 22 日 @James369 #10 1L 和 2L 发的那个地址上有个 demo ,语音选“云枫(预览)” |
24 Aloento 2022 年 7 月 23 日 所以说还是 Azure 好 |
25 yinshang 2022 年 7 月 23 日 工作原因,经常用到配音。 个人感受是微软的最好,语气什么的更贴近真人。 讯飞太拉跨了,机器感太强。 |
26 leeg810312 2022 年 7 月 23 日 via Android @James369 完全符合预期的语气语调来转语音是不可能自动化的,同一句话用不同语气说出来可能是完全不同的效果,现有的 nlp 是做不到这么智能判断的,不要奢望没有人工后期调整。微软 Azure 是目前 AI 提供商中这个业务做得最好的, |