各位用哪家的 TTS 引擎,有没有可以根据语气情感进行发声的 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
James369
V2EX    程序员

各位用哪家的 TTS 引擎,有没有可以根据语气情感进行发声的

  •  
  •   James369 2022 年 7 月 22 日 5817 次点击
    这是一个创建于 1292 天前的主题,其中的信息可能已经有所发展或是发生改变。

    文字转语音,现在有很多厂都有相关 SDK/API 可以使用,但很多都像机器人一样没有感情的在念。想了解下有没有真正基于 NLP 技术的,带情感语气的。

    比如,下面 2 行文本:

    1. 她脸色大变,生气地说:“给我滚出去”。 2. 他轻声地说:“嘘,我们从后门偷偷溜进去”。 

    那么,TTS 在朗读第 1 句的时候,应该是语气比较重,比较大声急促。而朗读第 2 句的时候,应该是比较轻声,轻缓的。这样长时间听下来,用户也就不会犯困了。

    26 条回复    2022-07-23 23:04:46 +08:00
    fengfuliu
        2
    fengfuliu  
       2022 年 7 月 22 日
    xieyqxie
        3
    xieyqxie  
       2022 年 7 月 22 日
    没那么先进吧,hhhh
    lonewolfakela
        4
    lonewolfakela  
       2022 年 7 月 22 日
    只说这两句话的话,我感觉微软的“云枫(预览)”语音的效果比较好……
    Itoktsnhc
        5
    Itoktsnhc  
       2022 年 7 月 22 日
    @Itoktsnhc 如果需要特别好的效果还是得手调,除非基于 NLP 在加上情感分析
    James369
        6
    James369  
    OP
       2022 年 7 月 22 日
    @Itoktsnhc 恩,就是有情感自动分析
    James369
        7
    James369  
    OP
       2022 年 7 月 22 日
    @fengfuliu 这个风格不错,不知道能不能自动识别
    ajt2520
        8
    ajt2520  
       2022 年 7 月 22 日 via Android
    微软的 TTS 引擎还是不错的
    Belmode
        9
    Belmode  
       2022 年 7 月 22 日   2
    1 、微软 Speach Stdio TTS 支持 http 和 SDK
    2 、讯飞语音配音制作 TTS 支持 http
    3 、小爱语音 TTS 支持 http 和 SDK
    James369
        10
    James369  
    OP
       2022 年 7 月 22 日
    @lonewolfakela 没找到这个“云枫”引擎,是 Edge 上用的那个吗
    Belmode
        11
    Belmode  
       2022 年 7 月 22 日
    或者手写 SSML 其实也可以的。
    p2pCoder
        12
    p2pCoder  
       2022 年 7 月 22 日
    国内外大厂的内容创作部门,这一方面做的比较多,而且有刚需场景
    不过是没有对外商用的
    raycool
        13
    raycool  
       2022 年 7 月 22 日
    这种应该是根据 SSML 来进行调整的,NLP 情感分析后生成 SSML
    geekvcn
        14
    geekvcn  
       2022 年 7 月 22 日 via Android
    微软 TTS 效果最好,你 edge 选中你的文字朗读就能体验了
    byzf
        15
    byzf  
       2022 年 7 月 22 日
    意思是以后机器人小姐姐就能用甜甜的声音给我推销贷款了。
    lingo
        16
    lingo  
       2022 年 7 月 22 日   2
    <speak
    xmlns="http://www.w3.org/2001/10/synthesis"
    xmlns:mstts="http://www.w3.org/2001/mstts"
    xmlns:emo="http://www.w3.org/2009/10/emotionml"
    version="1.0"
    xml:lang="en-US"
    >

    <voice name="zh-CN-XiaoxiaoNeural">
    <prosody rate="0%" pitch="7%">
    雪姨不停地敲门
    <mstts:express-as style="angry">
    “出来!给我滚出来!你有本事找女人,你有本事开门-呀!”。
    </mstts:express-as>
    </prosody>
    </voice>
    </speak>


    以上复制到一楼的微软 TTS 里 SSML 输入框
    James369
        17
    James369  
    OP
       2022 年 7 月 22 日
    @byzf 坏人,不过这不是我做的东西,我做的是书籍朗读
    laoyur
        18
    laoyur  
       2022 年 7 月 22 日
    锅内自媒体,大部分都是同一个男声,真的听得想吐了。
    我自己是不听这些垃圾货的,但是架不住败家娘们总是听这玩意
    大部分都是从油管上扒回来的视频,去掉声音截个片段,配几句台词,TTS 配个音就发出来赚流量了
    jstony
        19
    jstony  
       2022 年 7 月 22 日
    关键词:SSML ,配合微软 tts ,效果一级棒。
    jackma0571
        20
    jackma0571  
       2022 年 7 月 22 日
    借楼问下,在 dy 上经常刷到一个台湾腔小姐姐的配音,是怎么弄的,经常在一些股票相关的短视频里听到
    James369
        21/span>
    James369  
    OP
       2022 年 7 月 22 日
    @jstony SSML 要能够自动生成,这样才能自动化
    lonewolfakela
        22
    lonewolfakela  
       2022 年 7 月 22 日
    @James369 #10 1L 和 2L 发的那个地址上有个 demo ,语音选“云枫(预览)”
    rpman
        23
    rpman  
       2022 年 7 月 22 日 via iPhone
    @xieyqxie 很多商业 TTS 都有了,我在前司就做这个
    TTS 已经卷到插呼吸停顿和重读了
    Aloento
        24
    Aloento  
       2022 年 7 月 23 日
    所以说还是 Azure 好
    yinshang
        25
    yinshang  
       2022 年 7 月 23 日
    工作原因,经常用到配音。
    个人感受是微软的最好,语气什么的更贴近真人。
    讯飞太拉跨了,机器感太强。
    leeg810312
        26
    leeg810312  
       2022 年 7 月 23 日 via Android
    @James369 完全符合预期的语气语调来转语音是不可能自动化的,同一句话用不同语气说出来可能是完全不同的效果,现有的 nlp 是做不到这么智能判断的,不要奢望没有人工后期调整。微软 Azure 是目前 AI 提供商中这个业务做得最好的,
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2828 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 736ms UTC 00:51 PVG 08:51 LAX 16:51 JFK 19:51
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86