低成本 tts 方案 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
chengz
0.04D
V2EX    程序员

低成本 tts 方案

  •  
  •   chengz 41 天前 4480 次点击
    这是一个创建于 41 天前的主题,其中的信息可能已经有所发展或是发生改变。
    自己折腾个小工具, 需要克隆音色生成语音 tts(text-to-speech),主要要求:
    1. 推理时间尽量实时(100 字符/10s)
    2. 多音色支持
    目前直接使用火山或者腾讯云的大模型,单个音色费用太贵了(>50),自己搭建 GPU 服务器也很贵(16G T4 约 1000/月),实时性也不太好
    有没有比较低成本的方案推荐?
    34 条回复    2025-08-30 14:37:25 +08:00
    knva
        1
    knva  
       41 天前
    基本没有。
    letking
        2
    letking  
       41 天前
    买个显卡自己部署模型,加内网穿透
    AoEiuV020JP
        3
    AoEiuV020JP  
       41 天前
    你到底是要克隆音色还是要 tts ?
    tts 最低成本的应该就是直接调用系统的 tts ,
    克隆音色需要 AI 算力,就没有便宜的,一个小工具搞什么克隆音色,
    8820670
        4
    8820670  
       41 天前
    #3 说的对 调用系统 TTS 是最方便的。
    前段时间才做过: t/1153662#reply0
    不过移动端支持其实挺一般的,具体得自己试试
    8820670
        5
    8820670  
       41 天前
    @8820670 另外就是 edge 浏览器有一套在线的 tts 有不少 github 开源的库可以直接调用。但是这种不一定能非常长期的使用。
    搜 edge_tts
    yulon
        6
    yulon  
       41 天前
    我是 Mac mini 4 当副机,跑 GPT-SoVITS ,也就 3G 显存左右吧,看你要不要并行,并行还会多一点
    chengz
        7
    chengz  
    OP
       41 天前
    @AoEiuV020JP @8820670 我没说清楚,是自定义音色的 tts, 单纯 tts 是很便宜
    chengz
        8
    chengz  
    OP
       41 天前
    @AoEiuV020JP 自定义音色的 tts, 单纯 tts 是很便宜
    Leon6868
        9
    Leon6868  
       41 天前   1
    fish speech 、cosyvioce ( vllm ),本地部署,3060
    glouhao
        10
    glouhao  
       41 天前 via Android
    我的显卡是 A770 16g 然后调整不好一直是 cpu
    zenghx
        11
    zenghx  
       41 天前 via iPhone
    [VibeVoice 实现 90 分钟、多角色播客生成,拓展语音合成新边界]( https://www.microsoft.com/en-us/research/articles/vibevoice/) 这个怎么样
    zenghx
        12
    zenghx  
       41 天前 via iPhone
    @zenghx 没看到自定义的需求,打扰了
    aishellphy
        13
    aishellphy  
       41 天前
    用 f5-tts ,在 windows 电脑上跑,自带加速引擎,速度特别香
    yulon
        14
    yulon  
       41 天前
    @zenghx VibeVoice 听说显存要占十多 G ,没有音色,当普通 TTS 用,成本也太高了,适合公司用吧
    abersheeran
        15
    abersheeran  
       41 天前
    自定义音色可以用 fish.audio
    Latin
        16
    Latin  
       41 天前
    f5-tts 之前实测过太慢了
    jackOff
        17
    jackOff  
       41 天前
    买个有 4G 显存 3050 显卡的二手笔记本,基本上可以稳定高效跑 GPT-SoVITS
    UnluckyNinja
        18
    UnluckyNinja  
       41 天前
    https://github.com/RVC-Boss/GPT-SoVITS
    https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
    TTS 用上面的,SVC 用下面的,没上手用过,只是有所耳闻
    realJamespond
        19
    realJamespond  
       41 天前
    配置最简单是 indextts,1066 batch2 能跑两章小说 batch3 一章,多音字直接拼音替换
    dzdh
        20
    dzdh  
       41 天前
    阿里音色克隆免费的吧.
    yianing
        21
    yianing  
       41 天前
    minimax 一个音色 10 块钱,合成声音的话 4 元/1w 汉字
    TQQQ
        22
    TQQQ  
       41 天前
    StyleTTS+Vocos ,开源的非自回归模型,可以直接部署在 cpu 服务器上,4090 上训练大概要一周左右。但是年头有点久了,效果比不上 cosyvoice/indextts 这些
    bigtear
        23
    bigtear  
       41 天前
    微调 Kokoro TTS 吧,满足你的需求,速度快,可自定义音色(微调音色 pt 文件)
    Huelse
        24
    Huelse  
       41 天前
    tcper
        25
    tcper  
       41 天前
    自己搭完就会发现还是云服务便宜
    looveh
        26
    looveh  
       41 天前
    怎么没有 index-tts
    looveh
        27
    looveh  
       41 天前
    @looveh RTX 3090 实测 120 字不到 20s
    pipi32167
        28
    pipi32167  
       41 天前
    同推荐 minimax ,效果可以的。价格也不贵。
    pipi32167
        29
    pipi32167  
       41 天前
    @bigtear 之前 Kokoro 放出来的中文一言难尽。。。不过能微调 Kokoro 的话确实又快又好。
    DefoliationM
        30
    DefoliationM  
       41 天前 via Android
    chrome 自带的不要钱,直接用 js 的 api 。
    bigtear
        31
    bigtear  
       41 天前
    @pipi32167 #29 你用 1.1 新版的,很不错了已经,达到了 edge tts 的水平
    cwcc
        32
    cwcc  
       41 天前
    我直接用 macOS 自带的个人声音生成自己的声音,也够用了。
    yulon
        33
    yulon  
       40 天前
    楼上那么多说 minimax ,早上试了下刚用几次就 504 了,没绷住
    RobinHuuu
        34
    RobinHuuu  
       40 天前 via iPhone
    试过手机 app/安卓端,可下载和使用离线模型,效果还行
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     942 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 18:56 PVG 02:56 LAX 11:56 JFK 14:56
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86