如果用 AI 做有声阅读,有没有搞头? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Shawn5
V2EX    商业模式

如果用 AI 做有声阅读,有没有搞头?

  •  
  •   Shawn5 301 天前 4050 次点击
    这是一个创建于 301 天前的主题,其中的信息可能已经有所发展或是发生改变。
    就是根据文本内容,分角色,分场景,分感情的进行朗读,类似真人朗读的那种,这种目前 AI 的技术能够支持吗???有没有搞头??
    32 条回复    2024-12-14 11:13:03 +08:00
    z7356995
        1
    z7356995  
       301 天前
    目的是什么,再有感情也比不过电影
    julyclyde
        2
    julyclyde  
       301 天前
    不就 TTS 么,咋就 AI 了?
    SantinoSong
        3
    SantinoSong  
       301 天前
    晚了, 豆包已经在做了
    Shawn5
        4
    Shawn5  
    OP
       301 天前
    @z7356995 就是有声小说,提高用户体验,现在的有声小说都是平白直叙的
    Shawn5
        5
    Shawn5  
    OP
       301 天前
    @julyclyde 的确需要用到 TTS ,但是 TTS ,貌似没感情啊,读出来的小说,太直白了,没有波动,现在还好,能分出男女了,以前连男女都不分
    Shawn5
        6
    Shawn5  
    OP
       301 天前
    @SantinoSong 啊,这样的吗,我去看看,哈哈哈哈,之前有搜到,火山语音在做,但是搜了下,貌似没有这个应用,不知道是不是合并到番茄里面进去了
    odirus
        7
    odirus  
       301 天前
    这块字节做得很好了吧,有声小说重点还是落在 “小说” 上面,内容吸引人才行
    chairuosen
        8
    chairuosen  
       301 天前
    最好是外挂,一个录屏软件 OCR+TTS ,可以不依赖文字内容的版权
    love060701
        9
    love060701  
       301 天前
    技术是支持的,看我用 GPT-4o 实现的效果

    1 、模仿老友记的珍妮丝和武林外传的佟掌柜: https://x.com/Gorden_Sun/status/1838895315514204375

    2 、唱生日歌: https://x.com/Gorden_Sun/status/1839170329262047682

    3 、说情话: https://x.com/Gorden_Sun/status/1839252597687071212
    poplar50
        10
    poplar50  
       301 天前 via Android
    @Shawn5 试过番茄小说阅读吗? 微软 edge tts 也行,都是多角色朗读的。
    SylarQAQ
        11
    SylarQAQ  
       301 天前
    可以了解一下 mutliTTS 然后引入 TTS 源后就可以了,我前段时间折腾了一下,虽然抑扬顿挫都有了,但是缺乏了一点儿场景对应的语气,不如真人说书的那种感觉
    Shawn5
        12
    Shawn5  
    OP
       300 天前
    @poplar50 昨晚上试了一下,能分角色,但是语气不会变化,不会根据情节或者文字改变,比如愤怒,高兴等等,都是平白直叙的,跟真人说书差距还是有的
    Shawn5
        13
    Shawn5  
    OP
       300 天前
    @SylarQAQ 谢谢,我也去试试,我刚百度了下,只有一个下载地址,但感觉又不像,github 上也没搜到,能告知下,是在哪里下载吗?
    xz410236056
        14
    xz410236056  
       300 天前
    @Shawn5 #5 你抖音搜小说,做得很好了
    z7356995
        15
    z7356995  
       300 天前
    如果要我为多模态语音付费的话,我觉得应该是练习口语中的语音纠正,你这样发音不对,正确的这个发音是
    clemente
        16
    clemente  
       300 天前
    套一个模型的事 ....
    Shawn5
        17
    Shawn5  
    OP
       300 天前
    @clemente 有没有介绍的模型,感谢!!!
    pkoukk
        18
    pkoukk  
       300 天前   1
    没搞头,微信阅读、喜马拉雅、起点 等已经大规模开始搞了。
    这个事情最重要的不是 AI ,而是这些内容的版权,没内容你找个 AI 读 1 2 3 4 5 6 7 啊?
    liu731
        19
    liu731  
    PRO
       300 天前
    https://speech.microsoft.com

    没搞头啊,兄弟。这网站是个文员都能玩。
    Shawn5
        20
    Shawn5  
    OP
       300 天前
    @pkoukk 哈哈哈,的确,就是不知道有没有其他 AI 能落地的应用,三四个人小团队能够搞定的那种
    zoharSoul
        21
    zoharSoul  
       300 天前
    成本很高吧
    wyd011011daniel
        22
    wyd011011daniel  
       300 天前
    https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/speech-synthesis-markup-voice#use-speaking-styles-and-roles

    你说的就是用大语言模型生成 SSML 标记过后的文本内容

    看你是要实时还是预先训练好
    实时的话,可以做个阅读器让用户自己导入小说。
    起步等待要久一点 然后上下文联系可能会出错。
    预训练的话版权问题基本只能大公司做

    我自己用阅读/爱阅记 azure tts 听书很久了,也挺听喜马拉雅的有声书。

    喜马拉雅真人配的有声书(哈利波特系列/三体系列)除了情感以外 还会模仿角色音色,配音功夫下的很多,而且还有环境配乐和各种实时动作的配乐。

    现在 ai 配环境声不知道做的怎么样。觉可以朝着对标这种有声剧想想办法。
    lance07
        23
    lance07  
       300 天前
    番茄, 讯飞, 微信读书一堆应用都有, 目前我听着最舒服的是微信
    wyd011011daniel
        24
    wyd011011daniel  
       300 天前
    @wyd011011daniel 不过我是不太报希望,因为这种听的东西,人对错误的容忍程度应该不是那么高的。譬如男女声音,不同情感。如果配错了,人会很敏感的察觉到,对主要受众来说会很出戏。 不像图片那么好糊弄人
    Shawn5
        25
    Shawn5  
    OP
       300 天前
    @wyd011011daniel 受教了!!!
    PaulSamuelson
        26
    PaulSamuelson  
       300 天前
    除非,除非,这个 AI 能把某些小说里的:呕,呕,阿,阿,读出感情,读出力量来。
    否则,你这个 AI 没有壁垒,同质化严重。
    Libby520
        27
    Libby520  
       300 天前
    步非烟
    murmur
        28
    murmur  
       300 天前
    你都入场晚了,现在 b 站营销号 抖音大部分都是 AI 配音
    a67793581
        29
    a67793581  
       300 天前
    @Libby520 靠 出戏了
    Shawn5
        30
    Shawn5  
    OP
       300 天前
    @PaulSamuelson 我好像悟了
    yufeng0681
        31
    yufeng0681  
       300 天前
    以后应该是起步 AI 语音做有声阅读。
    如果内容有火的趋势(某些指标达标了),马上就会上真人来重新录制。 把这个作品做到最佳体验。

    或者是优质内容,起步就是真人录制,达到最佳效果。
    bigjie910
        32
    bigjie910  
       300 天前
    可以参考卢卡故事机得方案。 摄像头识别书本内容,需要手动翻页。 不过他这个目前都是录制好的内容, 很多新书或者杂志都识别不到。 可以尝试下这方面得
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5792 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 34ms UTC 06:16 PVG 14:16 LAX 23:16 JFK 02:16
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86