想问下如何将 srt 字幕文本自动剪接生成一个完整语句啊? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
summerlv
V2EX    程序员

想问下如何将 srt 字幕文本自动剪接生成一个完整语句啊?

  • /li>  
  •   summerlv 2024-05-02 13:44:26 +08:00 5282 次点击
    这是一个创建于 525 天前的主题,其中的信息可能已经有所发展或是发生改变。

    比如通过一些软件生成了 srt 字幕文本,但是这些字幕文本都比较零散,可以通过写一个解析 srt 文本的程序让它们自动剪接生成一句完整的话吗?然后剪切合并后的语句的时间戳信息也自动合并!没想出啥思路可以解决,想用 Python 来写,搜了下有 srt 相关的库,但是具体的解析思路还没有!

    还请相关前辈指导一些思路?不胜感激,^_^

    27 条回复    2024-05-13 11:46:59 +08:00
    naminokoe
        1
    naminokoe  
       2024-05-02 13:55:42 +08:00
    如何定义什么叫做一句完整的话?
    dji38838c
        2
    dji38838c  
       2024-05-02 14:02:41 +08:00
    中文吗
    中文还是比较好搞的,做过
    summerlv
        3
    summerlv  
    OP
       2024-05-02 14:02:53 +08:00
    @naminokoe 这个也是要思考的问题,
    summerlv
        4
    summerlv  
    OP
       2024-05-02 14:04:20 +08:00
    @dji38838c 英文,想把英文弄成一句完整的话,然后翻译为中文,英文就是比较多语气词或者停顿的话就不好弄,而且最要命的是可能会有对话形式
    summerlv
        5
    summerlv  
    OP
       2024-05-02 14:05:05 +08:00
    @dji38838c 中文的思路是怎么弄啊?是用到啥库吗,或者解析步骤是咋样的?
    Solix
        6
    Solix  
       2024-05-02 14:11:15 +08:00 via iPhone
    扔给 gpt 直接组合就好了,不放心就用工作流就行了,这么简单的问题
    summerlv
        7
    summerlv  
    OP
       2024-05-02 14:19:30 +08:00
    @gaobh 有尝试过喂给 GPT ,但是效果不是很好,特别是遇到长文本的时候,工作流是什么啊
    summerlv
        8
    summerlv  
    OP
       2024-05-02 14:20:10 +08:00
    @summerlv GPT 说着说着就自动编造其他的话了,都不是原文了
    mumbler
        9
    mumbler  
       2024-05-02 14:32:52 +08:00
    用 whisper 重新去识别生成字幕,prompt 告诉它按完整句子断句
    summerlv
        10
    summerlv  
    OP
       2024-05-02 14:38:14 +08:00
    @mumbler 可以再细说下吗?
    mumbler
        11
    mumbler  
       2024-05-02 14:45:28 +08:00
    @summerlv 再细就要帮你做了,你适合花 20 美金买个 chatgpt plus ,跟 gpt4 聊聊你的疑问
    Solix
        12
    Solix  
       2024-05-02 14:52:14 +08:00 via iPhone
    @summerlv #7 工作流都不知道用 gpt 算白花钱了,工作流就是分步推理然后串联理解吧
    XCFOX
        13
    XCFOX  
       2024-05-02 14:57:49 +08:00
    OP 用的什么什么软件生成的 srt ? 正常的语音识别输出的不就是一个完整的语句吗?

    https://www.xfyun.cn/services/lfasr
    https://help.aliyun.com/zh/dashscope/developer-reference/paraformer-speech-recognition/
    https://www.volcengine.com/product/asr
    summerlv
        14
    summerlv  
    OP
       2024-05-02 16:26:58 +08:00
    @gaobh 太菜了,我看了下 whisper ,感觉可以用它的 Python 库试试
    summerlv
        15
    summerlv  
    OP
       2024-05-02 16:29:16 +08:00
    @XCFOX 剪映,用的剪映的智能字幕识别,识别出来的其实还蛮准确的, 但是就是因为对话形式的字幕,导致有些单词不能成句,然后就需要手动调,感觉比较麻烦,所以想着能不能解析下 srt 文本,然后能够自动调整下成句
    javaluo
        16
    javaluo  
       2024-05-02 18:47:46 +08:00 via iPhone
    有 Whisper 识别英文,说不定识别之后效果就么已经不错,没有那种断来断去的问题我
    sm1314
        17
    sm1314  
       2024-05-02 18:50:24 +08:00
    需要多模态视频理解,字幕信息量太少了
    sm1314
        18
    sm1314  
       2024-05-02 18:51:23 +08:00
    你就是想做视频解说吧,别想了,难度很大
    matthewzhong
        19
    matthewzhong  
       2024-05-02 20:58:43 +08:00   1
    剪映有个有智能剪口播的功能,可以快速剔除不要的,卡顿的、语气词的部分。

    [字幕工具箱 - 免费的在线字幕工具集合]( https://zm.i8k.tv/)
    thinkm
        20
    thinkm  
       2024-05-02 21:00:06 +08:00
    这个比较难,目前没有好的方案
    sighforever
        21
    sighforever  
       2024-05-02 21:13:20 +08:00
    我觉得 gpt 仔细限制一下提示词,应该能做到吧。文本重写基本上是 gpt 这种大语言模型最基础可靠的能力之一。

    当然你的需求里面对语意方面的要求比较高,无论哪种都不太行吧。毕竟只有字幕这一个信息,对于完全理解文本内容多少有点不够。
    jdcola
        22
    jdcola  
       2024-05-03 05:51:19 +08:00 via iPhone
    @mumbler Whisper 的 prompt 跟 GPT 的 prompt 不是一回事,干不了这个。
    luodan
        23
    luodan  
       2024-05-03 07:35:33 +08:00
    可以分析一下某条字幕的结束时间和下一条字幕的起始时间。如果小于某个值就认为是一句话。不过遇到相声这类的估计就傻眼。最好还是让 AI 来分析音频,按不同频谱的声音先独立出来,再按时间间隔来分句子。
    HENQIGUAI
        24
    HENQIGUAI  
       2024-05-03 09:01:28 +08:00
    不需要那么复杂,丢给通义听悟即可。
    mumbler
        25
    mumbler  
       2024-05-03 23:17:02 +08:00
    @jdcola #22 whisper 断句长度是用 prompt 控制的
    jdcola
        26
    jdcola  
       2024-05-05 11:43:40 +08:00 via iPhone
    @mumbler 噢,那是的。楼主需要注意不是用 prompt 告诉 Whisper 该怎么做,而是上文预设兼风格示例。
    txanin
        27
    txanin  
       2024-05-13 11:46:59 +08:00
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1163 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 23:31 PVG 07:31 LAX 16:31 JFK 19:31
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86