有没有能识别多人声音的 AI 工具呢 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
iceriver99
V2EX    问与答

有没有能识别多人声音的 AI 工具呢

  •  
  •   iceriver99 269 天前 1722 次点击
    这是一个创建于 269 天前的主题,其中的信息可能已经有所发展或是发生改变。

    就是我现在有一个视频,这个视频中有三个人在对话,我想通过语音识别来分别识别出这三个人都谁说了哪句话,并且把它导出成文本标记出来。然后方便我去做翻译。。。

    14 条回复    2025-01-14 11:35:58 +08:00
    kirieievk
        1
    kirieievk  
       269 天前
    关注!
    Perry
        2
    Perry  
       269 天前 via iPhone
    有很多 Podcast 生产力工具支持这样的,Perplexity 搜下试试看?
    vopin
        3
    vopin  
       269 天前 via iPhone
    同样需求,一年多前调查的时候暂时没找到一步到位的工具。whisper 虽然很厉害了但是分辩人不行,一些经典机器学习方法也不完美。
    现在不知道怎样了
    NOneKnowYeah
        4
    NOneKnowYeah  
       269 天前
    通义听悟
    gpt5
        5
    gpt5  
       269 天前
    我记得当年学 svm 的时候,老师给过一个例子,用 1 行 matlab 代码(非工具箱)就实现了区分不同人的声音。
    JayZXu
        6
    JayZXu  
       269 天前
    飞书个人版的妙记
    直接上传视频,会自动生成字幕而且匹配发音人
    可能会识别出多个发音人,改下标注就行了
    而且还能切换各种语言翻译的结果
    mfy
        7
    mfy  
       269 天前
    sherpa-onnx ,FunASR
    这两个都可以。测试下来,感觉 sherpa-onnx 识别的准确度稍高一些;使用上 FunASR 简单一些。
    evan1
        8
    evan1  
    PRO
       269 天前 via iPhone
    钉钉会议可以实现,用过一两次。识别准确率估计 80%-90%左右。
    evan1
        9
    evan1  
    PRO
       269 天前 via iPhone
    @evan1 是会议还是直播忘记了。

    当时看到这个功能大受震撼。
    evan1
        10
    evan1  
    PRO
       269 天前 via iPhone
    @evan1 没注意是已有视频。这样的话可以看看转录行不行。
    dzdh
        11
    dzdh  
       269 天前
    阿里的语音识别 API 可。
    jiobanma
        12
    jiobanma  
       269 天前
    阿里的通义听悟
    Daybyedream
        13
    Daybyedream  
       269 天前
    飞书那个 一直可以 讯飞妙计
    yu13n
        14
    yu13n  
       269 天前
    我没办法给出具体的解决方案,但这种需求一般被叫做“鸡尾酒会问题”,可以用这个作为关键词去搜索一下
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3519 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 10:28 PVG 18:28 LAX 03:28 JFK 06:28
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86