[Audio Podium ] 个人独立开发的一款无需联网的支持将音视频转录成文字或者字幕的软件 免费 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
tf2017
V2EX    分享创造

[Audio Podium ] 个人独立开发的一款无需联网的支持将音视频转录成文字或者字幕的软件 免费

  •  
  •   tf2017
    farmer00317558 2023-05-15 21:25:01 +08:00 3358 次点击
    这是一个创建于 887 天前的主题,其中的信息可能已经有所发展或是发生改变。
    个人开发的免费音视频转录文字工具 Audio Podium 上架!

    希望能在字幕生成,ShowNotes 编辑,播客笔记等方面,帮到 Youtuber 和播客主播!

    基于 OpenAI 的 Whisper ,支持近 100 中语言。
    内置 Small 模型,开箱即用,支持下载使用准确率更高的 Medium 和 Large 模型。
    导出 SRT 字幕文件和纯文本文件。
    对转录结果进行修改。

    这是首个版本,功能还在不断完善中,欢迎大家多提意见。

    目前已上架苹果 App Store ,更多平台( Windows ,iOS ,Android )敬请期待!

    安装体验: https://apps.apple.com/app/audio-podium/id6449008295

    如有任何问题,欢迎联系我:

    - 微信:leobaba88
    - Twitter: https://twitter.com/Farmer00317558
    - Telegram: https://telegram.me/farmer00317558
    22 条回复    2023-05-24 09:16:33 +08:00
    AstroNot
        1
    AstroNot  
       2023-05-15 21:37:52 +08:00 via Android
    正好在找这样的产品,期待 Windows 版本
    tf2017
        2
    tf2017  
    OP
       2023-05-15 21:42:59 +08:00
    @AstroNot 应该不会太久
    imicksoft
        3
    imicksoft  
       2023-05-15 22:45:57 +08:00
    请支持 win7
    cha1
        4
    cha1  
       2023-05-15 23:03:45 +08:00
    点击 [添加音频文件] ,没有反应。


    音频的格式如下:


    AI 模型选择小型:


    macOS 版本:
    版本 13.3.1 (22E261)
    cha1
        5
    cha1  
       2023-05-15 23:13:55 +08:00
    音频文件是下载的 B 站视频,通过 ffmpeg 转换的 mp3 文件。

    测试文件如下:
    https://t.wss.ink/f/b7tf79csszj
    cha1
        6
    cha1  
       2023-05-15 23:15:30 +08:00
    建议:模型下载是否能支持断点续传。
    点了两次,都没下载成功

    1611499758wuhao
        7
    1611499758wuhao  
       2023-05-16 02:11:08 +08:00
    tf2017
        8
    tf2017  
    OP
       2023-05-16 08:36:03 +08:00
    @1611499758wuhao 第一次遇到这么傻逼的,我认真回复一下:

    1. 不管是 OpenAI 的 Whisper 模型还是 whisper.cpp 都是 MIT 协议的,我拿来做成商业软件盈利都是合理的,更不用说我花费了大量的业余时间开发了一个免费的软件给大家用了。你有了解过 MIT 协议的约束范围吗?
    2. 我明确说明了我是基于 OpenAI 的 Whisper 模型来开发的,你有认真看吗?基于第 1 点,我即便是不声明也是可以的。
    3. 你觉得一个普通的不懂技术的人,能用明白那些命令行工具吗?
    4. 这个 B 站视频的发布时间可能还没有我这个 APP 第一次提交谷歌商店审核的时间早,你要是需要的话我截图给你。

    最后,我想说的是,你也是个程序员,看你最近工作也不太顺心,但是别无脑到处喷,把自己所处的行业搞得乌烟瘴气的,最终吃亏的可能是自己。
    tf2017
        9
    tf2017  
    OP
       2023-05-16 08:38:35 +08:00
    @zqhong 点击 “添加音频文件” 后稍微等一下,好像确实有点慢,后面版本会优化下。
    tf2017
        10
    tf2017  
    OP
       2023-05-16 08:38:59 +08:00
    @zqhong 好的,感谢建议,记下了。
    jiager
        11
    jiager  
       2023-05-16 08:49:50 +08:00   2
    @AstroNot
    @imicksoft
    windows 版本上已经有相关的软件了,比如之前 v 友发的:
    - t/928031#reply17
    或者是只能用 cpu 的 buzz:
    - https://github.com/chidiwilliams/buzz
    或者是另一种对 whisper 的封装(软件本体不大,几百 kb ,支持 gpu ,需要在 huggingface 上额外下载模型):
    - https://github.com/Const-me/Whisper

    另外我记得之前有个 v 友发布过一个 ios 端 whisper 的封装:
    - t/930143#reply16
    tf2017
        12
    tf2017  
    OP
       2023-05-16 09:06:41 +08:00
    @jiager Cool !感谢分享。只是做一个转录工具确实没啥竞争力,我期望能围绕音视频转录这个事情,做一个个人的音视频管理工具。
    weid
        13
    weid  
       2023-05-16 11:09:42 +08:00 via iPhone   1
    帮你推广了。附上链接 https://t.me/mac_app_store/167
    milukun
        14
    milukun  
       2023-05-16 11:48:58 +08:00
    @weid 请教一下这种只能群主发信息,且每个信息都可以点进去讨论的群组是什么形式呀?应该怎么创建呢?
    我创建了群组,但是只能群聊,没有找到这个功能
    1611499758wuhao
        15
    1611499758wuhao  
       2023-05-16 17:20:15 +08:00
    @tf2017 道歉,不好意思。没了解过 MIT 协议
    AstroNot
        16
    AstroNot  
       2023-05-16 21:10:50 +08:00 via Android
    @jiager 谢谢!
    nativeBoy
        17
    nativeBoy  
       2023-05-17 08:46:16 +08:00 via Android
    看着挺好,之前少数派也有人发过别的基于 whisper 的软件(那个是只识别语音)
    我尝试把基于 c++的 whisper 部署在安卓上,k50u 是骁龙 8+,5 秒的音频需要 11 秒才能得到结果
    tf2017
        18
    tf2017  
    OP
       2023-05-17 09:04:45 +08:00
    @nativeBoy 嗯,所以我暂时没支持移动端,现在确实对机器配置有一定要求,不然会比较慢。不过以目前 AI 的发展速度,不久应该能看到比较大的改善。
    FFFMML
        19
    FFFMML  
       2023-05-17 13:38:32 +08:00
    buzz 刚出来的时候用过,m1max,两小时电影测试日语,第一非常慢,第二翻译结果垃圾到不可用,用的最大的模型。想问一下这款软件 m1 芯片的机器上效果如何。
    weid
        20
    weid  
       2023-05-18 08:01:33 +08:00 via iPhone
    @milukun 只有群主发的是频道,你要建频道,再在群组的设置关联你建的频道,就可以了
    eslovelqy
        21
    eslovelqy  
       2023-05-23 13:24:43 +08:00
    音频界面整个就是灰色的,配置界面上好的。mac 版本 13.3.1
    tf2017
        22
    tf2017  
    OP
       2023-05-24 09:16:33 +08:00
    @eslovelqy 这个问题最新的版本已经修复了,可以更新一下,谢谢。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1653 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 16:18 PVG 00:18 LAX 09:18 JFK 12:18
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86