基于这个开源小项目,做哪些受欢迎的 ChatGPT 插件模型? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
829939
V2EX    程序员

基于这个开源小项目,做哪些受欢迎的 ChatGPT 插件模型?

 
  •   829939
    LiweiDong 2023-04-03 13:42:51 +08:00 5601 次点击
    这是一个创建于 1002 天前的主题,其中的信息可能已经有所发展或是发生改变。

    本人研二,专业深度学习音频领域研发,去年在校做了一个开源小项目,是关于音频特征提取和分析的,可以针对音频领域的各种业务做原型开发,目前规划的音频领域的研究任务方向:

    1. 智能调音器, 针对吉他弦乐乐器的调音,识别音高和拨动的哪一根琴弦,
    2. 旋律提取,从音乐音频中识别旋律音高轮廓,主要针对人声唱歌主旋律声音的基频提取,
    3. 音轨分离,从音乐音频中分离出人声,钢琴、吉他、鼓、贝斯等多个乐器声音
    4. 和弦估算,识别音乐音频中和弦,和弦类型有大小三、挂 2/4 、属七、属九和弦以及各个类型的转位,包括起始和持续时间
    5. 钢琴转录,针对钢琴乐器音频的复音识别,确定复音的端点、音高组合、持续时间,转录为 midi 或曲谱
    6. .....

    如果做成 ChatGPT 插件模型哪些会更受欢迎?这些方向应用场景和需求怎么样?
    欢迎大家参与论讨或给出新的方向建议!!! 后续按大家讨论建议汇总, 确认几个研究方向后按优先级逐步开发实现并开源贡献。

    项目地址: https://github.com/libAudioFlux/audioFlux

    55 条回复    2023-04-04 21:58:17 +08:00
    chatWell1
        1
    chatWell1  
       2023-04-03 13:44:44 +08:00
    和弦估算吧,我觉得这个应用价值广泛,和 chat 结合后,传音频就能出来和弦进行数据吗?
    829939
        2
    829939  
    OP
       2023-04-03 13:54:08 +08:00
    @chatWell1 是的,目前我这个小项目是可以实现这个功能的。chat 这边我还需要看下文档。
    CMLab
        3
    CMLab  
       2023-04-03 14:00:33 +08:00
    给 chat 一个 mp3 , 使用你的插件模型 音轨分离 --->旋律提取(人声)+和弦估算(伴奏)---->钢琴转率(不一定钢琴乐器),这些走通,估计 chat 上会飘起来
    dark009
        4
    dark009  
       2023-04-03 14:08:35 +08:00
    我感觉目前的音轨分离方案在处理复杂音乐时效果还不够理想,希望能够有更加准确的算法和模型来解决这个问题
    xbcslzy
        5
    xbcslzy  
       2023-04-03 14:11:29 +08:00
    目测新一波炼丹需求要来了
    829939
        6
    829939  
    OP
       2023-04-03 14:12:22 +08:00
    @dark009 音轨分离一般常用的做法是频域掩码,最简单的就是二值化掩码,有很多这块定向算法的研究,典型的如 NMF 算法相关的有很多种,很多也取得不错的效果,但效果好的还是使用深度学习训练频域掩码,也是这些年音频领域研究的热点之一。
    829939
        7
    829939  
    OP
       2023-04-03 14:13:44 +08:00
    @CMLab 大佬提的这一套能实现下来确实能方便很多音乐学生?
    chatWell1
        8
    chatWell1  
       2023-04-03 14:14:21 +08:00
    @xbcslzy 音频音乐领域的盛宴估计要开始了
    chatWell1
        9
    chatWell1  
       2023-04-03 14:15:31 +08:00
    @CMLab 厉害,这个能走通,目测能火
    dark009
        10
    dark009  
       2023-04-03 14:17:54 +08:00
    @CMLab 这个想法非常棒啊
    ManxCat
        11
    ManxCat  
       2023-04-03 14:19:02 +08:00
    音轨分离和和弦估算最受欢迎吧 但是成年人不做选择,我全要
    CMLab
        12
    CMLab  
       2023-04-03 14:20:48 +08:00
    @829939 我觉得音乐生成这个业务和方向,是个热点,楼主可以考虑下这个点的研发
    CMLab
        13
    CMLab  
       2023-04-03 14:22:58 +08:00
    @ManxCat 成年人,爱音乐的话, 我觉得可能调音器最重要
    chatWell1
        14
    chatWell1  
       2023-04-03 14:32:05 +08:00
    @829939 @CMLab 加上音频指纹这个模型,估计更好玩
    collinmehle
        15
    collinmehle  
       2023-04-03 14:32:09 +08:00
    @CMLab 调音器只针对了部分乐器领域 不够通用
    Aloento
        16
    Aloento  
       2023-04-03 14:34:22 +08:00
    玩音乐的表示你这个出来了记得踢我,简直不要太棒
    829939
        17
    829939  
    OP
       2023-04-03 14:35:13 +08:00
    @chatWell1 音频指纹确实是不错的想法。这个库可以帮助你实现。两种方式:1 、基于时频分析的方式,2 、基于深度学习的方式。 都可以用到库里提供的方法提取一些音频特征。
    CMLab
        18
    CMLab  
       2023-04-03 14:36:38 +08:00
    @collinmehle 音轨分离这些可能对老师或 B 端这样的用户有用,调音器单说吉他这一块,做出智能的模型和 chat 相结合,全球吉他用户估计都会碾压式测试,和音轨分离目标用户不是量级
    chatWell1
        19
    chatWell1  
       2023-04-03 14:39:51 +08:00
    @829939 大佬,这个方向我投你深度学习的模型做出来开源,会在这个 github 地址上开源吗
    fanjk
        20
    fanjk  
       2023-04-03 14:42:25 +08:00
    @829939 我一直想做一个关于音乐情绪分类的模型,不知道如何下手。大佬可否给个思路?
    829939
        21
    829939  
    OP
       2023-04-03 14:52:21 +08:00
    @fanjk 这需要对大量音频数据进行特征提取,对数据进行标注,打上情感标签。然后建立机器学习模型,对标注好的数据进行训练。然后就可以针对你的音频进行情感预测。
    zhhanging
        22
    zhhanging  
       2023-04-03 15:00:20 +08:00
    现在手机上的调音器 app 就可以有 1 的效果了呀,而且调音功能是免费的,我用的是 guitartuna
    829939
        23
    829939  
    OP
       2023-04-03 15:07:50 +08:00
    @zhhanging 你说的没错。市面上确实有一些还不错的调音器 APP 。 但是并没有发现能识别你弹奏的是哪一根弦的,而是根据识别到的音高频率 简单的归到临近频率的弦上。 这对吉他新手 或者“新琴”很不友好,识别错弦的话 很容易让人把弦条断。
    这里就可以根据每根弦的声乐特征进行训练,可以识别出用户弹奏的是哪一根弦,进而提示该调高还是调低。
    另外这个做出来也将是开源的。guitartuna 好像还有些付费限制。
    james0517
        24
    james0517  
       2023-04-03 15:15:01 +08:00
    我想训练模型,可是我的垃圾显卡不太想,40 系显卡太贵了 - - 还有什么推荐吗
    chatWell1
        25
    chatWell1  
       2023-04-03 15:15:05 +08:00
    @zhhanging "识别音高和拨动的哪一根琴弦",大佬想表达应该不止音高,还有确认是哪一根弦发出的,目前市面上 app 大多估计都是基于纯粹的频率音高做的,对新手可能不太友好,某些情况下弦可能调断或越调越低
    CMLab
        26
    CMLab  
       2023-04-03 15:18:44 +08:00
    @james0517 goole 免费的 Colab 可以白嫖,就是有时候可能不太稳定
    james0517
        27
    james0517  
       2023-04-03 15:23:38 +08:00
    @CMLab Colab 我看过,感觉有点麻烦。 我本地大量数据集还要上传到 google ,费流量。
    还是想在本地跑。 有没有显卡推荐
    fanjk
        28
    fanjk  
       2023-04-03 15:25:03 +08:00
    @james0517 4070 快出了,我想买,但是看 amd 的性价比更好,就是不知道对于训练来说兼容性如何?
    xbcslzy
        29
    xbcslzy  
       2023-04-03 15:48:32 +08:00
    @fanjk 3080 3090 性价比高一些
    fanjk
        30
    fanjk  
       2023-04-03 15:57:13 +08:00
    @xbcslzy 30 系都是矿吧
    CMLab
        31
    CMLab  
       2023-04-03 16:10:41 +08:00
    @james0517 找二手 A100 试试
    s0nnse
        32
    s0nnse  
       2023-04-03 16:12:44 +08:00   1
    1 无用,很多调音设备已经具备这个功能了,并不复杂。推荐自动扒歌、音画分录的音轨自动对齐,根据视频里的手势自动识别和弦、自动生成简谱,根据录屏自动教学、纠错。
    diggerdu
        33
    diggerdu  
       2023-04-03 16:19:09 +08:00
    分离转谱这些技术都相对成熟了
    chatWell1
        34
    chatWell1  
       2023-04-03 16:31:26 +08:00
    @diggerdu @829939 分离相对成熟一些,一般最多人声,钢琴、bass 、鼓、其它,如果加上吉他等其它乐器延展一下就更好了;转谱这块成熟的不多,这里面涉及到一个 multi-pitch 以及多声部端点侦测的问题,目前这块没有太好的,大佬可以尝试这方面的研究,这也是一直是 MIR 领域比较难啃的一个点
    insmoin
        35
    insmoin  
       2023-04-03 17:05:00 +08:00
    钢琴转录 midi 好几年前就有了 你可以优化下 字节开源的 https://github.com/bytedance/piano_transcription
    findex
        36
    findex  
       2023-04-03 17:24:38 +08:00
    @CMLab 我现在用的 mac 上某免费软件,可以体验所有功能。
    829939
        37
    829939  
    OP
       2023-04-03 17:27:24 +08:00
    @insmoin 感谢推荐。我试试效果
    CMLab
        38
    CMLab  
       2023-04-03 17:41:53 +08:00
    @insmoin 这个早起有关注过,网络结构上采用常用的 CRNN+联合损失函数,给的 demo 也不错,之前录了一把小星星实测一把,效果不理想,比 demo 差远了,我怀疑是不是某种过拟合了,还是真实录制的钢琴( the one )就是有问题,大佬有实测使用过感受效果吗?
    CMLab
        39
    CMLab  
       2023-04-03 17:49:59 +08:00
    @829939 @insmoin 转录这块,我发现台湾某一个大学出的一个 omnizart 项目还算能出一些效果,和弦识别这块貌似只有大小三和弦,转录这块要成熟应用还有不少差距(实测节奏、音高这些都或多或少有问题),本项目是基于现有音轨分离、chord 识别一些开源项目基础上二次训练而成的,大佬研究这块可以借鉴一下
    xbcslzy
        40
    xbcslzy  
       2023-04-03 18:05:33 +08:00
    @fanjk 高端的矿少一些 特别是 12G 版本的, 而且 30 系是最后一代 sli 了 后边扩 2 卡 4 卡不知道 40 系能不能搞
    james0517
        41
    james0517  
       2023-04-03 18:07:12 +08:00
    @fanjk AMD 做机器学习还是算了:工具链匮乏、库资源匮乏、开发和迭代兼容性的代价较大。
    4070 可以看看
    stonepy
        42
    stonepy  
       2023-04-03 18:07:55 +08:00
    @829939 好的,谢谢大佬
    CMLab
        43
    CMLab  
       2023-04-03 18:24:08 +08:00
    @findex 可以分享一下这款软件,我看之前是否有体验过
    chatWell1
        44
    chatWell1  
       2023-04-03 19:58:28 +08:00
    @829939 音频指纹深度学习方式如何做,大佬可否给个思路建议?
    zw1234
        45
    zw1234  
       2023-04-03 20:27:46 +08:00
    能否用 chatgpt 生成歌词和旋律,然后合成歌曲,ai 写歌...
    829939
        46
    829939  
    OP
       2023-04-03 21:27:18 +08:00 via iPhone
    @chatWell1 音频指纹上面有提到两种方式:1 、基于时频分析的方式,2 、基于深度学习的方式。 都可以用到库里提供的方法提取一些音频特征。
    829939
        47
    829939  
    OP
       2023-04-03 21:42:08 +08:00 via iPhone
    @zw1234 chatGPT 目前应该可以生成歌词和旋律,接着还可以给旋律配乐,目前输出只能是文本形式,更成熟的生产力可能需要更专业的 prompt 和后续 audio 输出的支持。
    xbcslzy
        48
    xbcslzy  
       2023-04-03 23:03:37 +08:00
    看评论区这些如果实现了又要释放一波生产力了, 不过最近 B 站多位博主暂时停更了 要开始反对 AI 了
    clemente0620
        49
    clemente0620  
       2023-04-04 10:27:46 +08:00
    能做乐器迁移吗? 比如 吉他换成钢琴
    chatWell1
        50
    chatWell1  
       2023-04-04 10:43:52 +08:00
    @clemente0620 google Magenta 这个项目有你所说的类似功能
    olderwang
        51
    olderwang  
       2023-04-04 18:14:53 +08:00
    好奇,是否可以做声音的音色模拟啥的,通过输入目标音频,提取对应的音色,然后赋值给新的视频中对应的音频,感觉这个功能可以做些热门视频本地方言化,在地方论坛或者抖音地方中获取不错的流量
    ppxiale
        52
    ppxiale  
       2023-04-04 18:25:22 +08:00
    @olderwang 我觉得你这个可以有,小时候我们那边什么士兵突击方言版、各种热门电影的方言版片段都挺火的,不过我觉得这块可能还有个问题不好解决,就是方言对应的语料库这些,类似于语言翻译这块,不仅仅是声音音色识别,口音只是方言的一个特色,很多语义其实也需要解决
    olderwang
        53
    olderwang  
       2023-04-04 18:30:45 +08:00
    @ppxiale 嗯,是这样,音频领域和文字领域很多都是相辅相成的,入口出口都有很大价值,能操作的点还是很多的,期待大佬们的作品
    insmoin
        54
    insmoin  
       2023-04-04 21:30:56 +08:00
    @CMLab GUI 版 https://github.com/azuwis/pianotrans/ 还原度能达到 90%以上吧, b 站搜 AI 扒谱能搜到很多, 只能是钢琴的
    insmoin
        55
    insmoin  
       2023-04-04 21:58:17 +08:00
    @CMLab "给 chat 一个 mp3 , 使用你的插件模型 音轨分离 --->旋律提取(人声)+和弦估算(伴奏)---->钢琴转率(不一定钢琴乐器),这些走通,估计 chat 上会飘起来"

    今天看到个 HuggingGPT 通过特定的 prompt 来分解用户需求成不同任务, 调用多种绘画 AI 来实现类似多模态的功能 思路挺不错的 我觉得这个思路可以拿来实现你说的这个
    https://www.bilibili.com/video/BV1mT411s7Qr
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5158 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 05:57 PVG 13:57 LAX 21:57 JFK 00:57
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86