我把 Gemini 2.0 实时视频语音对话功能添加到了手机 APP 中 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
smalltong02
V2EX    程序员

我把 Gemini 2.0 实时视频语音对话功能添加到了手机 APP 中

  •  1
     
  •   smalltong02
    smalltong02 254 天前 3416 次点击
    这是一个创建于 254 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Gemini 2.0:Google 最新的多模态大模型

    Gemini 2.0 是 Google 最新的统一大模型,能够同时处理 文本、音频和视频数据,并支持 音频输出。这意味着你可以通过 摄像头和麦克风,与该模型进行 实时对话

    目前,在 GitHub 上可以找到的部署方案大多是针对 PC 端Gemini 2.0 多模态实时交互,而我可能是第一个将这一功能移植到手机端的开发者。不知道是否有朋友感兴趣,想看看它在 移动设备 上的效果?


    现有功能

    音频交互:通过手机麦克风赋予 Gemini 2.0 听觉能力,实现 实时问答
    视觉交互:通过手机摄像头赋予 Gemini 2.0 视觉能力,进行 实时图像分析与交互
    联网与代码执行:模型支持 联网查询实时数据代码执行功能,使其更加强大。
    免费使用:目前该功能 完全免费,无需额外付费。


    功能限制

    国内可能无法使用:由于模型依赖 Google 的服务,在中国大陆地区可能无法正常访问。
    时长限制:目前 Google 仍在测试该模型,因此对话时长受限:

    • 纯音频对话 最长 15 分钟
    • 音频 + 视觉交互 最长 3 分钟

    这是 Google 设定的限制,非技术问题导致。


    如果你对这个项目感兴趣,欢迎讨论和交流!

    Android 版本https://play.google.com/store/apps/details?id=com.keras.keras_android_chatbot

    苹果版本https://apps.apple.com/us/app/keras-chatbot-voice-assistant/id6608969280

    第 1 条附言    254 天前
    请选择第一项在线聊天:

    9 条回复    2025-01-31 09:25:52 +08:00
    vfx666
        1
    vfx666  
       254 天前 via iPhone
    马克马克
    Amanises
        2
    Amanises  
       254 天前
    厉害厉害,尝试下
    smalltong02
        3
    smalltong02  
    OP
       254 天前
    请问大家试用过之后有什么反馈吗?

    我提供自己的一个测试案例,我复现过 Google 演示中一个非常厉害的功能,我在桌子上放了一个 PC 的头戴式耳机,然后在提问过程中,手机摄像头移动时扫到过这个耳机,在又经过一些问答之后并且摄像头并没有对准桌子和耳机的情况下,我询问是否有看到我的耳机在什么地方,Gemini 2.0 回答耳机在桌子上。
    Aka114514
        4
    Aka114514  
       253 天前 via iPhone
    想问下开发者,这个软件在 ios 端是不是用连续连续拍照实现视频对话的。手机的快门声一直在响没停过
    boshok
        5
    boshok  
       253 天前
    安装-卸载。
    smalltong02
        6
    smalltong02  
    OP
       253 天前
    @Aka114514

    是的,其实我是调用了 takepicture 功能获取的图像数据,这样省了转换的编码,其实如果获取原始的 pcm 数据流就没这个问题了。我下个版本会进行修复,好像有些国家或地区,在调用拍照的时候必须开启快门声音,为了避免偷拍什么的。请问您的手机是苹果手机还是 ipad? 我的苹果手机没有快门的声音。
    smalltong02
        7
    smalltong02  
    OP
       253 天前
    @boshok

    为啥呢,小哥哥。
    Aka114514
        8
    Aka114514  
       252 天前 via iPhone
    @smalltong02

    港版 iphone12pro ios18.3 系统,要是把手机的静音键打开就没有拍照声,不打开的话就没法把铃声调节至 0 就依然会有拍照声。开启静音不影响媒体声音,只是对铃声静音,所以对话声音正常
    smalltong02
        9
    smalltong02  
    OP
       252 天前
    @Aka114514

    我已经改了一版捕获摄像头图像帧的方法来处理视频流,这样就没有快门声音了,就是上传发布还需要点时间。你是在国内还是香港使用?可以用 gemini 2.0 进行实时对话吗,我只在加拿大使用过,不知道其它地区使用效果怎么样。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1020 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 22:52 PVG 06:52 LAX 15:52 JFK 18:52
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86