AI 分析视频的底层逻辑是什么,成本有多高? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
fingers
V2EX    问与答

AI 分析视频的底层逻辑是什么,成本有多高?

  •  
  •   fingers 13 天前 1107 次点击
    求大佬简单科普一下,另外如果想对大量短视频内容进行提取或总结,现阶段,有什么可行方案吗?能接受三方服务或自行落地,最好是低成本又稳定。
    4 条回复    2025-12-04 11:27:18 +08:00
    BlueSkyXN
        1
    BlueSkyXN  
       13 天前
    https://ai.google.dev/gemini-api/docs/video-understanding?hl=zh-cn#technical-details-video

    ```有关视频技术方面的详细信息
    支持的模型和上下文:所有 Gemini 2.0 和 2.5 模型都可以处理视频数据。
    上下文窗口为 200 万个 token 的模型可以处理时长不超过 2 小时(默认媒体分辨率)或 6 小时(低媒体分辨率)的视频,而上下文窗口为 100 万个 token 的模型则可以处理时长不超过 1 小时(默认媒体分辨率)或 3 小时(低媒体分辨率)的视频。
    File API 处理:使用 File API 时,视频的存储速率为 1 帧/秒 (FPS),音频的处理速率则为 1Kbps (单声道)。每秒都会添加时间戳。
    为了改进推理,这些速率将来可能会发生变化。
    您可以设置自定义帧速率,以替换 1 FPS 的采样率。
    token 计算:视频的每一秒都按如下方式计算 token:
    各帧(选段率为 1 FPS ):
    如果 mediaResolution 设置为低,则每帧按 66 个 token 计算。
    否则,每帧按 258 个 token 计算。
    音频:每秒 32 个 token 。
    元数据也包含在内。
    总计:默认媒体分辨率下,每秒视频大约需要 300 个 token ;低媒体分辨率下,每秒视频大约需要 100 个 token 。
    媒体分辨率:Gemini 3 通过 media_resolution 参数引入了对多模态视觉处理的精细控制。media_resolution 参数用于确定为每个输入图片或视频帧分配的词元数量上限。分辨率越高,模型读取精细文本或识别细微细节的能力就越强,但会增加令牌使用量和延迟时间。

    如需详细了解该参数及其对令牌计算的影响,请参阅媒体分辨率指南。

    时间戳格式:在提示中引用视频中的特定时刻时,请使用 MM:SS 格式(例如,01:15 表示 1 分 15 秒)。

    最佳实践:

    为获得最佳效果,每个提示请求仅使用一个视频。
    如果将文本与单个视频相结合,请在 contents 数组中将文本提示放在视频部分之后。
    请注意,如果选段率为 1 FPS ,快速动作序列可能会丢失细节。如有必要,可以考虑放慢此类片段的播放速度。
    ```
    因此很明显,抽帧 1 图/s+音频转文本 ASR

    ```
    想对大量短视频内容进行提取或总结,现阶段,有什么可行方案吗?
    ```

    一个支持多模态的 AI 接口+ASR 引擎即可
    slowgen
        2
    slowgen  
       13 天前
    RatioPattern
        3
    RatioPattern  
       13 天前
    似乎都是直接提取音频然后 TTS 转文字然后再接模型的?不需要多模态
    WithoutSugarMiao
        4
    WithoutSugarMiao  
       13 天前
    底层逻辑就是快速提取视频的切片,生成图片,然后对图片进行分析。需要大量操作,自己写代码会好点吧。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3217 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 21ms UTC 04:55 PVG 12:55 LAX 20:55 JFK 23:55
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86