![]() | 1 passive 2023-09-11 09:30:49 +08:00 via Android 看标题我还以为你要接光纤。。。 |
2 aeron 2023-09-11 11:30:31 +08:00 via iPhone 没搞过多模态,点拨不了 |
3 zhangyichent 2023-09-11 11:46:28 +08:00 图片和文本的应该可以借鉴现在很多多模态大模型的吧,视频是应该加上一些帧间对比的东西?我觉得可以借鉴下现在做生成视频时候减少抖动的思路?语音感觉实在不行你先转文字,把他转成两个模态的?(没真研究过,随便扯扯) |