
有没有知道拍照,然后实现做数学题开源方案,这块应该技术上怎么实现
1 FlytoSirius 341 天前 同样感兴趣 |
2 gitxuzan OP 收费的也行吧,就是主要是专门解方程式这方面 |
3 ansemz 341 天前 deepseek 的 vl 模型应该可以 |
4 evan1 PRO 理论上应该是先拍照,然后 OCR 识别内容,然后把内容塞给大模型,然后输出大模型的结果。 |
6 evan1 PRO @xiexiping #5 这个没有具体研究过。 理论上接入其它模型最方便,说的直接一点就是直接去套壳。 找个开源模型然后再找些题库、公式数据集训练一下也可以,但是太麻烦了而且效果不一定好。 自己做一个拍照解题应用是可以,但是 google 搜一下"拍照解题"可以看到已经有很多类似产品了。如果只是自己研究的话可以搞搞,想要靠这个实现收入的话我觉得有点困难。 |
7 xiexiping 341 天前 via Android @evan1 确实很多领域市场上都有比较成熟的产品了,但是还是有很多小公司做的小产品能从中吃到一小块蛋糕,我以前公司的产品就是这个思路,只是集成一下市场上现有的 SDK 提供的功能,做一个简单的产品,赚不了大钱但是能凭借比较简单的功能和低成本,能有一部分用户,所以我才有了这个想法,哈哈 |
8 LingXingYue 340 天前 via Android 我自己目前是拍照,然后传给支持视觉的大模型,让他以 markdown 输出,公式使用 latex 表示实现 OCR 然后再把输出的文字内容传给第二个大模型做题 优点是比直接传图片做题的正确率高,缺点是慢 成本高 没法做有图的题 |
9 gitxuzan OP @LingXingYue 麻烦贴下开源地址,谢谢 |
10 LingXingYue 331 天前 @gitxuzan 项目都没有 2333 就是单纯的先用提示词让大模型 OCR ,然后再让他做题 |