
有没有知道拍照,然后实现做数学题开源方案,这块应该技术上怎么实现
1 FlytoSirius 2025 年 1 月 8 日 同样感兴趣 |
2 gitxuzan OP 收费的也行吧,就是主要是专门解方程式这方面 |
3 ansemz 2025 年 1 月 8 日 deepseek 的 vl 模型应该可以 |
4 evan1 PRO 理论上应该是先拍照,然后 OCR 识别内容,然后把内容塞给大模型,然后输出大模型的结果。 |
5 xiexiping 2025 年 1 月 8 日 via Android @evan1 有现成的解决方案用来集成吗? OCR 好像 bat 都有,解题的模型就不太清楚了,这样是不是可以自己做一个拍照解题应用了 |
6 evan1 PRO @xiexiping #5 这个没有具体研究过。 理论上接入其它模型最方便,说的直接一点就是直接去套壳。 找个开源模型然后再找些题库、公式数据集训练一下也可以,但是太麻烦了而且效果不一定好。 自己做一个拍照解题应用是可以,但是 google 搜一下"拍照解题"可以看到已经有很多类似产品了。如果只是自己研究的话可以搞搞,想要靠这个实现收入的话我觉得有点困难。 |
7 xiexiping 2025 年 1 月 8 日 via Android @evan1 确实很多领域市场上都有比较成熟的产品了,但是还是有很多小公司做的小产品能从中吃到一小块蛋糕,我以前公司的产品就是这个思路,只是集成一下市场上现有的 SDK 提供的功能,做一个简单的产品,赚不了大钱但是能凭借比较简单的功能和低成本,能有一部分用户,所以我才有了这个想法,哈哈 |
8 LingXingYue 2025 年 1 月 9 日 via Android 我自己目前是拍照,然后传给支持视觉的大模型,让他以 markdown 输出,公式使用 latex 表示实现 OCR 然后再把输出的文字内容传给第二个大模型做题 优点是比直接传图片做题的正确率高,缺点是慢 成本高 没法做有图的题 |
9 gitxuzan OP @LingXingYue 麻烦贴下开源地址,谢谢 |
10 LingXingYue 2025 年 1 月 17 日 @gitxuzan 项目都没有 2333 就是单纯的先用提示词让大模型 OCR ,然后再让他做题 |