请求各位大神，有没有知道拍照，然后实现做数学题开源方案

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 418 天前的主题，其中的信息可能已经有所发展或是发生改变。

有没有知道拍照，然后实现做数学题开源方案，这块应该技术上怎么实现

拍照

数学题

开源

10 条回复 2025-01-17 20:17:34 +08:00

FlytoSirius

2025 年 1 月 8 日

同样感兴趣

gitxuzan

2025 年 1 月 8 日

收费的也行吧，就是主要是专门解方程式这方面

ansemz

2025 年 1 月 8 日

deepseek 的 vl 模型应该可以

evan1

PRO

2025 年 1 月 8 日

理论上应该是先拍照，然后 OCR 识别内容，然后把内容塞给大模型，然后输出大模型的结果。

xiexiping

2025 年 1 月 8 日 via Android

@evan1 有现成的解决方案用来集成吗？ OCR 好像 bat 都有，解题的模型就不太清楚了，这样是不是可以自己做一个拍照解题应用了

evan1

PRO

2025 年 1 月 8 日

@xiexiping #5 这个没有具体研究过。

理论上接入其它模型最方便，说的直接一点就是直接去套壳。

找个开源模型然后再找些题库、公式数据集训练一下也可以，但是太麻烦了而且效果不一定好。

自己做一个拍照解题应用是可以，但是 google 搜一下"拍照解题"可以看到已经有很多类似产品了。如果只是自己研究的话可以搞搞，想要靠这个实现收入的话我觉得有点困难。

xiexiping

2025 年 1 月 8 日 via Android

@evan1 确实很多领域市场上都有比较成熟的产品了，但是还是有很多小公司做的小产品能从中吃到一小块蛋糕，我以前公司的产品就是这个思路，只是集成一下市场上现有的 SDK 提供的功能，做一个简单的产品，赚不了大钱但是能凭借比较简单的功能和低成本，能有一部分用户，所以我才有了这个想法，哈哈

LingXingYue

2025 年 1 月 9 日 via Android

我自己目前是拍照，然后传给支持视觉的大模型，让他以 markdown 输出，公式使用 latex 表示实现 OCR
然后再把输出的文字内容传给第二个大模型做题
优点是比直接传图片做题的正确率高，缺点是慢成本高没法做有图的题

gitxuzan

2025 年 1 月 9 日

@LingXingYue 麻烦贴下开源地址，谢谢

LingXingYue

2025 年 1 月 17 日

@gitxuzan 项目都没有 2333
就是单纯的先用提示词让大模型 OCR ，然后再让他做题