V2EX itwardhalfacree
 itwardhalfacree 最近的时间轴更新
itwardhalfacree

itwardhalfacree

V2EX 第 511999 号会员,加入于 2020-10-10 18:20:29 +08:00
itwardhalfacree 最近回复了
2024-03-08 12:34:17 +08:00
回复了 ttgo 创建的主题 OpenAI chatgpt 到底能不能读 pdf 的内容?
我最近有同样的问题,使用 GPT4 读论文时,发现它接收了 PDF 之后,经常不根据文档内容回答,而是使用自己的通识回答问题,导致很多时候答非所问。在 OpenAI 的论坛上搜索了一圈,发现很多人有同样的问题。

总结来说,原因有几点。首先是隐私政策:如果你问 GPT4 的 browse file technical restrictions 时,它会告诉你它不能直接读文档,文档会被矢量化并存入数据库,并且 GPT 所有读文档操作都是通过`myfiles_browser`这种接口来控制,大大限制了它浏览大段文字以及结合前后文回答问题的能力。

其次是 PDF 文件解析问题。根据 OpenAI 论坛上的说法,OpenAI 疑似将 PDF 文件当成 txt 文件进行内容解析了,所以很多 PDF 的转义字符也被存在了 memory 里干扰了文件浏览。帖子里有人提到将 PDF 内容解析为 txt 或 markdown 能显著提高回答精准度,我尝试了确实如此,但依然受限于前面提到的隐私政策,无法结合前后文大段内容进行回答。

我现在使用国产 LLM 来读文档,经过测试,智谱清言,讯飞星火和通义千问在 PDF 问答方面特别好,至少是能够真的结合文档中的真实内容回答,估计是直接将解析的文档内容作为输入 tokens 的一部分了。其他第三方 LLM + langchain 网站也用了不少,但实际体验感都不太行。

其中,个人主观感觉文档问答能力 千问 > 清言 > 星火。文心一言不知道怎么回事,也无法直接阅读文档的具体内容,只能回答一个模糊的大致情况。

以上内容是我琢磨出来,如果谁还有好的方法,麻烦踢我一脚(拜托了,LLM 读文献真的很有帮助)
我也要!支持一下!
2023-12-09 12:10:15 +08:00
回复了 yaott2020 创建的主题 Linux 你倾向于哪个 Linux 桌面发行版?
@EliStone #158 求问这个微信是怎么弄的
tablerone 很好用,既美观又符合你提出的要求,我用着也没崩溃过,可惜没有 Workona 那样的多设备同步
https://chrome.google.com/webstore/detail/tablerone-tab-manager/andpjllgocabfacjlelkfpdemfklpfpo
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     913 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 11ms UTC 19:08 PVG 03:08 LAX 12:08 JFK 15:08
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86