V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

爱意满满的作品展示区。

V2EX 分享创造

分享一个用于增强 RAG 应用的模块 Web Scraper

gydi

zzzgydi 2024-04-15 18:10:35 +08:00 3045 次点击

这是一个创建于 623 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近自己在做一个 RAG 应用，感兴趣的朋友可以尝试一下，https://www.zbyai.com

其中有一个功能是需要根据搜索到的 URL 去获取页面的具体内容，这个内容需要处理一下对 LLM 友好一点（ Token 少一点），所以我选择处理成 Markdown 。

所以就有了这么一个项目： https://github.com/zzzgydi/webscraper

原理比较简单：使用无头浏览器或者直接 GET 请求，然后用 Readability.js 进行优化，然后 html 转 markdown 。然后每个请求默认 5 秒超时。

使用：u 后面加对应的 url 链接即可。

curl https://scraper.zbyai.com/?u=https://github.com/zzzgydi/webscraper

也可以用 POST 请求：

curl -X POST -H "Content-Type: application/json" \ -d '{"url_list":["https://github.com/zzzgydi/webscraper"]}' \ https://scraper.zbyai.com/v1/scrape

可以用 demo 看看效果： https://scraper.zbyai.com/?u=https://github.com/zzzgydi/webscraper ，也可以自行 docker 部署。

WebScraper

Markdown

Readability.js

10 条回复 2024-08-19 13:54:42 +08:00

lchynn

2024-04-15 18:44:07 +08:00

楼主这服务好像可以代替穷人版免费科学上网 :P

gydi

2024-04-15 19:26:57 +08:00

@lchynn 实际上好像不太行，现在谁上网只能看字呢

lchynn

2024-04-15 19:44:22 +08:00

@gydi 代替需要科学上网的 rss 的啊，新闻网站或者 blog

lchynn

2024-04-15 19:45:46 +08:00

另外这个原站和最近热门的秘塔 AI 和 perplexity 对比下，好像搜索来自的信源有些差别？

chensitong

2024-04-15 19:52:48 +08:00

context deadline exceeded

curl https://scraper.zbyai.com/?u=https://next.api.aliyun.com/document/Ecs/2014-05-26/DescribeInstances

gydi

2024-04-15 20:02:04 +08:00

@chensitong https://scraper.zbyai.com/?u=https://next.api.aliyun.com/document/Ecs/2014-05-26/DescribeInstances&headless=false

你看这个就有结果了，只不过还得需要 headless （狗头，现在设置的超时时间偏短

gydi

2024-04-15 20:05:02 +08:00

@chensitong 测了一下，大概要 10 多秒才能有结果

gydi

2024-04-15 20:05:40 +08:00

@lchynn #4 你是说 zbyai.com 这个吗，现在我的用搜索是自建的 searXNG

xiaozizayang

2024-08-18 23:14:35 +08:00

@gydi #8 请问自建的 searXNG 作为搜索结果，用户量大了，这个会有频率限制吗？比如 searXNG 被源搜索引擎禁止掉

gydi

2024-08-19 13:54:42 +08:00

@xiaozizayang 这个我目前还没有遇到，所以不清楚