
最近自己在做一个 RAG 应用,感兴趣的朋友可以尝试一下,https://www.zbyai.com
其中有一个功能是需要根据搜索到的 URL 去获取页面的具体内容,这个内容需要处理一下对 LLM 友好一点( Token 少一点),所以我选择处理成 Markdown 。
所以就有了这么一个项目: https://github.com/zzzgydi/webscraper
原理比较简单:使用无头浏览器或者直接 GET 请求,然后用 Readability.js 进行优化,然后 html 转 markdown 。然后每个请求默认 5 秒超时。
使用:u 后面加对应的 url 链接即可。
curl https://scraper.zbyai.com/?u=https://github.com/zzzgydi/webscraper 也可以用 POST 请求:
curl -X POST -H "Content-Type: application/json" \ -d '{"url_list":["https://github.com/zzzgydi/webscraper"]}' \ https://scraper.zbyai.com/v1/scrape 可以用 demo 看看效果: https://scraper.zbyai.com/?u=https://github.com/zzzgydi/webscraper ,也可以自行 docker 部署。
1 lchynn 2024-04-15 18:44:07 +08:00 楼主这服务好像可以代替穷人版免费科学上网 :P |
4 lchynn 2024-04-15 19:45:46 +08:00 另外这个原站和最近热门的秘塔 AI 和 perplexity 对比下,好像搜索来自的信源有些差别? |
5 chensitong 2024-04-15 19:52:48 +08:00 context deadline exceeded ![]() curl https://scraper.zbyai.com/?u=https://next.api.aliyun.com/document/Ecs/2014-05-26/DescribeInstances |
6 gydi OP @chensitong https://scraper.zbyai.com/?u=https://next.api.aliyun.com/document/Ecs/2014-05-26/DescribeInstances&headless=false 你看这个就有结果了,只不过还得需要 headless (狗头,现在设置的超时时间偏短 |
7 gydi OP @chensitong 测了一下,大概要 10 多秒才能有结果 |
9 xiaozizayang 2024-08-18 23:14:35 +08:00 @gydi #8 请问 自建的 searXNG 作为搜索结果,用户量大了,这个会有频率限制吗?比如 searXNG 被源搜索引擎禁止掉 |
10 gydi OP @xiaozizayang 这个我目前还没有遇到,所以不清楚 |