保存浏览过的网页并搜索有哪些好的方案 - V2EX
请不要在回答技术问题时复制粘贴 AI 生成的内容
FrankAdler

保存浏览过的网页并搜索有哪些好的方案

  •  
  •   FrankAdler Feb 28, 2023 3674 views
    This topic created in 1172 days ago, the information mentioned may be changed or developed.

    目前用 SingleFile 自动保存到 webdav ,但是搜索是个问题,理想情况是有个 web 界面,目前没有找到合适的工具,暂时是用命令行 find+grep ,感觉不太方便。

    了解了下两个轻量级的全文搜索:ZincSearch 、blevesearch ,还没深入是看,但是感觉也应该需要想办法把网页内容导入到引擎里面,不知道还有没有其他的方案。

    尽量轻量级一些,ES 太重了首先排除掉吧。

    Supplement 1    Mar 1, 2023
    archivebox 的浏览器插件用起来很怪异,提交到 archivebox 有延迟,没有规律,而且不能设置验证,等于是自己搭的服务公开了。。。
    22 replies    2023-03-04 14:58:03 +08:00
    TrembleBeforeMe
        1
    TrembleBeforeMe  
       Feb 28, 2023   3
    FrankAdler
        2
    FrankAdler  
    OP
       Feb 28, 2023
    @TrembleBeforeMe 这个看起来好强,我先研究下看看
    caomu
        3
    caomu  
       Feb 28, 2023 via Android
    前段时间还讨论了一下
    t/916365
    tool2d
        4
    tool2d  
       Feb 28, 2023
    自己写一个 vscode 插件,find in files 文本搜搜嘛可以了。

    低频需求,性能要求不需要那么高。
    FrankAdler
        5
    FrankAdler  
    OP
       Feb 28, 2023   1
    @caomu t/798536 lockheart 提到的 https://historio.us 也是一种选择,感觉很类似私人引擎了
    FrankAdler
        6
    FrankAdler  
    OP
       Feb 28, 2023
    @tool2d 可能还不如 find+grep 呢,就是要 ssh 下
    607L4a6qlLSEi6vy
        7
    607L4a6qlLSEi6vy  
       Feb 28, 2023
    语雀的剪存
    607L4a6qlLSEi6vy
        8
    607L4a6qlLSEi6vy  
       Feb 28, 2023
    飞书的剪存
    fds
        9
    fds  
       Feb 28, 2023
    前两天看到 https://github.com/omnivore-app/omnivore 不过我没用过
    tool2d
        10
    tool2d  
       Feb 28, 2023
    @FrankAdler mhtml 需要解包,至少不去搜索 base64 里的图片。

    还需要定位跳转,搜出来结果,你总要看一下上下文吧。

    还有一些不是 utf8 格式的页面需要转换,又或者不是一个个独立文件,文件多了后,是定期 zip 打包这种形式存在于磁盘上的。

    退一万步,就算直接用 find 命令行,我也会写一个自己特化的管道过滤工具,码农不就是写工具的。
    Giftina
        12
    Giftina  
       Feb 28, 2023   2
    SingleFile 存到本地后搭配 hamsterbase 即可
    Huelse
        13
    Huelse  
       Feb 28, 2023
    感觉有点像 onetab 的功能
    abcdxe2v
        14
    abcdxe2v  
       Feb 28, 2023   1
    @FrankAdler
    historio.us 这个不行,很多网页抓取不到(可能是因为动态加载的原因)
    由于我需要正则,所以我是 SingleFile 保存后,用 FileLocator Pro (因为是正则,所以无索引)
    ztbz123
        15
    ztbz123  
       Feb 28, 2023
    @abcdxe2v 我也这样,但 FileLocator Pro 检索和预览 HTML ,是源代码 html 标签的形式,html 标签和样式比较多,看着不太直观方便,有没有什么解决方法?比如,能不能设置 FileLocator Pro 预览 HTML 格式文件时,可通过浏览器预览展示
    zictos
        16
    zictos  
       Feb 28, 2023
    试过很多,没一个好用的,很多明明看过的文字却搜不到。现在很多网站又都是 js 动态加载,就更可能搜不到了
    FrankAdler
        17
    FrankAdler  
    OP
       Feb 28, 2023 via iPhone
    @zictos archivebox 可以抓起 js 动态加载的(基于无头浏览器)
    FrankAdler
        18
    FrankAdler  
    OP
       Feb 28, 2023 via iPhone
    @ztbz123 可能保存的时候不要 css 样式会好很多?毕竟内容才是最重要的
    tinola
        19
    tinola  
       Mar 1, 2023
    以前用网文快捕 CyberArticle 可以离线保存,后来不更新了,可惜。现在用 onetab.
    edis0n0
        20
    edis0n0  
       Mar 1, 2023
    @TrembleBeforeMe #1 这个要登录的页面就不行,好文章很多都要登陆才能看
    abcdxe2v
        21
    abcdxe2v  
       Mar 1, 2023
    @ztbz123
    “通过浏览器预览展示”
    这样不慢吗。。。浏览器打开要渲染,太慢了。你可以手动使用浏览器打开特定的文件
    woyaojizhu8
        22
    woyaojizhu8  
       Mar 4, 2023
    recoll 最合适,而且也有 webui
    About     Help     Advertise     Blog     API     FAQ     Solana     5860 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 71ms UTC 06:34 PVG 14:34 LAX 23:34 JFK 02:34
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86