V2EX dannylin
 dannylin 最近的时间轴更新
dannylin

dannylin

V2EX 第 598505 号会员,加入于 2022-10-22 00:35:40 +08:00
dannylin 最近回复了
@iX8NEGGn 更新一下。目前已初步完成 WebScrapBook/PyWebScrapBook 2.0 版,主要支援伺服端搜及改料方式,也提供了不少新 API 。有趣相串: https://github.com/danny0838/PyWebScrapBook/issues/65
@iX8NEGGn 魔改套件是你的利,不自套件在安使用上可能遇到署、上架之的麻;而官方套件更新後要同步跟也比麻。一般是比推模式:(1)推官方做;(2)另外做一自套件介接。然,後者可能也需要不少和妥,最後是看你的意。如果你意,或可以把程式也源出及到我的 issue tracker ,我在考是否增加新功能或提供更多套件介接用 API 也比有西可以考。

於「相同 URL 若隔一段後允重取」,目前有做。初自取功能是考版 ScrapBook AutoSave Add-on ,有考更多可能的件,要把些考去,不做一番魔改看起不太可能。其初我就很豫是否要建自取,也最是提供更多 API ,然後像版 ScrapBook 一把自取功能整立成另一套件比合吧。XD
@iX8NEGGn 原如此,你的想法相於做特定,的是我不太可能去需求做的。

如果要用比符合目前框架下的做法,你可以考做:
1. 定自取的面一存到特定剪簿 X 。
2. 把「一收藏到」改成「一取 WebScrapBook 」,假取到特定剪簿 Y 。
3. 一 cron tab 本,以一定率(例如每天)行:
(1) 定所有剪簿
(2) 查 X 的每料,若建立超 n 天,且在 X 以外的剪簿中有相同源址的目,就除。
(3) 解

cron tab 本建用 Python ,可以一定程度上用 PyWSB 有的 API 。
至於 @iX8NEGGn 提到的:


1. 於全文索:

如前所述,全文索本就有提供,了支援面等相容性考量,目前是做成客端索,也就是要先下所有全文快取再始索。

至於料量很大的情,要看路和器。如果後端架在本地,一般不有太太;如果架在端,以目前的路件,下十 MB 的全文快取也不是太大。

作考,我人的一主要剪簿有 27 年的料, 3 千目,10 案,2.0GB ,全文快取 54MB 。伺服器架在端的情下,索不有太大的延( nginx 送全文快取料自,大概只剩 26MB 左右),手稍微慢些,不不在速,而在手理器的性能。

如果心下全文快取吃光流量,WSB 套件有提供限制快取大小的功能,行端可以拒入太大的全文快取(仍可以用、等其他件索)。

PyWSB 支援多剪簿,每剪簿都有立的快取。可以把常用料集中在本剪簿,不常用的放到其他本,平只在前者索,就可以小化入不必要的快取的效能。

未可能考做伺服端的全文索,客端就不必下整全文快取了。

如果有裕,或可能做支援 js 以外的全文索引格式,以付不同需求。


2. 於自取整合:

我人很少用自取,因差取的面作用不大,大多料都不用到,徒然影效能和空;而 Web 用如 SNS ,也很用自取抓到想要的容。但如果要用,可以定取到立的剪簿,和常用料分,把干到最小。

整合也是。就我人的使用方式而言,通常是用於某些常去的「站」,而剪簿是「」,者本上就不同,也就不生既要加又取的情。而於想著的「」,WSB 也有取成目的功能。

我人法理解什要既加又自取,要除後同步除取?那和直接取用特定剪簿/料分有何?

法理解的需求,我大概也不不考做。如果真的想做,可以考成另一器套件,以便提供器整合,也可以透 external message 接入 WSB 套件和 PyWSB 做到自取。

至於像自除料之的功能,可以另套件接入 PyWSB 理。或者也可以考成 cron job 。

未 PyWSB 可能做剪簿 CRUD 的 Python 模、命令列、及 web API 接口。到第三方工具更方便。


是,但在有太多工作,做那些可能是很久以後了。如有高手感趣,倒是迎加入行列。
我是剪簿( WebScrapBook ,WSB )的者,最近碰巧看到帖,也想法。

主提到的功能 WebScrapBook + PyWebScrapBook 足以解,因二者本就是集取、管理、加、索、跨置存取的方案:
- 取:有
- 存到端伺服器:有
- 多存取:可以。能安 WSB 的器都可以存取;不能安的也可以透索引面存取,或透 Web 界面做有限度的。
- 全文索:可以。而且支援的索件相富,比如在任意一或多本剪簿中索、限定在任意多下索、RegExp 匹配索等等。

如果手上都是 SingleFile 取的,PyWSB 也提供命令列工具入到 WSB 。(:wsb convert file2wsb -h )

便下存格式,在 WSB 的文件就有[分析]( https://github.com/danny0838/webscrapbook/wiki/FAQ-(zh_TW)#%E5%A6%82%E4%BD%95%E9%81%B8%E6%93%87%E6%93%B7%E5%8F%96%E7%B6%B2%E9%A0%81%E7%9A%84%E5%84%B2%E5%AD%98%E6%A0%BC%E5%BC%8F)。我人使用上乎都是取料包 HTML+源,只在少情使用一 HTML 或 MAFF 等格式,主要理由是:
1. 料放在伺服器上透器,形式效能最好。加、、回存、或全文索也是如此。(比如全文索引器只要爬 HTML 就好,一 HTML 案得的肥大 base64 料一起爬)
2. 最容易版控系整合。我可以不定把料 Git 版控,比差或原料。一 HTML 嵌太多可能是重的 base64 ,料肥,也不利差比。
3. 一 HTML 先天就法多互相的,所以像深取、合取都是只有 WSB 才支援的功能。
2022-10-23 01:05:26 +08:00 回复了 Melville 创建的主题 问与答 求教如何屏蔽百度百家号
容可以在任何站(包括百度、Google 、Bing )示相,看到示不要就好了。
:)
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1339 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 14ms UTC 23:58 PVG 07:58 LAX 16:58 JFK 19:58
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86