个人博客被采集站疯狂采集怎么办 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
huruwo
V2EX    问与答

个人博客被采集站疯狂采集怎么办

  •  1
     
  •   huruwo 2021-11-10 17:06:03 +08:00 3662 次点击
    这是一个创建于 1430 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我的个人博客文章被 类似 https://cxybb.com/ 程序员宝宝

    https://www.pianshen.com/ 程序员大本营

    这种网站实时更新 我发出来立马就更新上了

    而且他的 SEO 做的非常好 同样的文章排名比我还高

    实在是被恶心到了

    第 1 条附言    2021-11-10 17:52:20 +08:00
    还有类似网站

    https://www.i4k.xyz/

    采用的模板都是一套的
    第 2 条附言    2021-11-10 18:01:41 +08:00
    我发现一个更加神奇的网站

    把我刚发的中文博客直接翻译成英文的同步过去了

    https://programmer.group/
    26 条回复    2023-11-05 06:56:18 +08:00
    kimera
        1
    kimera  
       2021-11-10 17:09:34 +08:00 via iPhone
    搜索资料很多排名靠前都是这样的网站 已经把类似站点都加入黑名单了 太恶心了
    bug123
        2
    bug123  
       2021-11-10 17:12:17 +08:00
    可以往里面塞点敏感的脏数据
    hidemyself
        3
    hidemyself  
       2021-11-10 17:13:26 +08:00
    有备案的采集站可以投毒
    没备案没办法,投毒也不管用
    clf
        4
    clf  
       2021-11-10 17:53:38 +08:00
    笑死了,底下还写着:网站内容人工审核和清理中!本站和 cxyzjd 等抄袭本站模板的网站没有任何关系,请注意分辨!
    WhateverYouLike
        5
    WhateverYouLike  
       2021-11-10 17:54:48 +08:00 via Android   1
    把自己名字和文章链接写到文章里面呀,免费给自己宣传
    clf
        6
    clf  
       2021-11-10 17:55:58 +08:00
    (为什么他还会爬 CSDN 的文章的呀,然后快进到 CSDN 去爬他的。
    huruwo
        7
    huruwo  
    OP
       2021-11-10 17:56:31 +08:00
    @WhateverYouLike 妙啊妙啊
    shiny
        8
    shiny  
       2021-11-10 17:57:20 +08:00
    把爬虫找出来
    - 注入狗屁不通文章生成器的数据
    - 试试文章正文里插入 xss
    clf
        9
    clf  
       2021-11-10 17:59:07 +08:00   1
    可以试一下发布后修改会不会再次同步文章。

    这样可以在发布的时候默认发布自己的支付宝红包码之类的推广类的东西,然后过 N 分钟后自动更新成自己的文章?
    zhuawadao
        10
    zhuawadao  
       2021-11-10 18:00:16 +08:00
    @WhateverYouLike 他去掉的话,你就写藏头诗类的
    supuwoerc
        11
    supuwoerc  
       2021-11-10 18:09:47 +08:00
    有盗版垃圾站抄你的博客,那你一定是个大佬,我的博客,得用 site:xxxxx 才能搜索到( o()o )
    loading
        12
    loading  
       2021-11-10 22:26:35 +08:00
    如果有人敢爬我的网站,我就敢投毒,p 站不是白上的。
    jason2014
        13
    jason2014  
       2021-11-10 23:01:38 +08:00
    @clf #9 用来对付这些垃圾站方法很好,可是这样可能会影响到 RSS 订阅用户。
    clf
        14
    clf  
       2021-11-10 23:25:21 +08:00 via Android
    @jason2014 rss 生成慢一点再生成呗。
    Pipecraft
        15
    Pipecraft  
       2021-11-10 23:45:33 +08:00
    pianshen 这个网站的百度权重是 6 ,好厉害!按照 #5 的思路,可以在文章里放链接,增加反链啊。楼主可以接单帮人推广了。
    patx
        16
    patx  
       2021-11-11 00:23:27 +08:00
    爬虫一般都用廉价主机商,或者阿里云腾讯云。机房的 ASN 一律屏蔽,增加爬虫成本。
    find456789
        17
    find456789  
       2021-11-11 00:27:41 +08:00
    @patx

    老哥, 机房的 asn 是什么意思, 方便展开说说吗, 我有个站,也老是被 爬
    cxy2244186975
        18
    cxy2244186975  
       2021-11-11 01:02:42 +08:00 via Android
    这种站 我已经在 v2 看到好几个人报道了~~~
    HankLu
        19
    HankLu  
       2021-11-11 01:33:40 +08:00
    诅咒他生儿子没屁眼
    terence4444
        20
    terence4444  
       2021-11-11 02:12:05 +08:00 via iPhone
    可以利用其更新原理投毒
    oo1
        21
    oo1  
       2021-11-11 02:21:58 +08:00 via iPhone
    让他来爬我!放开楼主!
    QUC062IzY3M1Y6dg
        22
    QUC062IzY3M1Y6dg  
       2021-11-11 08:42:06 +08:00
    @supuwoerc 你是不是在我身上装了监控?
    jasonkayzk
        23
    jasonkayzk  
       2021-11-11 09:34:54 +08:00
    @clf #6 递归了属于是 233
    Chipmunker
        24
    Chipmunker  
       2021-11-11 10:31:31 +08:00
    提个思路,不知道可行不。将文字内容加密,在客户端解密后转换为 SVG 图像显示。我想采集站应该不会专门针对你的站去破解了吧。
    imldy
        25
    imldy  
       2021-11-11 11:59:48 +08:00
    @Chipmunker #24 不利于搜索引擎
    kehan
        26
    kehan  
       2023-11-05 06:56:18 +08:00 via Android
    你可以做防采集设置,当然,你也可以用可汗采集插件,采集别人发的内容
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2785 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 14:47 PVG 22:47 LAX 07:47 JFK 10:47
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86