请问怎么防止花瓣网,堆糖网,我喜欢等这类型的网站采集内容。。。 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
GASALA
V2EX    问与答

请问怎么防止花瓣网,堆糖网,我喜欢等这类型的网站采集内容。。。

  •  
  •   GASALA 2013-01-22 21:07:18 +08:00 10340 次点击
    这是一个创建于 4659 天前的主题,其中的信息可能已经有所发展或是发生改变。
    感觉这种网站实在没有什么意义。他们做的事情就是让自己人不停的去采集别人的内容,或者忽悠站长自己去采集内容到他们的网站。这样导致基本上每个网站的内容都同质化了。

    那么,有没有有效的方法让这些网站的采集方式失效呢?这些网站往往在浏览器按钮一个采集按钮就可以一键采集了。。。
    23 条回复    1970-01-01 08:00:00 +08:00
    qiayue
        1
    qiayue  
    PRO
       2013-01-22 21:18:32 +08:00
    自己写js跟他们的js干架
    GASALA
        2
    GASALA  
    OP
       2013-01-22 21:58:33 +08:00
    @qiayue 求正解。。。
    HelLion
        3
    HelLion  
       2013-01-23 10:19:08 +08:00
    ajax加载内容。
    Mutoo
        4
    Mutoo  
       2013-01-23 10:21:52 +08:00
    @HelLion ajax加载内容也挡不住。浏览器插件是直接解释当前DOM获得数据的。
    Mutoo
        5
    Mutoo  
       2013-01-23 10:24:08 +08:00
    http://huaban.com/about/disclaimer/

    第三条 维权须知

    1. 任何个人、公司或其他主体如认为花瓣网上存在侵犯其自身合法权益的内容,应及时与花瓣网取得联系同时向花瓣网提交相关书面通知书,以便花瓣网迅速做出处理。通知书应当包含下列内容:
    (一)权利人的姓名(名称)、联系方式和地址;
    (二)要求删除或者断开链接的具体侵权内容的名称、以及对应的采集或画板url地址;
    (三)构成侵权的初步证明材料。
    权利人应当对通知书的真实性负责。权利人未提交通知书的花瓣网有权在核实情况后再行处理,因此产生的一切损失由权利人承担。
    GASALA
        6
    GASALA  
    OP
       2013-01-23 11:41:28 +08:00
    @Mutoo 这种条款都是浮云一样。对方会以各种方式让你没办法继续下去。而且他们都是转采的。。。太多了。。。
    jackyz
        7
    jackyz  
       2013-01-23 12:10:57 +08:00   1
    回楼主,我也是做这种网站的,特地回答一下,简略的回答就是:没办法防止。

    采集行为是发生在用户的浏览器和对方的服务器之间的。你做出来的网站本身就是要让用户看的,所以用户的浏览器必然可以无损地显示你提供的信息。然后,用户从浏览器里 copy 他看到的内容,或者另存为网页,这和采集的本质是完全一样的,这个环节在你的控制范围之外。

    采集本身也是用户的需求,为什么要阻止呢?你也许可以换个思路,转而利用这种二次传播,比如,加链接,让用户回流到你网站其他的内容。网站内容本身是王道,所有的二次传播只能让你更强。
    Sunyanzi
        8
    Sunyanzi  
       2013-01-23 13:28:59 +08:00
    或者还有一种办法 ... 用技术手段定位采集者的 IP ... 发现即 ban 掉 ...

    不过基本上这事情开销很大 ... 属于杀敌八百自损一千的举动 ...
    NemoAlex
        9
    NemoAlex  
       2013-01-23 13:35:18 +08:00
    请问你怎么防止用户收集你站点的内容呢?
    用户浏览到的东西都是可以截图保存的
    除非你不给他们看
    HelLion
        10
    HelLion  
       2013-01-23 14:06:40 +08:00
    @Mutoo 用插件来采集的话,可以针对插件去做手脚。
    可能,大概就是这意思吧。
    http://keith.ecjtu.com/article.asp?id=814
    这里有个示例,如果你启用adBlock这个插件,网页就不正常显示了。
    http://antiblock.org/?p=script&demo
    AntiGameZ
        11
    AntiGameZ  
       2013-01-23 14:43:07 +08:00
    与其封,不如想想怎么利用他们给自己做广告,夹带点私活
    Mutoo
        12
    Mutoo  
       2013-01-23 15:55:30 +08:00
    @HelLion 这个思路是挺简单的,但是adblock的插件行为比较容易判断出来,像花瓣这种就难了。

    但是有一种思路可以给你参考一下:把所有的图片内容用flash包装起来。
    Air_Mu
        13
    Air_Mu  
       2013-01-23 16:41:20 +08:00
    you cant ,coz this is china
    lhj2100
        4
    lhj2100  
       2013-01-24 09:59:46 +08:00
    给图片加水印不就可以了...
    luztak
        15
    luztak  
       2013-01-24 10:10:13 +08:00
    本站将对不经许可使用本站内容者追究责任...有用么.
    robhsiao
        16
    robhsiao  
       2013-01-24 10:11:38 +08:00
    我觉得可以Ban IP。

    印象中这些网站其实是有爬虫来采集的,各种书签和插件其实只是回报Referer和图片URL给这些网站。
    luztak
        17
    luztak  
       2013-01-24 10:24:26 +08:00
    @robhsiao 我怎么觉得传个User-Agent就够了......
    GASALA
        18
    GASALA  
    OP
       2013-01-24 10:31:01 +08:00   1
    @jackyz 从来不反对分享内容。我的网站发展到现在,也都是靠网友自发分享做起来的。只是这种类型的网站,据我自己的体会(基本上所有这种类型的网站工作人员都找过我,说让我去注册账号,把自己的内容采集进去,优先推荐带来流量之类的话。。。),很多都不是网友在分享,而是网站的工作人员为了“看上去不错”,疯狂的使用小号马甲在采集。这样必然导致各种信息同质化,高尚一点的说,也就违背了信息传播的本质了。

    我个人觉得这样的网站和行为很没意义。永远拉不到头的瀑布流,千遍一律的内容。

    杜绝肯定是不可能的,我只是想能否通过技术,增加一点采集的难度,现在的这些网站提供的采集工具,基本上轻易就能把你的内容复制过去。
    GASALA
        19
    GASALA  
    OP
       2013-01-24 10:36:20 +08:00
    @luztak 嘿嘿。这个在天朝不会有约束力的。
    robhsiao
        20
    robhsiao  
       2013-01-24 10:46:02 +08:00   1
    @luztak 像花瓣网,UA倒是没要,要Refrer主要是有一些图片可能有防盗链吧。

    研究过花瓣的数据传输,只有这几个字段:
    text = 标题
    link=当前页的网址,也就相当于是Referer了
    img_url=图片地址
    via=渠道,=7时是Chrome插件
    board_id=画板id

    很明显,它是拿到img_url后通过后台程序去抓取图片。所以我觉得Ban他们的IP应该就可以。

    当然其它网站没有研究。
    GASALA div class="fr">     21
    GASALA  
    OP
       2013-01-24 10:49:08 +08:00
    @robhsiao 谢谢指点
    millson
        22
    millson  
       2013-01-24 10:56:48 +08:00
    全站flash,来抓吧
    insub
        23
    insub  
       2013-01-24 11:54:15 +08:00
    @millson 这个属于自伤1000损敌800了...
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2589 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 13:41 PVG 21:41 LAX 06:41 JFK 09:41
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86