实习生接到爬虫任务怎样才能让自己避免牵扯到可能的法律纠纷里? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Fffys
V2EX    职场话题

实习生接到爬虫任务怎样才能让自己避免牵扯到可能的法律纠纷里?

  •  1
     
  •   Fffys 315 天前 2780 次点击
    这是一个创建于 315 天前的主题,其中的信息可能已经有所发展或是发生改变。

    坐标欧陆,最近找了个任务为网站爬虫的美国小公司在本地的分公司的线上实习,我注意到很多要爬取的网站都在服务条款里明确声明了禁止通过爬虫等自动化方式获取网站数据,且这些网站都没有提供 API ,我在 WhatsApp 里问了雇主是否已经获得了网站相关人员的许可,回复说是,我保留这样的截图,这样就足够了吗?我无法确定是否真的有合法的许可,我要怎样才能避免自己受到可能的法律纠纷、承担可能的连带责任呢?我是否要向雇主请求更多的文件?我要请求什么文件?已经问了 ChatGPT 了,但是担心可能有的回复是幻觉,所以想在这里再问一次

    第 1 条附言    314 天前
    原来还可以附言,目前进度,沟通后允许只爬 free use 和提供 API 的网站了,这样应该就没问题了吧?
    23 条回复    2025-02-25 23:22:01 +08:00
    PerFectTime
        1
    PerFectTime  
       315 天前
    爬虫都是面向监狱编程,除非他能给你有法律效力的授权文件,不然还是算了吧
    Int100
        2
    Int100  
       315 天前 via iPhone
    @PerFectTime 真抓?
    PerFectTime
        3
    PerFectTime  
       315 天前
    @Int100 #2 也不存在真不真,但万一运气不好轮到你了,那百分百是真的
    131
        4
    131  
       315 天前 via Android
    这叫实习吗?这难道不是花点小钱找个背锅的吗?
    真这样做,做完了敢把这段经历往简历里写吗?
    mxT52CRuqR6o5
        5
    mxT52CRuqR6o5  
       315 天前 via Android
    如果只是需要一次性地爬网站的数据而不是开发一个爬网站的服务,可以选择手工爬
    Fffys
        6
    Fffys  
    OP
       315 天前
    @131 那这样,我要求提供有法律效力的授权文件,如果提供了就做,没提供就拒绝
    Fffys
        7
    Fffys  
    P
       315 天前
    @mxT52CRuqR6o5 手工爬是指什么?目前还在确认任务阶段,我还没问是爬数据还是开发服务,不过丢了很多网站过来,应该只是数据吧

    另外,其中有个网站是互联网档案馆,这个怎么处理?查了下好像这个网站本身就面临多个版权纠纷案
    hrdom
        8
    hrdom  
       315 天前
    我知道互联网档案馆,没啥特殊的吧,就正常爬就行。
    Fffys
        9
    Fffys  
    OP
       315 天前
    @hrdom 担心版权问题啊,这个网站本身就面临多个版权纠纷,而且欧美都普遍注重版权的,有的网站在不同资源上有注明不同类型的 CC 协议,爬取时就只需要按照 CC 协议过滤就可以只爬取合法商业化的资源,但是这个网站对版权的处理就比较模糊
    NoOneNoBody
        10
    NoOneNoBody  
       315 天前   1
    是你去爬,还是写代码交给对方爬?
    前者直接拒绝
    后者把所有代码都写成没有针对的那个网站的,就是扔 url 参数才能运行,由爬取的人输入
    你的代码里面不能有任何被爬网站的标识
    Fffys
        11
    Fffys  
    OP
       315 天前
    @NoOneNoBody 前者……不过也有不少是 free use 的网站,有的是明确写出是公共领域的数据,有的网站也没有 terms of use 就只有免责声明,也没有对爬虫进行限制,现在我是在想,是不是有一种合法爬取的方法?比如只爬公用领域、free use 的数据,或者和网站联系获得合法授权之类的?
    后者的话,因为网站有很多,不太方便写成一个统一的方法,很多需要解析 HTML 从标签里获取数据,不过你的意思是,只要我最终交付的代码不包括具体的网站名我就可以法律上完全免责吗?但是我也需要提供示例输出文件啊,然后里面肯定有字段指向爬取的网站……
    Fffys
        12
    Fffys  
    OP
       315 天前
    因为没有认识的相关律师,打算在 quora reddit 上也发帖问问,那些在个人 bio 里写了是律师的人的回复可以全信吗?主要是我对欧美这边相关法律也不了解……
    Fffys
        13
    Fffys  
    OP
       314 天前
    跟进,我进一步询问后同意只抓取有 API 或者写了 free use 的网站,并且告诉我不会有商业用途,但是其中有的 API 网站写明了如果要用于商业用途需要联系网站管理员,我要怎么确定的确不会有商业用途呢?只爬取这两种是否就是安全的了?
    Od37v61n5s89gXx8
        14
    Od37v61n5s89gXx8  
       314 天前 via iPhone
    可以直接举报啊
    zzNaLOGIC
        15
    zzNaLOGIC  
       314 天前 via iPhone   1
    我在公司也搞爬虫
    我的要求是这样的:
    我不接受任何来自个人、领导、上下游的爬虫要求,有仅仅有数据风控部门给我发邮件正式下达任务我才执行,并且向订单风控部门提交申请必须有“网站数据抓取授权书”,由客户写授权书并盖上公章,风控审核通过后、才能给我发邮件下达执行任务。

    当然了,嘴上别那么死板。什么完善公司流程,避免公司因法律风险造成损失,我有一个朋友。。。之类的,多扣帽子,多讲讲办公室政治正确的话,别跟个愣头青一样去对着刚。
    wbrobot
        16
    wbrobot  
       314 天前   5
    我给你说个简单的解决办法:
    拿出工资的一半,把爬虫编码和运行工作,外包给我们这些肉身中国的朋友。把需求一扔,你直接得到数据就行了。
    Marain
        17
    Marain  
       314 天前
    @wbrobot 赛博殖民地
    DengSven
        18
    DengSven  
       314 天前
    @wbrobot 对头,将法律风险转嫁,无劳动得到一半的工资,给国内兄弟喝口汤,一箭三雕
    mxT52CRuqR6o5
        19
    mxT52CRuqR6o5  
       314 天前
    @Fffys #7 当自己不会写代码,完全手动打开网页复制粘贴
    Fffys
        20
    Fffys  
    OP
       314 天前
    @wbrobot 你这有点不太厚道。。。而且我这是无薪的课程实习。。。
    Fffys
        21
    Fffys  
    OP
       314 天前
    @zzNaLOGIC 现在改为只爬取 free use 和 提供 API 的网站了,并且说不会有商业用途,这样是不是就没问题了?只要我注重有的网站有关 API 的限制之类的?恩?不过?这样好像什么也学不到啊?这种事把 API 文档丢给 ChatGPT 都能完成,是不是换个实习更好?/div>
    Fffys
        22
    Fffys  
    OP
       226 天前
    后续,关于这个任务那之后只是让我做调查没让我爬,但是昨天又让我爬了,并且同意只爬取公共领域的书籍。
    但是坐标欧陆,欧洲的公共领域的定义和美国不同而网站几乎全是美国网站,这一点我已经跟老板说了,老板回复手不用我担心法律责任公司会负责。
    让老板在邮件里正式声明或者提供 formal document ,老板让我“describe the approach”,根据上下文我不是很确定是要我提供我爬取的 approach 还是相关文档

    如果是我的方法:
    - 老板有提供一个书籍列表,希望我找到尽可能多的书单上的书籍:
    1. 通过古登堡计划的官网的指示用 rsync 或其他方法下载整个网站的存档并存到公司内部电脑
    2. 通过 API 在以下网站上查找不在古登堡里的书籍,检查相关书籍的版权状态,如果是公共领域,检查是否有资源,如果网站提供指向资源的链接,就获取资源;如果指向外部网站的链接,就记录网站名称和相关链接
    - internet archive
    - hathitrust
    - wikidata
    - openlibrary
    - ...
    你们认为这样可以吗?
    如果是要求 formal document ,我要要求提供怎样的文件呢?
    Fffys
        23
    Fffys  
    OP
       226 天前
    @PerFectTime #1 应该提供怎样的文件呢?老板让我说明,我不是很懂怎样的文件才算有法律效应
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     900 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 96ms UTC 19:59 PVG 03:59 LAX 12:59 JFK 15:59
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86