通过解析 ZF(Gov)网站页面获取相关信息做成接口,违法吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
poorcai
V2EX    问与答

通过解析 ZF(Gov)网站页面获取相关信息做成接口,违法吗?

  •  1
     
  •   poorcai 2021-06-21 15:42:48 +08:00 2497 次点击
    这是一个创建于 1640 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近想做一个便民类的 app 或者小程序,但是苦于没有官方的接口可以调用,想到一个思路是通过解析 ZF 网站的 HTML 页面从而提取到相关内容,最终做成一个接口供调用。考虑到以后该 app 可能加广告盈利(后话),不知这样做是否违法?

    第 1 条附言    2021-06-21 17:32:37 +08:00

    首先谢谢大家的解惑。 可能没说清楚,我的操作其实很简单,就是别人请求我的接口时,我在接口中请求一次对应的ZF公示页面(已公开,任何人都可以用浏览器访问),然后解析得到的 HTML 字符串,加工成我需要的信息。

    27 条回复    2021-06-21 23:29:35 +08:00
    zm8m93Q1e5otOC69
        1
    zm8m93Q1e5otOC69  
       2021-06-21 15:46:16 +08:00
    不是人家公开开放的数据都是非法的吧
    vindac
        2
    vindac  
       2021-06-21 15:49:45 +08:00
    页面地址发出来
    poorcai
        3
    poorcai  
    OP
       2021-06-21 15:50:51 +08:00
    @beichenhpy #1 但是这个数据( HTML 页面)是公开的呀,我只是通过加工一下 HTML 页面给自己提供接口
    poorcai
        4
    poorcai  
    OP
       2021-06-21 15:51:16 +08:00
    @vindac #2 就普通的 zf 公示页面
    tsungkang
        5
    tsungkang  
       2021-06-21 15:51:42 +08:00
    不要去搞他们的内部接口,理论上来说问题不大……
    当然,具体背后有什么操作我就不知道了,公交地铁满地打广告的查老板查企业的那个网站,他们的数据就是抓取于[国家企业信用信息公示系统]( http://www.gsxt.gov.cn/) ,我看他们现在反而还挺生龙活虎的。
    poorcai
        6
    poorcai  
    OP
       2021-06-21 15:52:49 +08:00
    @tsungkang #5 我的操作很简单,就是请求公开的页面址,然后解析 HTML 字符串而已
    vindac
        7
    vindac  
       2021-06-21 15:52:56 +08:00
    @poorcai 那没问题的,爬了很多个了
    x86
        8
    x86  
       2021-06-21 15:53:00 +08:00
    理论上 gov 的东西你没它的授权就不要去碰
    ronman
        9
    ronman  
       2021-06-21 15:53:44 +08:00 via Android
    这种东西没事就没事,要真要找你茬,怎么着不都能给你扣个帽子?
    zm8m93Q1e5otOC69
        10
    zm8m93Q1e5otOC69  
       2021-06-21 15:55:12 +08:00
    @tsungkang #5 公示的可以用啊。。
    poorcai
        11
    poorcai  
    OP
       2021-06-21 15:56:37 +08:00
    @ronman #9 你说的有道理,还挺吓人的
    EmotionV
        12
    EmotionV  
       2021-06-21 15:57:38 +08:00
    爬一下放自己服务器,再接口调用,没啥问题
    jr55475f112iz2tu
        13
    jr55475f112iz2tu  
       2021-06-21 16:00:35 +08:00
    不盈利还好说,盈利的话 gov 如果想搞你总是能找到依据
    clino
        14
    clino  
       2021-06-21 16:01:59 +08:00
    是不是给结果的时候提供来源地址会好一些?
    poorcai
        15
    poorcai  
    OP
       2021-06-21 16:04:54 +08:00
    @clino #14 这个提议可以考虑采纳一下
    CYKun
        16
    CYKun  
       2021-06-21 16:07:08 +08:00 via iPhone   1
    建议谨慎,如果要搞的话一定做好限流。这类网站普遍容量不大,万一你的 app 火了然后把公务网站拉崩了,少不得得喝顿茶。
    poorcai
        17
    poorcai  
    OP
       2021-06-21 16:11:46 +08:00
    @CYKun #16 你说的这个也是我考虑过的,他们网站基本上扛不住什么大风大浪,万一我的接口被攻击真的完蛋。
    zhaokun
        18
    zhaokun  
       2021-06-21 16:37:13 +08:00
    这不是 google 、百度干的事儿嘛
    l0wkey
        19
    l0wkey  
       2021-06-21 17:14:04 +08:00
    别每次请求都去爬,自己缓存就可以。
    poorcai
        20
    poorcai  
    OP
       2021-06-21 17:18:59 +08:00
    @l0wkey #19 有此意,但是这个数据是实时的,说不定明天就变了
    locoz
        21
    locoz  
       2021-06-21 17:19:54 +08:00 via Android
    爬了自己展示处理后的数据可以,直接做成跟反代差不多的接口不行。
    jjianwen68
        22
    jjianwen68  
       2021-06-21 17:23:21 +08:00
    统一 21L
    poorcai
        23
    poorcai  
    OP
       2021-06-21 17:26:00 +08:00
    @locoz #21
    @jjianwen68 #22
    好的明白了,就是自己爬取后进行一次加工的,不是反代
    ho121
        24
    ho121  
       2021-06-21 17:27:52 +08:00
    之前好像有过一个人爬到了还未正式发布的文件并自行公开,然后进去了
    cpstar
        25
    cpstar  
       2021-06-21 17:35:24 +08:00   1
    16# 说的直接上缓存就行了
    信息本来就是公开的,只不过你做了一个聚合罢了。没啥事。
    scxiazi
        26
    scxiazi  
       2021-06-21 19:08:37 +08:00
    进去的不少 你可以试试
    akira
        27
    akira  
       2021-06-21 23:29:35 +08:00
    自动抓取应该是有风险的,具体咨询下律师吧
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4531 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 09:53 PVG 17:53 LAX 01:53 JFK 04:53
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86