关于百度爬虫的问题,有些问题必须要提出来了 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
xray887
V2EX    Python

关于百度爬虫的问题,有些问题必须要提出来了

  •  1
     
  •   xray887 2017-08-01 17:39:43 +08:00 3270 次点击
    这是一个创建于 3002 天前的主题,其中的信息可能已经有所发展或是发生改变。

    问题:关于百度转码为百度网站的内容显示的问题如下图:

    alt hello

    原网站如下图:

    alt hello

    请问:

    1. 百度每天抓数十万的网站,他们的正文提取,标题提取,发表时间统一格式化,文章出处等,都是专人去写 xpath, re, css selector, bs 吗? 2. 还有个问题,数十万的网站,他们的文章翻页有上千种,他们怎么去做到的翻页问题,难道也是专人去写 xpath, re, css selector, bs 吗? 3. 很多网站做了图片、视频防盗链,但是百度将原网站所有的图片、视频等全包同步到了自己的存储器里面,请问,对于防盗链的网站的资源,他们也是专人去做处理吗? 4. 本人是个爬虫新手,遇到的问题就是上面的问题,其实这几个问题也是通用爬虫的问题,求各位给点意见和建议。 5. 不胜感激涕零。 
    6 条回复    2017-08-02 14:15:16 +08:00
    xray888
        1
    xray888  
       2017-08-01 17:53:26 +08:00
    有人给解答一下吗
    gamexg
        2
    gamexg  
       2017-08-01 18:12:18 +08:00   1
    /t/309948

    1.2.
    都是可以机器识别的。

    3.爬虫的 referer 一般是空或者是网站 url,都不会碰到防盗链问题。
    gamexg
        3
    gamexg  
       2017-08-01 18:26:53 +08:00
    对了,关于 1.2. 记得有开源实现,google 网页 正文 识别 。
    huangfs
        4
    huangfs  
       2017-08-01 23:56:26 +08:00
    会有抓取模版匹配的。
    yeless
        5
    yeless  
       2017-08-02 13:10:32 +08:00
    正文抽取算法:
    1.基于文本长度的算法,计算字符集密度
    2.K-means,聚类中心点取值算法
    3.标签模板
    xray888
        6
    xray888  
       2017-08-02 14:15:16 +08:00
    @yeless
    @gamexg
    @gamexg
    @huangfs
    谢谢回答。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1234 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 17:33 PVG 01:33 LAX 10:33 JFK 13:33
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86