像这种多新闻来源的爬虫，是每种来源都做一套爬虫？

推荐学习书目

Learn Python the Hard Way

Python Sites

PyPI - Python Package Index

http://diveintopython.org/toc/index.html

Pocoo

值得关注的项目

PyPy

Celery

Jinja2

Read the Docs

gevent

pyenv

virtualenv

Sentry

Shovel

Pyflakes

pytest

Python 编程

pep8 Checker

Styles

PEP 8

Google Python Style Guide

Code Style from The Hitchhiker's Guide

This topic created in 2277 days ago, the information mentioned may be changed or developed.

如果不是，通常是用啥方法来做？

爬虫

来源

方法

通常

33 replies 2020-02-22 23:34:25 +08:00

est

Feb 17, 2020 via Android

这个大概率是坐了一个小编

shanlan

Feb 17, 2020

1.官方 API
2.人肉抓取
3.定制爬虫

secsilm

Feb 17, 2020

@est 是个狠人，这得多少人干这

murmur

Feb 17, 2020

官方的新闻直接爬，非官方的人工洗稿

twor2

Feb 17, 2020

应该是人工的吧，至少半人工

ired

Feb 17, 2020

@est 同意，人肉 API

secsilm

Feb 17, 2020

@murmur 直接爬的话，是不是也得每种来源搞一套爬虫？这工作量感觉不小啊

litmxs

Feb 17, 2020 via Android

就算是人力成本也不是很高吧

andylsr

Feb 17, 2020

@secsilm 原则上每个来源写一个解析就行了

est

Feb 17, 2020

@secsilm 没有人的话，万一新闻源搞了个大新闻，你自动同步上去，等于你也有一份泽任吧。

jellybool

Feb 17, 2020 via Android

@est 泽任这个词，excited ！

metamask

Feb 17, 2020

不是一套，

一般是先自己搭个框架，
像这种，可以分别写爬取机制 + 清洗机制(parse )，然后做入库。

像 v 站一个老哥的，pyspider 用来做这玩意就还不错。

locoz

Feb 17, 2020 via Android

新闻类的直接上智能提取就行了，不用写规则，而且这种需求就无脑刷最新新闻那一页就行。
至于最终发布…显然部分非官方的新闻是人肉处理的，有新闻就直接推到编辑那，审核没问题了再提出关键内容放上去。

nocoolsandwich

Feb 17, 2020

看你样子是想要疫情的数据吧,github 有人整理好了,数据来源丁香园好像是.https://github.com/BlankerL/DXY-COVID-19-Data

delectate

Feb 17, 2020

来源就那几个，写规则就好；一般人机器爬，人肉审、二审、发。

alaikis

Feb 17, 2020

做几个规则，一个源配置一下就好呀，没那复杂

murmur

Feb 17, 2020

@secsilm 官方新闻其实就那么几个源，一个字都不能改

secsilm

Feb 17, 2020

@locoz 智能提取是个什么鬼

Ericcccccccc

Feb 17, 2020

人力成本很低啊

locoz

Feb 17, 2020

@secsilm #18 比如 https://github.com/kingname/GeneralNewsExtractor

Mavious

Feb 17, 2020

灰字提要，得人工来提取吧，毕竟新闻也没有固定格式，核心内容还是要人来提取的。

jingniao

Feb 17, 2020 via Android

丁香园是人工的，因为早上七点之前好像大都不更新。
刚开始那几天好像是小编通宵 /轮班了，晚上也有更新。

jabin88

Feb 17, 2020

正文提取算法，不要用正则

2ME

Feb 17, 2020 via Android

关键词 Readability 识别新闻站的正文进行提取

herozzm

Feb 17, 2020 via Android

通用爬虫针每个新闻源定制规则

wolfan

Feb 17, 2020 via Android

爬微博不就成了

lshero

Feb 17, 2020

有个岗位叫做值班编辑

chroming

Feb 17, 2020

专业一点的是用火车头这类工具每个网站写提取规则来爬。要求不高的话找现成正文提取算法直接提取

chroming

Feb 17, 2020

如果只是几个网站的话那人工直接复制更简单

secsilm

Feb 17, 2020

@locoz 学习了，谢谢

ChangQin

Feb 17, 2020

我想爬 twitter 的数据，结果开发者账号好难申请啊。。。

yinzhili

Feb 18, 2020

这种肯定是人工介入的，怕出问题责任重大

enrolls

Feb 22, 2020

认真观察网页结构，其实是有通用方法的，印象笔记不是也剪藏了莫。
(顺带测试回复功能)