
迫于好奇,
爬下来网页,将固定格式的页面转换为文本?是这个意思不?
1 keepeye 2019-05-22 08:58:35 +08:00 1. 识别大段文本 其他的楼下补充 |
2 TomVista OP 那么 doc.loaded(){ajax 异步} 请求下来的数据能爬到吗? |
3 qqqz 2019-05-22 09:08:51 +08:00 ajax 的直接调用接口不就得了,抓下的内容随便往数据里面存,你可以在 抓的时候过滤,也可以在读、渲染的时候过滤 |
4 Light3 2019-05-22 09:12:02 +08:00 要看页面是啥样的 有的是接口 有的是直接显示的 可能要抓页面 当然有的可能是图片.. |
5 TomVista OP 明白了,谢谢诸位. |
6 mouren 2019-05-22 09:31:07 +08:00 正文提取我用的是 Arc90 Readability 的算法 章节列表自动提取是自己写的算法 |
7 ismyyym 2019-05-22 09:35:36 +08:00 浏览器某种意义上也是爬虫 |