
1 GreatMartial 2017-11-30 15:58:18 +08:00 via Android 哈哈哈!这个我做过 |
2 ooee2016 2017-11-30 16:00:22 +08:00 'network' 标签里不是有 url 吗 |
3 jakeyfly OP |
4 MiguelValentine 2017-11-30 17:14:33 +08:00 Network 里勾选 Preeserve log |
5 annielong 2017-11-30 17:22:38 +08:00 analysis 明显是个函数,直接追到处理结果进行组合,或者 |
6 jakeyfly OP @MiguelValentine 大神 这个我肯定知道啊 但是弹出的新标签 所有包我都 看过了。没有一个是接收地止的。原页面就完全没有动静 不明白是啥意思 我估计要去学 JS 了 |
7 jakeyfly OP @annielong 是啊 函数我都找到了 function analysis(ID) { var theURL; try { if (Config.language == 0) theURL = "http://zq.win007.com/analysis/"; + ID + "cn.htm"; else if (Config.language == 1) theURL = "http://zq.win007.com/analysis/"; + ID + ".htm"; else theURL = "http://zq.win007.com/analysis/"; + ID + "sb.htm"; } catch (e) { if (location.href.split('_').length == 2) theURL = "http://zq.win007.com/analysis/"; + ID + "cn.htm"; else theURL = "http://zq.win007.com/analysis/"; + ID + ".htm"; } window.open(theURL); 可是 我是想知道 chrome 是如何接收到这个地止的 然后打开 的 我要抓这个包啊 就是抓不到啊 |
8 anmaz 2017-11-30 18:19:05 +08:00 via Android 直接上 phontomjs |
10 Hsinchu 2017-11-30 18:32:02 +08:00 via Android @jakeyfly 新弹出的页面 F12 的 network 你当然看不到记录,因为 network 只有开着 F12 期间的请求才记录,你开 F12 时请求已经发出去了,你 F5 一下就能看到了。看你需求是想批量抓页面,那就在你自己的脚本里用它那个 analysis 函数把 url 算出来呗,不是 a 标签没法直接获取链接。 |
11 jakeyfly OP @Hsinchu 我有钩选那个弹新页面 就记录包的那个 就是打开新页面同时也开审查元素的 我找了两天了 确实不知道是那个东西传过来的 我 X |
12 jakeyfly OP 我感觉 楼歪了 我的本意是 这个是 ONCLICK 触发的连接 在初始页 无法找到连接去不了下一页 好多人都 说用模拟点击 可是 数据量巨大 要分布 要多线程 没研究过是不是合适 还是希望能获取去目标页面的连接 谢谢大家啦 |
13 GreatMartial 2017-11-30 20:02:22 +08:00 @jakeyfly 把你的请求地址给一下吧。我之前是爬场次赔率,根据编号拼接出数据地址,再进行数据清洗。 |
14 GreatMartial 2017-11-30 20:04:17 +08:00 @jakeyfly 那个 onclick 确实没法解析出数据地址的。 |
15 dbw9580 2017-11-30 20:04:20 +08:00 via Android 地址是在这个 analysis 函数里拼接出来的,没有经过网络请求。把它的逻辑看懂,不就知道要打开的地址了吗? |
16 Moker 2017-11-30 20:07:08 +08:00 拿到 ID 去采集详情页.....以前公司买的球探的数据 就是有点小贵 |
17 wangyongbo 2017-11-30 20:18:02 +08:00 @jakeyfly 这个函数看不懂吗? 就是字符串拼接一下,http://zq.win007.com/analysis/1424203cn.htm ? 对吧。把这个 js 代码改造成 python 代码。 |
18 blacklee 2017-11-30 22:14:05 +08:00 这是一个完美的弄不清楚「我想要什么」的案例。 想要的东西其实已经有人给出,然而自己却还在纠结一些其他的东西。 题外不得不感叹一下,多年前的比赛 ID 还是 5 位 6 位的,没想到现在都已经 140W 的 7 位了。 |
19 dbw9580 2017-11-30 22:42:08 +08:00 via Android @blacklee 我去看了,实际情况要比看上去的复杂。页面上这些 id 不是直接写在 HTML 元素里的,也是通过脚本动态加载的。但是在浏览器检查元素的时候看的的是已经加载完了之后的样子,而爬虫看到的是空白的页面。所以需要顺藤摸瓜去找那个动态加载的 api。 |
20 betwinyou 2017-11-30 22:54:03 +08:00 有点意思,学习了 |
21 winglight2016 2017-12-01 11:38:44 +08:00 |
22 a7a2 2017-12-01 13:30:52 +08:00 找这个网站拿数据我醉了。。。不专业。。。 你的技术至少包含 libpcap 关键字才能拿到最接近第一时间的数据。。。 如果你的数据来自于中文网站已经不专业了 |
23 jakeyfly OP @GreatMartial 如果无法解析地止 那只有构造 URL 了 这个有点烦人啊 他要是改了服务器 我要是没有发现 就会造成损失啦 |
25 jakeyfly OP @wangyongbo 懂啊 我是想避免拼接来构造 URL 啊 这样很不妥啊 负面的影响太多了 |