
1 jason52 2014-11-11 21:56:34 +08:00 深度优先?广度优先? 布隆过滤器? 题目没说清楚,没法下手啊 |
2 blond OP @jason52 哦,不好意思,是广度优先,在爬虫爬取url的过程中自动发现现有url库中没有的url,但是我该如何来判断这个url的价值呢,这是不是还需要什么算法呢 |
3 Melodic 2014-11-12 19:56:22 +08:00 另设path关键字,域名+path分层级比对,没有就加入? |