
现在爬虫写完了, golang 写的,参考了若干开源代码,最后效果是每天约 350G 出口流量,每秒 12k 左右 UDP 请求,每天能记录千万级的唯一 infohash 值。然后问题来了,通过 infohash 获取文件 metadata 效率太低,从各个种子库查询,只能找到大概 3%,也就是每天只能索引几十万资源。有没有人有更好的办法,特别是实现了 bep0009 的同志能不能分享一下经验?
1 lzhr 2016-07-04 21:08:36 +08:00 |
2 kslr 2016-07-04 21:20:12 +08:00 via Android 首先,每天保持足够的更新就好了,否则只是烂数据 |
3 yanyuan2046 OP @lzhr 这个实现也是从种子库查的 |
4 geeglo 2016-07-04 21:30:57 +08:00 via iPhone 要种子干嘛? 磁力和 资源名你已经可以获得了。 |
5 yanyuan2046 OP @geeglo DHT 网络只能获取到磁力,只有一个字符串。得找到文件名,大小这些信息,这些东西种子里有 |
6 yanyuan2046 OP @kslr 更新不是问题,量大量小而已 |
7 kaner 2016-07-04 21:36:06 +08:00 |
8 GPU 2016-07-05 08:07:36 +08:00 |
9 yanyuan2046 OP @GPU 这东西量不是最大的问题,主要看搜索精度,排在前面的得下载速度最快才行 |
10 fising 2016-07-05 10:00:01 +08:00 已经有人做磁力搜索被抓了 |
11 yanyuan2046 OP @fising 有新闻出来没有? |