讷鱼 - 游向某一片海洋( Python 爬,手机使用) - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
jizhou
V2EX    分享创造

讷鱼 - 游向某一片海洋( Python 爬,手机使用)

  •  
  •   jizhou 2020-05-01 15:17:44 +08:00 4260 次点击
    这是一个创建于 1999 天前的主题,其中的信息可能已经有所发展或是发生改变。

    之前收集过互联网上博客的网址:1309 个独立博客 受开往与奋韩的启发。决定将废弃域名启用,讷鱼。

    网址为: https://neyu.com/

    1 、私人使用,随机跳转到某一博客,发现一片蓝海。

    2 、与开往不同,讷鱼主动采集全网博客,重视手机体验,使用 Python 爬虫,根据变量因子,links 等,分析源码,找到博客网址添加到讷鱼库或失效博客时刻上报。

    重点:初衷是放到手机桌面,偶尔游一下,发现一下好玩的博客(所以美化了图标等信息)。一定要放手机桌面哈。(如下图)

    网址如何放在手机桌面奋韩博客有教程: https://www.fenhan.net/134.html

    由于讷鱼 2000 毫秒转跳,所以添加到手机屏幕的时候,手速要快.

    23 条回复    2020-05-07 19:56:38 +08:00
    Whsiqi
        1
    Whsiqi  
       2020-05-01 15:22:37 +08:00 via Android
    兰州养生网?
    jizhou
        2
    jizhou  
    OP
       2020-05-01 15:24:01 +08:00
    @Whsiqi 网址是啥,可以删除!目前规则还没有非常严格。
    Whsiqi
        3
    Whsiqi  
       2020-05-01 15:26:21 +08:00 via Android
    @jizhou 兰州养生网是一个奇怪的网站,什么都有
    seo 非常高
    jizhou
        4
    jizhou  
    OP
       2020-05-01 15:29:05 +08:00
    @Whsiqi 库里面没有这个网址,奇怪~
    jizhou
        5
    jizhou  
    OP
       2020-05-01 18:08:20 +08:00
    @Whsiqi 确实,估计是作弊了吧。
    mgrddsj
        6
    mgrddsj  
       2020-05-01 18:40:13 +08:00 via Android
    楼上大概是在吐槽这爬取博客的方法像兰州养生网这样的垃圾采集站吧,并不是建议收录到你的库里去。
    mlboy
        7
    mlboy  
       2020-05-01 20:16:45 +08:00 via iPhone
    求收录 http://1thx.com
    learningman
        8
    learningman  
       2020-05-01 20:21:31 +08:00 via Android
    怎么判断一个网站是博客?这可不是个容易活,想不到人工以外的方法。
    jizhou
        9
    jizhou  
    OP
       2020-05-01 22:32:55 +08:00
    @learningman 这个其实蛮简单,博客有共性,比如 links 友情链接里面基本是博客。其次程序版本,其次就是内容,甚至文章页面规则。
    当日,具体规则还在优化。还需要完善。
    jizhou
        10
    jizhou  
    OP
       2020-05-01 22:34:40 +08:00
    @mlboy 已收录^_^
    raymanr
        11
    raymanr  
       2020-05-01 22:46:00 +08:00
    @learningman
    决策树或者朴素贝叶斯?判断错了删了就是了
    janda
        12
    janda  
       2020-05-01 23:29:03 +08:00
    这网站是做什么的?就是随机打开一个网址?
    yujiang
        13
    yujiang  
       2020-05-02 00:30:08 +08:00 via Android
    玩了一会,发现有概率跳转到菠菜网站。。。收录是人工审核的吗?
    Macguffin
        14
    Macguffin  
       2020-05-02 01:50:37 +08:00 via Android
    似乎会跳转到一些小说网,音乐网之类的,是因为页面布局和博客很像吗?建议加个关键词筛选
    yafoo
        15
    yafoo  
       2020-05-02 08:17:35 +08:00 via Android
    建议使用 location.href 来跳转,这样跳转后还能返回回来
    laycher
        16
    laycher  
       2020-05-02 11:00:34 +08:00
    很有意思!!
    i0error
        17
    i0error  
       2020-05-02 13:08:36 +08:00
    哦哦我猜到可能是怎么爬的了,评论博文时一般都会填评论者自己的博客地址。楼上说有 bc 网站,应该是灌水评论故意写的。
    learningman
        18
    learningman  
       2020-05-02 14:11:51 +08:00
    @raymanr 你也不知道你判断错了啊。。。判断判断错了还不是要人工
    learningman
        19
    learningman  
       2020-05-02 14:17:27 +08:00
    不过这个真的挺好玩的,每次跳转感觉都是打开了另外一个人的人生
    learningman
        20
    learningman  
       2020-05-02 14:38:00 +08:00
    刷到这么个玩意儿。。。https://www.pan199.cn/ 这种我觉得挺勉强吧
    jizhou
        21
    jizhou  
    OP
       2020-05-06 12:57:07 +08:00
    @i0error 确实判断规则还比较少,新增了 PWA,在 chorme 的安卓机器下可以直接弹出提示。
    jizhou
        22
    jizhou  
    OP
       2020-05-06 22:01:26 +08:00
    创造者日报首页推荐了,^_^
    mlboy
        23
    mlboy  
       2020-05-07 19:56:38 +08:00
    谢谢,希望增加个 api 可以手动增加.
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1221 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 17:25 PVG 01:25 LAX 10:25 JFK 13:25
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86