用 Django 创建的第一个网站+scrapy 写的爬虫 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wsb200514
V2EX    Django

用 Django 创建的第一个网站+scrapy 写的爬虫

  •  
  •   wsb200514 2015-09-22 10:29:45 +08:00 13091 次点击
    这是一个创建于 3672 天前的主题,其中的信息可能已经有所发展或是发生改变。
    花了将近 2 周的时间:(1)用 django 搭了网站(2)用 scrapy 写了几十个爬虫。
    目前看来可以正常使用了。
    起初,是因为自己有每天浏览 36Kr 等科技博客、还有些技术帖子的习惯,之前一直用推酷,里面很全面,但还是想根据自己的喜好定制一个。所以如果正好也是你需要的话,倍感欣慰。
    网站叫三四秒: www.34miao.com
    谢谢。
    67 条回复    2015-10-09 16:36:35 +08:00
    fange01
        1
    fange01  
       2015-09-22 10:33:25 +08:00
    design 图挂错位?
    kepenj
        2
    kepenj  
       2015-09-22 11:08:54 +08:00
    赞一个
    42V0CdLjCU494ogF
        3
    42V0CdLjCU494ogF  
       2015-09-22 11:12:54 +08:00
    挺简洁的,可以分享到 NEXT 上来:)
    hjkl0001
        4
    hjkl0001  
       2015-09-22 11:13:59 +08:00
    感觉不错。。。
    wsb200514
        5
    wsb200514  
    OP
       2015-09-22 11:16:21 +08:00
    @jwenwang 我 products 频道聚合了 next,product hunt 这些产品信息,所以不知道发 next 会不会被 next 鄙视或者删掉啊?哈哈
    wsb200514
        6
    wsb200514  
    OP
       2015-09-22 11:16:40 +08:00
    @hjkl0001 谢谢^_^
    wsb200514
        7
    wsb200514  
    OP
       2015-09-22 11:16:56 +08:00
    @kepenj 谢谢哈
    wsb200514
        8
    wsb200514  
    OP
       2015-09-22 11:20:37 +08:00
    @fange01 谢谢指正。
    您是指有几张图加载不出来么? xueui.cn 站点做了图片防盗链的措施,可以虽然爬到图片但是在浏览器里还是没法直接打开,除非在其他选项卡中先打开他们的站点,然后欺骗浏览器才能刷出来。
    如果不是这个问题的话,请问一下您是用什么浏览器访问的,我也用试一下看看到底什么问题?我兼容性做的不是很好啊,请见谅,嘿嘿
    42V0CdLjCU494ogF
        9
    42V0CdLjCU494ogF  
       2015-09-22 11:21:26 +08:00
    @wsb200514 没事的呀,我就是审核的哈哈
    wsb200514
        10
    wsb200514  
    OP
       2015-09-22 11:24:00 +08:00
    @jwenwang 大神啊,那我赶紧发去,吼吼
    XianZaiZhuCe
        11
    XianZaiZhuCe  
       2015-09-22 11:37:53 +08:00
    我想知道内容是你自己有选择的放上去的,还是直接抓的某些频道?
    42V0CdLjCU494ogF
        12
    42V0CdLjCU494ogF  
       2015-09-22 11:52:49 +08:00
    @wsb200514 搞定哈哈
    wsb200514
        13
    wsb200514  
    OP
       2015-09-22 11:53:13 +08:00
    @XianZaiZhuCe 只是自己选择了一些抓取的网站,然后抓取到的内容会全部展示出来不做筛选。如果抓取了内容,再对内容做筛选有选择的展示,那对个人项目而言有点太累了。
    以后计划会加入一些其他功能,但针对信息维护这一块还是不想人工干预。所以其实网站抓取的信息质量只能取决于抓取的网站质量,所以前期只是筛选了一些自己浏览比较频繁的网站,质量有些保证。
    ps. iOS 版本已经被拒了好多次了,目前已再一次提交审核中,希望这一次能没什么问题。
    wsb200514
        14
    wsb200514  
    OP
       2015-09-22 11:54:46 +08:00
    @jwenwang 嗯,已经展示出来了。多谢,真幸运啊,第一次在 V2EX 和真神对话,嘿嘿
    42V0CdLjCU494ogF
        15
    42V0CdLjCU494ogF  
       2015-09-22 11:57:04 +08:00
    @wsb200514 别。。。都是普通人
    XianZaiZhuCe
        16
    XianZaiZhuCe  
       2015-09-22 13:17:46 +08:00
    @wsb200514 哦~ 我就是觉得很多网站内容质量挺差的,偶尔会有不错的。所以我比较少看。相对来说 看个人博客多点。
    shulen
        17
    shulen  
       2015-09-22 14:04:27 +08:00
    厉害,
    Wangxf
        18
    Wangxf  
       2015-09-22 14:07:57 +08:00
    厉害
    wsb200514
        19
    wsb200514  
    OP
       2015-09-22 14:27:22 +08:00
    @XianZaiZhuCe 是的,相比而言,个人博客质量高一点,网站发展大了新闻稿鸡汤文浅尝则止的文章就泛滥了。开发的那个版块收了一些 iOS 开发的个人博客,比如唐巧、 kitten yang ,南峰子,其他资讯类的不太清楚国内有哪些质量高的个人博客,所以……目前只能做到这么多。嘿嘿
    wsb200514
        20
    wsb200514  
    OP
       2015-09-22 14:29:43 +08:00
    @shulen @Wangxf 我也是刚入门啊,希望各大牛多携带携带,加快进步,嘿嘿……
    boro
        21
    boro  
       2015-09-22 14:36:09 +08:00
    强!
    wsb200514
        22
    wsb200514  
    OP
       2015-09-22 14:50:04 +08:00
    @boro 嘿嘿,谢谢哈
    hanfeng3015
        23
    hanfeng3015  
       2015-09-22 15:26:53 +08:00
    不错哦~
    wsb200514
        24
    wsb200514  
    OP
       2015-09-22 17:01:28 +08:00
    @hanfeng3015 嘿嘿,刚完成,比较粗糙,还得继续完善和努力,多谢多谢
    yield9tk
        25
    yield9tk  
       2015-09-22 17:04:19 +08:00
    源码何在?
    fyibmsd
        26
    fyibmsd  
       2015-09-22 17:30:08 +08:00
    能分享源码么
    Mellcap
        27
    Mellcap  
       2015-09-22 17:39:24 +08:00
    学 ing, 希望也可以像你一样做出自己的网站.
    situs
        28
    situs  
       2015-09-22 17:42:08 +08:00
    您这个前端是什么框架???
    wsb200514
        29
    wsb200514  
    OP
       2015-09-22 20:38:59 +08:00
    @fange01 图片位置下移 BUG 已解决。发现是在 chrome 上的问题, chrome 默认小于 12px 的字体都是 12px ,所以导致占据位置比设想的要大,把图片挤到下面去了。十分感谢提醒,嘿嘿
    wsb200514
        30
    wsb200514  
    OP
       2015-09-22 20:42:13 +08:00
    @situs 没有用框架 ,你也可以看出来,其实页面布局不复杂的,最上面菜单和最下面 footer 都是固定的,中间的内容因为布局都是类似的,所以很简单。所以就是自己想了下布局之后手撕了几行 html+css 代码,再用了一点点的 juqery 就够了。嘿嘿,框架太重,我这个小站点用的话的话有点大材小用了,哈哈
    wsb200514
        31
    wsb200514  
    OP
       2015-09-22 20:45:05 +08:00
    @yield9tk @fyibmsd 源码过一阵子再考虑分享出来,目前有 BUG ,现在就放出来有点对不起人民群众哈,待我再完善完善的,欢迎指教交流,谢谢哈
    88250
        32
    88250  
       2015-09-22 20:51:22 +08:00
    楼主,我能从你这里再爬数据么,哈哈~
    lizhiqing1996
        33
    lizhiqing1996  
       2015-09-22 21:11:15 +08:00
    然而 design 板块我看起来图片位置还是不对
    miaozaiye
        34
    miaozaiye  
       2015-09-22 22:07:19 +08:00 via iPhone
    作品不错呀!来我们客栈注册一个吧:)
    junnplus
        35
    junnplus  
       2015-09-22 22:50:46 +08:00
    Tink
        36
    Tink  
    PRO
       2015-09-22 22:53:36 +08:00
    这个 logo 还是挺好看的
    LXVC
        37
    LXVC  
       2015-09-23 00:19:58 +08:00
    @wsb200514 分享源码的时候请告诉我声
    wsb200514
        38
    wsb200514  
    OP
       2015-09-23 07:11:30 +08:00
    @Tink 谢谢,嘿嘿
    wsb200514
        39
    wsb200514  
    OP
       2015-09-23 07:11:42 +08:00
    @LXVC OK
    wsb200514
        40
    wsb200514  
    OP
       2015-09-23 07:12:55 +08:00
    @lizhiqing1996 多谢提醒,请问一下您是用什么浏览器打开的?我再调试一下……
    wsb200514
        41
    wsb200514  
    OP
       2015-09-23 07:14:53 +08:00
    @88250 哈哈,这个……爬得时候温柔点就行啊,因为几十块钱的服务器经不住啊,你懂得……哈哈
    wsb200514
        42
    wsb200514  
    OP
       2015-09-23 07:23:13 +08:00
    @miaozaiye 多谢,已注册~~
    lijiacong0702
        43
    lijiacong0702  
       2015-09-23 09:13:03 +08:00
    厉害,赞一个
    lizhiqing1996
        44
    lizhiqing1996  
       2015-09-23 09:41:19 +08:00
    @wsb200514 Win8.1 + chrome
    wsb200514
        45
    wsb200514  
    OP
       2015-09-23 11:02:11 +08:00
    @lizhiqing1996 请问一下具体是什么问题啊?方便的话可以截图给我吗?我邮箱是: [email protected] ,万分感谢~~~
    wsb200514
        46
    wsb200514  
    OP
       2015-09-23 12:33:20 +08:00
    @lizhiqing1996 我在 win7+chrome 45.0 和 win10+chrome 45.0 上试了没有问题。估计问题出在 win8 上。可是我木有安装 win8 的机子啊,难道虚拟机走起么~~感叹 web 前端的同学不容易啊,现在不仅要兼容浏览器版本,还要兼容系统版本了啊,逆天了喂。我回头改改,应该还是 chrome 特殊默认字体的原因,想个替代方案。多谢了啊
    wsb200514
        47
    wsb200514  
    OP
       2015-09-23 13:25:29 +08:00
    @lizhiqing1996 刚对 development 那边也做了点修改,您再清除一下缓存后再试一下看看。有可能不是 win8 的问题,不知道是不是缓存的问题。
    lizhiqing1996
        48
    lizhiqing1996  
       2015-09-23 16:30:51 +08:00
    @wsb200514 Development 好了,但是 Design 还是不行,我试着用 F12 把图片的宽度改成 198px ,结果就正常了,
    wsb200514
        49
    wsb200514  
    OP
       2015-09-23 16:35:35 +08:00 via iPhone
    @lizhiqing1996 OK 。我再改改哈
    gulullu
        50
    gulullu  
       2015-09-23 17:20:39 +08:00
    logo 不是高清图,差评
    codercai
        51
    codercai  
       2015-09-23 18:34:05 +08:00
    想用 django 搭个博客,但是没有前端基础,估计比较吃力。楼主有什么建议没有呀
    raikecody
        52
    raikecody  
       2015-09-23 18:41:28 +08:00
    期待开源中
    wsb200514
        53
    wsb200514  
    OP
       2015-09-23 20:47:49 +08:00
    @codercai 前端学深了比较难,但是入门还是很快的, html+css 学一个星期就可以上手做简单的项目, js 和 jquery 估计半个月就可以做简单的效果了。没有你想的那么难。都是先入了门再说,然后就是不断做项目实践的时候一边被虐一边成长。加油
    wsb200514
        54
    wsb200514  
    OP
       2015-09-23 20:49:18 +08:00
    @gulullu 我自己连半个业余美工都算不上,所以效果你懂的,请见谅啊,哈哈
    wsb200514
        55
    wsb200514  
    OP
       2015-09-24 12:35:33 +08:00
    @lizhiqing1996 design 页面做了修改,放弃上下居中的排版,采用固定高度,自动缩放宽度,多余宽度自动隐藏,宽度不够图片就左右居中。您再清除缓存后试一下。多谢耐心地指教~~~
    tim520
        56
    tim520  
       2015-09-24 13:28:54 +08:00
    很牛逼啊,请问用 scrapy 爬虫新浪、网易的新闻容易吗?
    robotdiy
        57
    robotdiy  
       2015-09-24 15:07:01 +08:00
    这个设计,很喜欢。
    lizhiqing1996
        58
    lizhiqing1996  
       2015-09-24 20:54:40 +08:00
    @wsb200514 已经完美显示。指教算不上,我还是个菜鸟
    wsb200514
        59
    wsb200514  
    OP
       2015-09-24 21:10:27 +08:00
    @tim520 一般来说都是可以的,只是控制好频率,不要给对方服务器增加压力即可。方便自己也给她们带流量,大家和谐共存嘛,哈哈
    wsb200514
        60
    wsb200514  
    OP
       2015-09-24 21:12:33 +08:00
    @robotdiy 谢谢,因为不懂设计,所以一切从简变成这样了,只要能方便阅读就行~~~嘿嘿
    xiaozhu5
        61
    xiaozhu5  
       2015-09-28 22:28:59 +08:00
    虽然是简单了点,不过挺不错的
    lazyboy
        62
    lazyboy  
       2015-10-04 11:41:31 +08:00
    http://jikeyuedu.com/

    感觉我的更简单,初学者,用 flask+requestss 做的。
    lazyboy
        63
    lazyboy  
       2015-10-04 11:43:58 +08:00
    @88250 这个想法不错,哈哈,直接在这里爬取数据
    lazyboy
        64
    lazyboy  
       2015-10-04 11:46:23 +08:00
    建议来个手机端适配,响应式设计
    wsb200514
        65
    wsb200514  
    OP
       2015-10-05 20:52:42 +08:00
    @lazyboy 一开始没打算做响应式设计,因为开发了 iOS app 。但是 iOS app 审核没过,已无希望上架。后续再考虑响应式吧。
    agnewee
        66
    agnewee  
       2015-10-06 01:06:28 +08:00
    赞一个!
    Mess1ah
        67
    Mess1ah  
       2015-10-09 16:36:35 +08:00
    楼主大大什么时候考虑开源=-=想学习下~~
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     6000 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 06:13 PVG 14:13 LAX 23:13 JFK 02:13
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86