每一行php代码都是自己敲出来的购物比价站,jiabibi.com - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
laoyuan
V2EX    分享创造

每一行php代码都是自己敲出来的购物比价站,jiabibi.com

  •  
  •   laoyuan
    laoyuan 2013-01-17 10:57:09 +08:00 9986 次点击
    这是一个创建于 4660 天前的主题,其中的信息可能已经有所发展或是发生改变。
    http://www.jiabibi.com 购物价必比!
     
    包括爬虫,包括极其山寨的mysql全文检索、品牌识别商品归并算法,全部一行一行敲出来!不知对象为何物,没写过类,只会写函数!!刚入门的时候架apache架了三个晚上才成功,没有任何人指点,所以,just do it, 你也可以!
     
    呵呵,放一个还没公开的页面:
    http://www.jiabibi.com/jianlou/
    暂是我不打算做用户系统,说白了我不打算在用户黏度上下多少功夫,只要能提供有价值的服务,用户买东西之前能想起来上这网站来看一眼,就足够了!
    第 1 条附言    2015-10-30 08:53:30 +08:00
    这个网站已经废了。。
    55 条回复    1970-01-01 08:00:00 +08:00
    talentsnail
        1
    talentsnail  
       2013-01-17 11:03:12 +08:00
    同样没有基础的孩子也在巧代码,不过执行力比你差多了,好多简单的功能各种拖延,还在进行中。
    lusin
        2
    lusin  
       2013-01-17 11:08:20 +08:00
    请问什么写的呢,做到这个程度(包括数据收集)用了大概多长时间
    lusin
        3
    lusin  
       2013-01-17 11:14:44 +08:00
    @lusin 糊涂了,是PHP全部一行 一行敲的

    请问下数据收集用什么配置一天大概能完成多少呢
    n00b1
        4
    n00b1  
       2013-01-17 11:17:43 +08:00
    没基础在敲的算我一个,赞lz执行力
    anyforever
        5
    anyforever  
       2013-01-17 11:17:45 +08:00
    做的不错。
    laoyuan
        6
    laoyuan  
    OP
       2013-01-17 11:22:04 +08:00
    @lusin
    就是家里的开发机,10M家用光纤。也是php写的,不会多线程就多开几个页面一起跑,初始数据收集一家商城差不多四五天吧,现在可以保证48小时内全部价格更新一次。
    Bob
        7
    Bob  
       2013-01-17 11:27:10 +08:00
    你这个没有采集淘宝商城的吧 会写函数不错哇 写出来的代码我都看不懂 面壁去了
    lusin
        8
    lusin  
       2013-01-17 11:27:18 +08:00
    @laoyuan 挺好的,建议楼主数据慢慢往出放,一下子放百万级的数据出来搜索引擎应该是接受不了的
    laoyuan
        9
    laoyuan  
    OP
       2013-01-17 11:28:36 +08:00   1
    数据收集不用什么配置,如果不保存数据直接 update 到线上的话,树莓派也搞得掂!
    n00b1
        10
    n00b1  
       2013-01-17 11:39:49 +08:00
    lz非攻城狮吗?不知道你的爬虫咋学的呢?有分享下学习经验吗?感谢~
    laoyuan
        11
    laoyuan  
    OP
       2013-01-17 11:44:58 +08:00
    @Bob
    淘宝商城那么多东西怎么采得过来啊!!

    爬虫就是Curl,纯山寨货!
    manoon
        12
    manoon  
       2013-01-17 13:06:15 +08:00 via Android
    谢谢lz给我们这些有拖延症的人带来了动力
    thedevil7
        13
    thedevil7  
       2013-01-17 13:18:10 +08:00
    没人吐槽这个域名么... jia BIBI
    liliang13
        14
    liliang13  
       2013-01-17 13:23:24 +08:00
    @thedevil7

    大家都不邪恶,我们也不要邪恶了 _-_
    iTea
        15
    iTea  
       2013-01-17 13:32:16 +08:00
    楼主真乃神人也!~
    liuxurong
        16
    liuxurong  
       2013-01-17 13:35:05 +08:00
    标题是.... 土炮练成记?

    不过这种执行力强的人不敢小看,1年后或许就会成高手
    xiongbo
        17
    xiongbo  
       2013-01-17 13:38:37 +08:00
    向楼主致敬
    laoyuan
        18
    laoyuan  
    OP
       2013-01-17 14:44:22 +08:00
    绝对土炮,到现在没见过正式的 PHPer 编的 PHP 是啥样子-_-!!
    我早期写的全是用空格来缩进的,一次用两个,现在用tab,不过我也不知道应该用哪种!
    cougar
        19
    cougar  
       2013-01-17 16:08:00 +08:00
    赞楼主。。。
    tedd
        20
    tedd  
       2013-01-17 16:16:23 +08:00
    楼主有博客记录历程啥的吗?一定很精彩
    lusin
        21
    lusin  
       2013-01-17 17:38:21 +08:00
    laoyuan
        22
    laoyuan  
    OP
       2013-01-17 19:36:08 +08:00
    没有博客,很久以前写过,感觉越写越装B!

    商品的归并有一定的算法,最后人工审核,不可能完全靠程序完成匹配,否则尼玛成人工智能了。这个工作每天都在进行,因为人工审核的速度有限。
    cooiky
        23
    cooiky  
       2013-01-17 19:58:49 +08:00
    每天自动发文章?这个是怎么手工发的?
    看了下价格历史数据,好像去去年十一开始的?
    laoyuan
        24
    laoyuan  
    OP
       2013-01-17 21:40:10 +08:00
    文章当然是人工发的。

    感觉有黑客光顾。。。刚才我登FTP,结果提示我人多登不上,我ftp最多在线人数设的3人。。。
    lusin
        25
    lusin  
       2013-01-17 23:02:25 +08:00
    @laoyuan 网上找到这方面的资料比较少,可以请教下算法的大概思路吗?(或者楼主是从什么途径学习的呢?)

    还以这个http://www.jiabibi.com/product/1000700196/链接中产品为例,“Midea美的面包机EHS15AP-PW(电脑版/15分钟断电记忆/13小时精准预约/您身边的面点专家)"标题这么长,主要关键字就是:美的、EHS15AP-PW这两个,如何去匹配呢?
    laoyuan
        26
    laoyuan  
    OP
       2013-01-18 05:03:32 +08:00   3
    这个主要靠经验,说成算法相当有装B嫌疑。我并不赁于分享这些经验,因为只要你做,做进去,一定也可以解决。
    首先识别品牌,这些电商中三分之二的商品本身就有品牌这项结构化数据,利用这些数据可以构建一个品牌库,剩下三分之一没有品牌的,标题从品牌库里过一遍,strpos(),看品牌是否存在于标题中,如果只匹配到一个品牌,那就是它了,两个以上人工选一下。
    确定品牌后就轻松了,美的商品数在所有品牌中排前50,总共也就区区五六百款,把京东的作为标准,亚马逊易购之流通通在京东里过一遍。这时候可以匹配型号,连续的字母数字-/用 preg_match_all 提出来(EHS15AP-PW),具有独特性?好,它就是型号,和京东有型号的比对下,型号一致价钱又差不多的那就是同一款。提不出型号的,最起码我能提出来品种,几千个标题统计下词频,从高到低列出来人工筛选下,剔掉系列、不锈钢、电脑版等描述词,剩下的就是电磁炉、热水器、豆浆机。。。手上又有了品种库。确定品种后更轻松了,一个品种顶多几十款,想怎么玩怎么玩~
    gjk1992
        27
    gjk1992  
       2013-01-18 11:04:07 +08:00 via Android
    看过我之前的帖子么,我也研究比价算法,求交流合作,大三学生
    sohoer
        28
    sohoer  
       2013-01-18 11:25:25 +08:00
    www.shishibi.com 时时比 实时比,我打算每小时更新

    装B一下
    laoyuan
        29
    laoyuan  
    OP
       2013-01-18 15:08:04 +08:00
    @sohoer 打算做浏览器插件?还木上线?
    sohoer
        30
    sohoer  
       2013-01-18 15:23:53 +08:00
    才刚刚解决抓取,慢慢来,不过我是JAVA平台,有很多第三方库,不需要什么都自己造应该会快很多

    你48小时更新一次没竞争力啊,现在有很多比价的一般一天也会更新几次
    laoyuan
        31
    laoyuan  
    OP
       2013-01-18 15:58:04 +08:00
    嗯嗯,加网线~~
    laoyuan
        32
    laoyuan  
    OP
       2013-01-18 16:28:20 +08:00
    搞JAVA的,NLP么?洋枪对土炮,燃!战!
    gjk1992
        33
    gjk1992  
       2013-01-18 21:40:50 +08:00
    @laoyuan 加QQ 188869727 想交流下 我大三学生,想学习下
    zsdsz
        34
    zsdsz  
       2013-01-19 00:35:40 +08:00 via Android
    @lusin 最简单的方法 用广告联盟的开放平台 一堆数据给你用
    laoyuan
        35
    laoyuan  
    OP
       2013-01-19 11:09:14 +08:00
    LS,这是在中国。。。。
    zsdsz
        36
    zsdsz  
       2013-01-19 12:04:05 +08:00 via Android
    @laoyuan 亿起发 和59秒有 你看看
    gjk1992
        37
    gjk1992  
       2013-01-19 13:18:48 +08:00 via Android
    @zsdsz 那个就是普通的搜索,没有比价功能。更没有价格变化趋势
    cooiky
        38
    cooiky  
       2013-01-20 13:27:57 +08:00
    价格那个图片识别是用的什么库?
    laoyuan
        39
    laoyuan  
    OP
       2013-01-20 22:03:48 +08:00
    我相信没有任何一个做比价的网站是从图片识别价格的。
    lala
        40
    lala  
       2013-01-21 04:28:27 +08:00
    刚开始能做到这程度已经是非常的impressive了,这个idea是可以赚钱的,而且有相当的可能性。。。。
    chemhack
        41
    chemhack  
       2013-01-21 08:24:18 +08:00
    @laoyuan 那价格从哪来的啊
    shiny
        42
    shiny  
       2013-01-21 10:40:24 +08:00
    @laoyuan 可以透露下价格从哪来吗…… 难道是从etao来的……
    laoyuan
        43
    laoyuan  
    OP
       2013-01-21 10:48:56 +08:00
    当然是一手数据,直接从电商网站取啊
    lusin
        44
    lusin  
       2013-01-21 11:09:29 +08:00
    @laoyuan 你好,还想请教个问题

    爬虫采集过程中断后,如何标记,以便下次采集呢?(来源方的内容可能是动态的)
    laoyuan
        45
    laoyuan  
    OP
       2013-01-21 14:27:34 +08:00
    实在不行就从头开始呗。。。对于动态列表性质的我一般把列表页html保存到本地,然后5天或10天更新一次,当然这东西不存也无所谓,就在数据库里建个表呗,抓过的把时间update一下。
    shiny
        46
    shiny  
       2013-01-21 14:46:43 +08:00
    非常感谢 @laoyuan 的分享。
    另外京东价格的获取,想了下,写了个简单的python版本演示,分享给:
    @cooiky
    @chemhack

    http://gist.github.com/4584041
    laoyuan
        47
    laoyuan  
    OP
       2013-01-22 19:13:41 +08:00
    LS上硬货了,虽然我不是用这种方法,不过条条大路通罗马~
    laoyuan
        48
    laoyuan  
    OP
       2013-01-24 09:12:49 +08:00
    再次出现ftp连接满的情况(限3连接),查了下日志,原来不是黑客,有机器对21端口暴破而已,同时3个线程验证密码,就给占满了,换个端口立刻清静~
    firsthym
        49
    firsthym  
       2013-01-24 17:45:04 +08:00
    把你的比价网站放到了我的电商搜索里面(最后一个标签“比价网站”): http://cse.so/q/50fe555617f923f8c3000017/Nexus

    希望保持更新~加油!
    laoyuan
        50
    laoyuan  
    OP
       2013-01-25 00:05:14 +08:00
    @firsthym 保持更新请放心,绝对有信心~~
    reverland
        51
    reverland  
       2013-02-16 18:34:59 +08:00
    赞楼主,写什么类,楼主那是用php函数式编程
    bigdude
        52
    bigdude  
       2013-05-17 21:40:51 +08:00
    赞楼主的执行力,比价这个idea我也有,自己也敲敲打打研究了不少了,可是成品还没有,都不想为自己的懒惰开脱了。看看楼主,真是惭愧
    wheatcuican
        53
    wheatcuican  
       2013-12-02 17:18:08 +08:00
    楼主,缺书网也是你的么?
    laoyuan
        54
    laoyuan  
    OP
       2013-12-06 10:40:52 +08:00
    @wheatcuican 多明显啊,看我ID就知道了,现在主要就是做缺书网,感觉做百货比价还需要酝酿酝酿,有计划的推进,现在缺书网是想到啥做啥
    wheatcuican
        55
    wheatcuican  
       2013-12-06 13:07:10 +08:00
    @laoyuan 缺书网蛮好的,挺实用。有一个小建议:可以定期推荐一本书。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3747 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 00:50 PVG 08:50 LAX 17:50 JFK 20:50
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86