![]() | 1 talentsnail 2013-01-17 11:03:12 +08:00 同样没有基础的孩子也在巧代码,不过执行力比你差多了,好多简单的功能各种拖延,还在进行中。 |
![]() | 2 lusin 2013-01-17 11:08:20 +08:00 请问什么写的呢,做到这个程度(包括数据收集)用了大概多长时间 |
![]() | 4 n00b1 2013-01-17 11:17:43 +08:00 没基础在敲的算我一个,赞lz执行力 |
![]() | 5 anyforever 2013-01-17 11:17:45 +08:00 做的不错。 |
![]() | 6 laoyuan OP @lusin 就是家里的开发机,10M家用光纤。也是php写的,不会多线程就多开几个页面一起跑,初始数据收集一家商城差不多四五天吧,现在可以保证48小时内全部价格更新一次。 |
![]() | 7 Bob 2013-01-17 11:27:10 +08:00 你这个没有采集淘宝商城的吧 会写函数不错哇 写出来的代码我都看不懂 面壁去了 |
![]() | 9 laoyuan OP ![]() 数据收集不用什么配置,如果不保存数据直接 update 到线上的话,树莓派也搞得掂! |
![]() | 10 n00b1 2013-01-17 11:39:49 +08:00 lz非攻城狮吗?不知道你的爬虫咋学的呢?有分享下学习经验吗?感谢~ |
![]() | 12 manoon 2013-01-17 13:06:15 +08:00 via Android 谢谢lz给我们这些有拖延症的人带来了动力 |
![]() | 13 thedevil7 2013-01-17 13:18:10 +08:00 没人吐槽这个域名么... jia BIBI |
![]() | 15 iTea 2013-01-17 13:32:16 +08:00 楼主真乃神人也!~ |
![]() | 16 liuxurong 2013-01-17 13:35:05 +08:00 标题是.... 土炮练成记? 不过这种执行力强的人不敢小看,1年后或许就会成高手 |
![]() | 17 xiongbo 2013-01-17 13:38:37 +08:00 向楼主致敬 |
![]() | 18 laoyuan OP 绝对土炮,到现在没见过正式的 PHPer 编的 PHP 是啥样子-_-!! 我早期写的全是用空格来缩进的,一次用两个,现在用tab,不过我也不知道应该用哪种! |
![]() | 19 cougar 2013-01-17 16:08:00 +08:00 赞楼主。。。 |
![]() | 20 tedd 2013-01-17 16:16:23 +08:00 楼主有博客记录历程啥的吗?一定很精彩 |
![]() | 21 lusin 2013-01-17 17:38:21 +08:00 另外想请教一下同一商品在不同的网站通过什么去匹配呢? 比如http://www.jiabibi.com/product/1000700196/,同一个洗衣机,但在不同的商城可能货号不一样,标题也不一样,通过什么确定获取到的信息是同一商品呢? |
![]() | 22 laoyuan OP 没有博客,很久以前写过,感觉越写越装B! 商品的归并有一定的算法,最后人工审核,不可能完全靠程序完成匹配,否则尼玛成人工智能了。这个工作每天都在进行,因为人工审核的速度有限。 |
![]() | 23 cooiky 2013-01-17 19:58:49 +08:00 每天自动发文章?这个是怎么手工发的? 看了下价格历史数据,好像去去年十一开始的? |
![]() | 24 laoyuan OP 文章当然是人工发的。 感觉有黑客光顾。。。刚才我登FTP,结果提示我人多登不上,我ftp最多在线人数设的3人。。。 |
![]() | 25 lusin 2013-01-17 23:02:25 +08:00 @laoyuan 网上找到这方面的资料比较少,可以请教下算法的大概思路吗?(或者楼主是从什么途径学习的呢?) 还以这个http://www.jiabibi.com/product/1000700196/链接中产品为例,“Midea美的面包机EHS15AP-PW(电脑版/15分钟断电记忆/13小时精准预约/您身边的面点专家)"标题这么长,主要关键字就是:美的、EHS15AP-PW这两个,如何去匹配呢? |
![]() | 26 laoyuan OP ![]() 这个主要靠经验,说成算法相当有装B嫌疑。我并不赁于分享这些经验,因为只要你做,做进去,一定也可以解决。 首先识别品牌,这些电商中三分之二的商品本身就有品牌这项结构化数据,利用这些数据可以构建一个品牌库,剩下三分之一没有品牌的,标题从品牌库里过一遍,strpos(),看品牌是否存在于标题中,如果只匹配到一个品牌,那就是它了,两个以上人工选一下。 确定品牌后就轻松了,美的商品数在所有品牌中排前50,总共也就区区五六百款,把京东的作为标准,亚马逊易购之流通通在京东里过一遍。这时候可以匹配型号,连续的字母数字-/用 preg_match_all 提出来(EHS15AP-PW),具有独特性?好,它就是型号,和京东有型号的比对下,型号一致价钱又差不多的那就是同一款。提不出型号的,最起码我能提出来品种,几千个标题统计下词频,从高到低列出来人工筛选下,剔掉系列、不锈钢、电脑版等描述词,剩下的就是电磁炉、热水器、豆浆机。。。手上又有了品种库。确定品种后更轻松了,一个品种顶多几十款,想怎么玩怎么玩~ |
![]() | 27 gjk1992 2013-01-18 11:04:07 +08:00 via Android 看过我之前的帖子么,我也研究比价算法,求交流合作,大三学生 |
![]() | 28 sohoer 2013-01-18 11:25:25 +08:00 |
![]() | 30 sohoer 2013-01-18 15:23:53 +08:00 才刚刚解决抓取,慢慢来,不过我是JAVA平台,有很多第三方库,不需要什么都自己造应该会快很多 你48小时更新一次没竞争力啊,现在有很多比价的一般一天也会更新几次 |
![]() | 31 laoyuan OP 嗯嗯,加网线~~ |
![]() | 32 laoyuan OP 搞JAVA的,NLP么?洋枪对土炮,燃!战! |
![]() | 35 laoyuan OP LS,这是在中国。。。。 |
![]() | 38 cooiky 2013-01-20 13:27:57 +08:00 价格那个图片识别是用的什么库? |
![]() | 39 laoyuan OP 我相信没有任何一个做比价的网站是从图片识别价格的。 |
![]() | 40 lala 2013-01-21 04:28:27 +08:00 刚开始能做到这程度已经是非常的impressive了,这个idea是可以赚钱的,而且有相当的可能性。。。。 |
![]() | 43 laoyuan OP 当然是一手数据,直接从电商网站取啊 |
![]() | 45 laoyuan OP 实在不行就从头开始呗。。。对于动态列表性质的我一般把列表页html保存到本地,然后5天或10天更新一次,当然这东西不存也无所谓,就在数据库里建个表呗,抓过的把时间update一下。 |
![]() | 46 shiny 2013-01-21 14:46:43 +08:00 |
![]() | 47 laoyuan OP LS上硬货了,虽然我不是用这种方法,不过条条大路通罗马~ |
![]() | 48 laoyuan OP 再次出现ftp连接满的情况(限3连接),查了下日志,原来不是黑客,有机器对21端口暴破而已,同时3个线程验证密码,就给占满了,换个端口立刻清静~ |
![]() | 49 firsthym 2013-01-24 17:45:04 +08:00 |
![]() | 51 reverland 2013-02-16 18:34:59 +08:00 赞楼主,写什么类,楼主那是用php函数式编程 |
![]() | 52 bigdude 2013-05-17 21:40:51 +08:00 赞楼主的执行力,比价这个idea我也有,自己也敲敲打打研究了不少了,可是成品还没有,都不想为自己的懒惰开脱了。看看楼主,真是惭愧 |
![]() | 53 wheatcuican 2013-12-02 17:18:08 +08:00 楼主,缺书网也是你的么? |
![]() | 54 laoyuan OP @wheatcuican 多明显啊,看我ID就知道了,现在主要就是做缺书网,感觉做百货比价还需要酝酿酝酿,有计划的推进,现在缺书网是想到啥做啥 |
![]() | 55 wheatcuican 2013-12-06 13:07:10 +08:00 @laoyuan 缺书网蛮好的,挺实用。有一个小建议:可以定期推荐一本书。 |