
1 hoogle 2014-09-03 18:45:54 +08:00 大赞。。 有考虑提供接口么? 想在客户端提供搜索功能。 这个刚好~!!! |
3 kisshere 2014-09-03 19:41:45 +08:00 log2(回复数)* 搜索引擎的匹配得分 * log2(发帖时间 - 建站时间)能解释一下为什么要这样吗? |
4 dbbbit OP @kisshere 首先必须说明,这是YY出来的。 如果你有兴趣可以看看阮一峰翻译的几篇排序算法。 包括 hacknews reddit 等。 http://www.ruanyifeng.com/blog/2012/02/ranking_algorithm_hacker_news.html 楼主在认真看了这几个算法后,发现还是没太多实际的想法 于是手动测试出这个综合评分的算法,结果怎么样也说不好。 不过 至少可以保证 排在前面的结果与那三个因素成正比 log2 是因为想要减低某种因素的影响 大概就是这样。 |
5 Mihuwa 2014-09-03 20:27:07 +08:00 酷。。。 |
6 kchum 2014-09-03 20:36:47 +08:00 via iPhone 被玩坏了?手机党打不来! |
7 freeze 2014-09-03 20:46:24 +08:00 楼主能把搜索栏居中吗?看着难受 |
8 qiayue PRO 赞! |
9 XerWandeRer 2014-09-03 20:52:05 +08:00 关键字: http proxy 结果评价: Right on target. Thanks! |
10 yetone 2014-09-03 20:54:41 +08:00 大赞! |
11 ilovehoo 2014-09-03 20:56:52 +08:00 不错哦~~ |
13 jdqingm 2014-09-03 21:05:39 +08:00 哎呦不错哦 |
14 Akagi201 2014-09-03 21:18:21 +08:00 lw-clogger 我前几天发的帖子, 没有搜到, google是有的 |
16 jas0ndyq 2014-09-03 22:20:31 +08:00 好喜欢忍者图标~~~有木有版权~~~ |
19 kokdemo 2014-09-03 23:25:00 +08:00 log2(回复) 这一项的权重太大了,会导致更容易搜出来的是那些经典长贴…… |
20 zhiyongyici 2014-09-04 01:25:38 +08:00 via iPhone google 无法使用的前提下,这简直就是神器! |
21 momou 2014-09-04 01:27:45 +08:00 Failed to load resource: net::ERR_CONNECTION_RESET http://cdn.bootcss.com/jquery/1.11.1/jquery.min.js Failed to load resource: net::ERR_CONNECTION_RESET http://cdn.bootcss.com/bootstrap/3.2.0/css/bootstrap-theme.min.css |
22 Livid MOD PRO 做得非常好。 我比较好奇,目前这个数据量,是跑在一台什么配置的机器上呢? |
24 dbbbit OP @kokdemo 虽然也有同感,但是能否给几个关键词? 方便我作为判断和调整的依据 不能否认做排序的时候我并不介意经典大长贴出现在前面 但是有时候时间太过久远,比较难取舍,这是个难题诶 也欢迎提供更好的排序方法。 |
25 vinsa 2014-09-04 08:05:08 +08:00 相当赞 |
28 talentsnail 2014-09-04 09:03:30 +08:00 感谢已发送:) |
29 dudong0726 2014-09-04 09:18:23 +08:00 dota2 谷歌抽风之后,v2的搜索一直是个痛 |
30 windedge 2014-09-04 09:28:35 +08:00 v2ex的api限制一个小时只能访问120次, 你爬取数据用了多长时间? |
31 kokdemo 2014-09-04 10:48:59 +08:00 @dbbbit 你现在用的公式是: log2(回复数)* 搜索引擎的匹配得分 * log2(发帖时间 - 建站时间) 分为三个部分,回帖数,匹配得分,存在时间三个部分。 但是考虑到v2上会有一些吵架贴的存在,所以第一部分其实很不稳定。 相对来说,你可以取帖子的收藏数,感谢数为一个依据。 其次是发帖人的资质,比如注册时间,发帖数,回帖数。 当然我不知道你能不能抓到这些数据,仅仅是给一些建议。 |
32 dbbbit OP @kokdemo 非常好的建议。 现在的方法是基于手上的数据,里面确实没有你的建议里提到的数据类型。 主要我比较懒,我会试试爬取更多的数据。 关于发帖人的资质 曾想过用 pagerank 对用户做 rank。 一个 @ 动作就是一次投票。 得到发帖人的 rank 用来作为排序因素之一,但计算能力不足 作罢。 |
34 yuankui 2014-09-04 12:55:37 +08:00 问下楼主为什么要用elasticSearch作为搜索引擎 而不是solr/lucene之类的呢? |
35 ven 2014-09-04 14:03:15 +08:00 威武! |
36 xiaowangge 2014-09-04 14:18:47 +08:00 楼主能把搜索栏居中吗?看着难受 = =. :-) |
37 jaylong 2014-09-04 14:33:48 +08:00 早就不爽自带的google自定义搜索了。楼主加油! |
38 dbbbit OP |
39 dbbbit OP @yuankui 楼主通常选择东西都是凭感觉 es 和 solr 都是基于lucene,好坏楼主也说不上来 es 是在 logstash + kibana + es 的场景中了解到的 感觉对 restful 接口很容易使用,对用户较友好 还有分布式搜索 听起来很炫(虽然还用不上) 大概就是这样 |
40 hzlzh PRO 做得很好,pagerank?这个可以有。 |
41 skyline75489 2014-09-04 17:18:05 +08:00 看起来结果还挺好的,感谢楼主 |
42 withrock 2014-09-05 01:49:47 +08:00 不错不错,眼前一亮的赶脚。 |
43 poke707 2014-09-05 14:04:57 +08:00 |
44 dbbbit OP |
45 smalldirector 2014-09-05 16:48:44 +08:00 @dbbbit 非常不错,响应速度也可以,想学习学习,希望能够开源+1 |
46 dbbbit OP |
47 hoogle 2014-09-07 14:00:35 +08:00 感谢。。 太好了。。 我会尽快加上搜索功能~~ |
48 zckevin 2014-09-07 23:09:35 +08:00 相当赞!期待开源~ :-) |