投票对象:
A. so.csdn.net
B. goobe.cn
事情起因: 某同学(某公司举足轻重的那种吧)看过我搜索后说,你没在真正搜索引擎公司干过,你这业余干的搜索,我没看出来好在哪里。
谁的产品,谁都会护短,所以我也不做过多辩解,尽量中立。但我绝不接受光扣个帽子,却也没说出个道理来。可能高人认为我自己能悟出来吧。
事实上我也知道我的产品还有一堆些问题和不足,但我天生愚钝,实在没看出来产品比 csdn 搜索差在哪儿,所以求助万能的 v 圈帮助。
一是帮我下面跟帖投个票,就说你更喜欢哪个搜索,哪个更好用。 二是最好说明一下原因。但凡是我这边的产品不足,我都会去尽量优化提升。
谢谢大家。ps,大搜索引擎公司没去过,以前自己创业做过一个视频搜索,wosss,不知道有没有人用过。
![]() | 1 ofooo 2019-06-18 15:14:23 +08:00 ![]() 试了下你这个结果也不错啊。 是怎么做的?是调用其他搜索引擎结果吗?还是自己做爬虫, 那工程量也太大了吧? |
2 whileFalse 2019-06-18 15:21:17 +08:00 ![]() 搜索一下“七类线 家庭” CSDN 是真的垃圾。 |
![]() | 3 nandehutu 2019-06-18 15:24:18 +08:00 ![]() csdn 的搜索,之前是我同事在做啊,我准备把这个帖子发给他 |
![]() | 4 brust 2019-06-18 15:27:44 +08:00 ![]() csdn 黑名单域名 |
&nbs; 5 Jirajine 2019-06-18 15:29:35 +08:00 via Android ![]() 假装看不出来是广告 |
![]() | 6 showecho 2019-06-18 15:30:53 +08:00 ![]() 假装看不出来是广告 |
![]() | 7 brust 2019-06-18 15:31:29 +08:00 ![]() 我很好奇 LZ 是不是跟 csdn 有一腿 我搜索 "净水器" https://goobe.cn/search.aspx?k=%E5%87%80%E6%B0%B4%E5%99%A8 出来的全是 csdn 的 然后 就第一条跟净水器有关系 所以答案是 两个我都给差评 |
8 lxd152 2019-06-18 15:37:58 +08:00 ![]() 业余玩家路过。。非要选的话我选实时搜索 A |
9 WhoCanBeRich 2019-06-18 15:39:11 +08:00 ![]() 很厉害啊 能开源代码看看嘛 |
![]() | 10 AngryPanda 2019-06-18 15:39:53 +08:00 ![]() 搜索结果出现了 CSDN 的页面,的确很业余。 |
11 airflybusoren 2019-06-18 15:43:57 +08:00 ![]() 用户体验上,我站 A,因为有做及时搜索条例和搜索速度优化,当然这些都是积累很久的东西,可以不在意 |
![]() | 12 Constellation39 2019-06-18 16:00:14 +08:00 ![]() 假装看不出来是广告 |
13 superalsrk 2019-06-18 16:03:18 +08:00 ![]() 这个算是垂直搜索引擎么~如果爬虫 物料 NLP Rank 都自己做的话~~工作量很大哒 |
![]() | 14 stiekel 2019-06-18 16:05:19 +08:00 ![]() wosss 是不是搞网盘搜索的? |
![]() | 15 dooonabe 2019-06-18 16:05:48 +08:00 ![]() |
![]() | 16 shoumu 2019-06-18 16:12:12 +08:00 ![]() 试了一个 query:tensorflow 稀疏特征处理 结果不是很好 |
![]() | 17 encro 2019-06-18 16:13:30 +08:00 ![]() 当然业余,搜索第一位的 pagerank 就不对, 昨天刚看了一篇文章:永远不要拿你的业余爱好和职业选手比 |
18 bearqq 2019-06-18 16:14:18 +08:00 x8+w3565+470D 要来就来一身垃圾套装 |
![]() | 19 ddup 2019-06-18 16:14:28 +08:00 这个搜索不错啊,搜代码很好,收藏了。这个是我的搜索 http://guihaidata.com/ 你的也是 .NET 写的? |
20 bearqq 2019-06-18 16:14:43 +08:00 ![]() 回错帖子了(捂脸 |
![]() | 22 ddup 2019-06-18 16:15:03 +08:00 这个搜索不错啊,搜代码很好,收藏了。这个是我的搜索,搜硬盘文件的,快如 Everything 准如搜索引擎 guihaidata.com 你的也是 .NET 写的? |
![]() | 23 ddup 2019-06-18 16:15:56 +08:00 ![]() 回重了,抱歉!.NET 可以交流下,网站里有我 QQ。 |
![]() | 24 swulling 2019-06-18 16:16:49 +08:00 via iPhone ![]() 我觉得你在做广告但是我没有证据 |
![]() | 25 ddup 2019-06-18 16:20:15 +08:00 ![]() 比如搜代码,如果能这样,搜 pdf,然后给出所有操作 pdf 的类库、官网、评价、并抓显示其 github 活跃度,等等。 |
![]() | 26 zephyru 2019-06-18 16:21:40 +08:00 ![]() 这完全构不成对比啊,csdn 的搜索似乎只针对它站内,你这个搜索什么网站的都有 挺好奇实现的,自己写爬虫做的这个? |
27 chaffy 2019-06-18 16:21:43 +08:00 ![]() 是不是跟 csdb 有一腿 |
![]() | 28 annoy1309 2019-06-18 16:23:13 +08:00 via Android ![]() 政治敏感词不屏蔽迟早喝茶 |
![]() | 29 peterpei 2019-06-18 16:24:14 +08:00 via Android goobe 是“狗 b ”的意思吗? |
![]() | 31 artandlol 2019-06-18 16:38:56 +08:00 via Android ![]() 必应前段时间开源了一个搜索引擎的项目,向量 xx 检索的,据说很厉害 |
32 dongxiao 2019-06-18 16:39:56 +08:00 ![]() 搜“最好的语言”,耗时有点久啊 |
![]() | 33 SingeeKing PRO ![]() |
34 v21an 2019-06-18 16:50:13 +08:00 这尼玛 |
35 v21an 2019-06-18 16:51:52 +08:00 ![]() 这就是谷歌的搜索服务吧 , 然后修改前端就完了, 好像没啥代码量.也没技术含量 |
36 ylrshui 2019-06-18 16:56:26 +08:00 via iPhone ![]() 第二个是 CSDN 的站内搜索? |
![]() | 38 gujiaxi 2019-06-18 17:55:58 +08:00 via iPhone ![]() |
39 nyfok OP @brust 我最早先抓的 csdn,现在搜索默认取十万条,如果常规词很容易是 csdn。之前我优化了 page rank,等我再做完 site rank 就能把结果打散了。 |
40 nyfok OP 基于开源 lucene 做的,只是修改了文档评分的算法,你要可以给你 |
41 nyfok OP @superalsrk 自己做的,目前总索引到 900 万了 |
43 nyfok OP @AngryPanda 前期都抓的 csdn,后来才抓别的站 |
![]() | 46 Azmaveth 2019-06-18 18:07:28 +08:00 做一下敏感词屏蔽 然后尽量爬爬国外的论坛,国外的有些技术贴真不好翻,做垂直类的就要做大引擎做不到的 ,我站 B |
![]() | 47 Azmaveth 2019-06-18 18:08:36 +08:00 ![]() 对了 已经收藏并添加快捷了,即便是广告有用的东西也会保存一下 楼上那些说广告的真无趣~~~ |
![]() | 50 SteveZou 2019-06-18 19:29:43 +08:00 ![]() 我感觉你在做广告而且我有证据 |
![]() | 51 Apllex 2019-06-18 19:35:02 +08:00 via Android ![]() |
52 nyfok OP 刚才连续回复过猛,被 ban 了,这会刚恢复,我先拣要紧的说,回头再一一回复。 首先感谢大家的留言意见,不管是说好的还是批评的,我都非常感谢,因为发帖问大家的目的,也是因为我担心自己太自我、太膨胀,所以多听听朋友的意见总能让我更清醒的认识自己几斤几两,帮助自己提高。 尤其感谢提心我注意安全的朋友们,谢谢你们!我昨晚已经求助万能的 v 圈了,今天有几位很好的热心人给我违禁词清单了,我今晚就加上。我一定不给国家添乱。 再解释一下做 goobe 的原因。我是做产品的,或者说产品 80%,技术 20%。搞开发更像是我的兴趣爱好,一直坚持。和很多 it 男一样,烧数码,烧显示器,烧台灯,烧 wifi 我也是一个个玩过来(感谢另一个好社区 chiphell ),唯独编程始终不离不弃,应该算是强烈兴趣吧。 最近我在研究国内技术社区,窃以为程序员最刚需的就是搜索,不管是搜教程,搜 api,还是 debug 信息还是出错信息。如果一个技术社区连个搜索都做不好,怎么服务好他的用户?搜索最核心的就是 ranking 排序,现在很多引擎普遍是基于搜索关键词词频排序,而不太在意关键词之间的距离,这就会导致搜索的准确性。譬如“ import system.wen.httpcontext ”我们搜索时肯定期望文档中这几个词都要出现,而且越靠近约好。所以,考虑到技术搜索的特殊性,我觉得和通用新闻、资讯搜索不一样,所以我试水做了一个。另外,考虑到国内不能访问 google,我觉得这个搜索能够多索引一些国外网站,对大家也会更有帮助,所以另一部分重心放在了国外技术网站抓取上。 |
53 nyfok OP 为什么只做技术搜索?我从来没觉得 baidu 差,如果你真正做公司要养活团队,要回报股东,想着盈利的时候,未必会比 baidu 好到哪儿去。说技术超越 baidu 我也不太信,国内干过搜索的公司多的去了,腾讯也干过吧,现在也还有别的大公司在干搜索吧,但为什么用户搜索主要还用 baidu,那还是有原因的,几个人的小团队能干成的机会较小,能干成的一定是天才,我很崇拜。鉴于此,单纯的技术领域搜索还好,现在的硬件资源和技术资源我还勉强花的起,而且也可以有一些小创新可以试试看,所以纯粹是玩玩看。 搜索结果是二道贩子吗?对用人家的搜索结果,外穿一身皮的事情,我个人不太有兴趣,也违背了我玩的初衷。要做,就得做一个能够区别于 baidu,google 而又有独立存在价值的产品。所以,我摈弃了常规网页搜索正文提取的方法,而是老老实实一个个网站写模板,为的就是内容中不夹杂别的内容,保证搜索结果准确性。另外,我做结构化搜索,还能够提供论坛的回帖数显示,github 的 star 数显示,为的都是增强用户体验。楼上的有位朋友说得对,得垂直的够深,有特色,这和我想到一块了。目前是因为但关键字的 rank 我做的不好,还有当我的库里没有你的搜索结果时,前面偶尔几条结果我会参考 google,过一阵子我弄完后就回去掉。 当然搜索我觉得只是一步,未来我还期望提供更多的在线小工具,譬如 ip 查询,进制转换,js 加密解码,编程语言转化,webide 等等。尤其是知识共享平台。我觉得现在不比以前信息匮乏,现在信息足够多了,就要侧重在筛选,评级和共享,重用上,未来我可能会推出类似产品。在微软呆过的人可能知道 kb 和 so,我觉得这套知识积累成电沉淀体系就很好。 最后,再次真心感谢大家,祝大家好! |
54 nyfok OP 说我做广告的人我也不反驳,我社区发了几个贴,都是意见征集为主,外带求帮助。另外,产品做了一半,总希望多听听大家意见,有价值就留着,没价值就关掉。这不就是论坛,圈子聊天沟通的意义吗,我为人人,人人为我。如果这属于广告行为,我虚心接受,并恳请 V2EX 管理员删除我的所有发帖,谢谢! |
55 zackwu 2019-06-18 20:44:23 +08:00 ![]() 看到楼主回复说是用 Lucene 做的,而且只自定义了文档评分的算法,坦白地说,这种程度的搜索引擎确实不够“专业”。 为什么这么评价呢,因为这种搜索引擎(从零开始,爬数据、处理数据、搭建搜索引擎、写前后端)的工作量,大概就只是一门课程的大作业级别,距离真正可用的搜索引擎还有很远。 (非嘲讽楼主,我上学期某门课的期末大作业就做了个搜索引擎,而且比这个功能掠夺,但也只能算 toy 级别的东西 |
58 zackwu 2019-06-18 20:49:35 +08:00 顺便试了试搜索,目测分词部分做得比较粗糙:比如“ jave 爬虫”有结果,但是“ jave 爬虫”无结果。 而且搜索结果的排序(或者说文档评分的算法)应该有点问题,比如搜索“周杰伦”,前排出来一大堆十多年前的结果。 |
59 zackwu 2019-06-18 20:54:20 +08:00 @keith1126 #58 中英文之间被自动加了空格...我的原意是 jave 和爬虫之间没有空格时搜索会有问题。 而且,还有一点小小的建议:例如“的”之类的词,可以作为停用词直接去除(网上应该有现成的中英文停用词表),这样可以提高搜索的准确率。 不过话说回来,这个搜索引擎的 UI 很简洁,深得我心。 |
60 nyfok OP @keith1126 收到,我回头好好查查。停用词表我有,但现在为什么这个机制我忘了,回头好好看看。刚到家先吃饭,今晚当务之急先把禁查词加上,要不然真是有问题。再次感谢老兄! |
62 elents 2019-06-18 21:16:57 +08:00 ![]() 狗 bi ? |
![]() | 63 SingeeKing PRO ![]() 提个建议,(官方)开发文档尽量在前面吧,比如 https://goobe.cn/search.aspx?k=C%2b%2b+vector 其实第一的应当是 http://www.cplusplus.com/reference/vector/vector/ 或 https://en.cppreference.com/w/cpp/container/vector 或 https://zh.cppreference.com/w/cpp/container/vector 类似 https://goobe.cn/search.aspx?k=python+set 应当是 https://docs.python.org/3.7/library/stdtypes.html#set 或 https://docs.python.org/zh-cn/3.7/library/stdtypes.html#set 现在的清一色 CSDN …… |
65 nyfok OP |
66 nyfok OP @SingeeKing 造成现在的原因是 siterank 没做,而早期抓的都是 csdn,所以当有些简单关键字搜索时,满足搜索 max doc 100000 条的时候,结果集基本是 csdn,如果放大 max doc,排序的压力又很大。这点还没想好办法。 |
![]() | 67 liuzhiyong 2019-06-18 21:46:11 +08:00 ![]() 我觉得能做搜索引擎的都是牛人,至少比我牛。 |
![]() | 68 kofj 2019-06-18 21:46:30 +08:00 ![]() 好奇楼主怎么搞到非洲的 IP 的 |
![]() | 69 poisedflw 2019-06-18 21:51:00 +08:00 ![]() goobe,连自己都搜不出来。 |
70 runtu2019 2019-06-18 22:06:04 +08:00 ![]() 联合搜索有点不准,挑不到重点 如果输入两个词,如果后面的词稍微有些不常见结果就差强人意了 没有好好的进行再次分词,比如搜索 xxx 内网互联,那么内网互联可以拆分 内网、互联 两个词 |
![]() | 71 xiangyuecn 2019-06-18 22:07:16 +08:00 ![]() |
72 her999 2019-06-18 22:21:08 +08:00 ![]() 搜索结果不错,不过 bug 和安全漏洞太多了。 |
73 honourx 2019-06-18 22:29:34 +08:00 ![]() 不错不错 |
74 MonoLogueChi 2019-06-18 22:40:00 +08:00 via Android ![]() 搜索能力稍微有点弱啊,我搜 C#继承 重写 ,没有一个结果是我想要的 |
![]() | 75 claymore94 2019-06-18 22:42:37 +08:00 ![]() 搜了下 "栈和队列的使用情景" 什么也没有搜出来 |
76 nyfok OP 刚刚更新了,把输入检查功能加上了。非常感谢楼上各位朋友的谆谆教导,的确这个事情是第一优先级的。另外,还要感谢在求助帖里帮助我的 dazkarieh 和 TimePPT 两位大神。之前,我在自己的线下要了一圈也没有要到 x 词清单,是他们在第一时间帮助了我。他们在我心里是真正的大牛,很厉害,谢谢他们! |
77 nyfok OP @airflybusoren 请问什么是“及时搜索条例”?搜索速度优化需要一定的硬件,我现在就一台云主机,2 个虚拟 cpu+4g 内存,性能的确太弱,有待加强。 |
80 nyfok OP |
81 nyfok OP @zephyru 是啊,自己写的爬虫+网页模板来做的抓取。大致做法是先写一个中心任务调度服务器,然后有一堆蜘蛛客户端联系服务器获取抓取任务,客户端完成抓取任务后提交给服务器,再获得下一个任务。基本上就是这个模型,做的复杂点就包括模板分析页面的自动下发客户端,模板页面的可视化生成等工作。cookie 模拟在抓取中也需要看看。以上是自己的一点心得。 |
![]() | 82 xfcy 2019-06-19 01:06:04 +08:00 via Android ![]() 搜了下关键词“机器学习”,一条都没有 QAQQQQ |
![]() | 83 secondwtq 2019-06-19 01:32:10 +08:00 via iPad ![]() 楼主没有必要这么较真,我要是碰到这种事会这么想:除了 Google 之外,其他的搜索都是业余,你的也是 这很阿 Q,但是就我作为一个用户的使用体验而言,确实是十分无奈但又十分真实的现状 |
84 liyuanzao 2019-06-19 01:36:43 +08:00 ![]() 其实楼主的目标就是想要重新来个搜索内容排序吧。。。。。 |
![]() | 85 qq316107934 2019-06-19 01:48:16 +08:00 ![]() @nyfok bad case: https://goobe.cn/search.aspx?k=QAQQQ 直接服务器错误了 |
87 nyfok OP ![]() 神奇的关键字,一搜索就崩溃,还不知道什么原因,今晚太晚了,先临时屏蔽了。后面有时间再查,谢谢。 |
![]() | 89 qq316107934 2019-06-19 02:28:46 +08:00 @nyfok #87 如果查出问题原因了可否同步下,多谢了,我也很好奇 |
90 nyfok OP 好的,查出了一定分享。 |
92 l00t 2019-06-19 08:35:42 +08:00 ![]() 功能略弱啊,好像还是单词匹配的程度。但是现在的搜索引擎都走向语义化了,各种同义词近义词类似说法输入进去都能搜到想要的结果…… 这个搜索引擎距离这一步还略远。 |
94 ducklyl 2019-06-19 09:09:42 +08:00 ![]() 数据用什么爬的? 另外搜索是用 es 还是 solr ? |
![]() | 95 a67793581 2019-06-19 09:28:37 +08:00 ![]() 你说的对 |
![]() | 96 ethusdt 2019-06-19 10:07:02 +08:00 ![]() |
![]() | 97 juju123 2019-06-19 10:28:30 +08:00 ![]() 被说业余没毛病,核心的东西全文检索框架都给你做好了,你只是调用框架搭了套应用。分词效果、排序、近义词查询等跟专业的搜索引擎还有不少距离。 |
![]() | 98 myxingkong 2019-06-19 10:39:10 +08:00 ![]() |