搜索引擎超过 10 页以后的数据,有必要索引吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
okwork
V2EX    问与答

搜索引擎超过 10 页以后的数据,有必要索引吗?

  •  
  •   okwork 2019-07-21 08:32:40 +08:00 via Android 4563 次点击
    这是一个创建于 2286 天前的主题,其中的信息可能已经有所发展或是发生改变。
    1 很少有用户翻到 10 页以后
    2 数据准确性几乎没有可参考价值
    3 广告位也卖不出去

    只保留 10 页以内的数据,远比保存几百、几千页数据存储和索引的效率都高很多。10 页以后的数据价值可能只有 10 页内的 1%都不到吧,有必要索引吗?
    36 条回复    2019-07-22 08:53:32 +08:00
    opengps
        1
    opengps  
       2019-07-21 08:34:47 +08:00 via Android   1
    必要性还是有的,很多行业资料少的可怜,需要翻遍所有结果,更换各种关键字。
    搜索引擎的收录量也是用户选择的参考
    hoyixi
        2
    hoyixi  
       2019-07-21 08:35:51 +08:00
    全国 10 亿人,只准 1000w 人上学,标准那啥定, 你愿意吗?
    nethard
        3
    nethard  
       2019-07-21 08:37:18 +08:00 via iPhone
    用户搜索的时候又不是只输入一个关键字,多个关键字用空格分开的时候,即使单个关键字索引很靠后的站点也能排在前面。
    wangxiaoaer
        4
    wangxiaoaer  
       2019-07-21 08:55:22 +08:00 via Android   15
    大哥,你是来搞笑的吗?

    搜索引擎建索引的时候怎么知道某条记录的页数?

    所谓的页数只有在给定关键字的时候才有意义啊
    delectate
        5
    delectate  
       2019-07-21 09:02:23 +08:00
    对于百度来说,第一页也没有任何参考价值哦。这边建议您用 bing 或者 google 呢。
    okwork
        6
    okwork  
    OP
       2019-07-21 09:04:49 +08:00 via Android
    @wangxiaoaer 建立索引是反向的,呈现结果当然能按权重控制输出页数。
    zhidian
        7
    zhidian  
       2019-07-21 09:11:35 +08:00 via Android
    我啥都不懂,但似乎应该是索引了它才被放到第十页的
    binux
        8
    binux  
       2019-07-21 09:13:23 +08:00   1
    @okwork 权重是和关键词相关的,不知道关键词,你怎么能知道权重的?
    lylsh1993
        9
    lylsh1993  
       2019-07-21 09:13:52 +08:00 via iPhone
    对特定网站搜索可能会翻很多页
    okwork
        10
    okwork  
    OP
       2019-07-21 09:34:32 +08:00 via Android
    @binux Pagerank,超链分析,域名 URL 权重,内容查重,文本分析等,这些都可以判断权重。
    binux
        11
    binux  
       2019-07-21 09:40:17 +08:00 via Android   1
    @okwork #10 但是展示的时候权重最大的是相关性啊!!!
    okwork
        12
    okwork  
    OP
       2019-07-21 09:53:01 +08:00 via Android
    @binux 李鬼可以把 SEO 相关性做到最高。
    binux
        13
    binux  
       2019-07-21 09:55:56 +08:00
    @okwork 那和你‘搜索引擎超过 10 页以后的数据’有什么关系吗?
    wangxiaoaer
        14
    wangxiaoaer  
       2019-07-21 10:01:39 +08:00   3
    @okwork #6 建立索引是反向的,呈现结果当然能按权重控制输出页数。


    ------------------

    现在的搜索结果本身就是按照权重排序输出的,但这个权重是动态的,你所谓的“ Pagerank,超链分析,域名 URL 权重,内容查重,文本分析”这些是相对静态的。

    10 页以后可以不展示,但这是搜索阶段的控制,索引建立跟这个是两个独立的阶段。

    举个例子,搜索关键词 A 的时候某个 11 页的内容,你认为不应该建立索引,但是搜索关键词 B 的时候,这条内容本应该出现在 10 页以内,结果因为没索引所以搜索不到,你觉得合理吗?

    -----------------

    另外看了你的回复,建议你提高些逻辑思维能力。
    okwork
        15
    okwork  
    OP
       2019-07-21 10:19:50 +08:00 via Android
    @wangxiaoaer 搜索引擎是个复杂的工程,意见相左没关系,就事论事的交流。


    教别人做人之前,请先秀一下你的智商。
    wangxiaoaer
        16
    wangxiaoaer  
       2019-07-21 10:31:43 +08:00 via Android
    @okwork 我没教你做人,我只是让你自己把逻辑练一练。

    你自己看看 10 11 12 楼的回复,心疼 binux
    iyaozhen
        17
    iyaozhen  
       2019-07-21 10:34:56 +08:00 via Android
    @wangxiaoaer 心疼

    我就问楼主,一个网页 1,在 a 关键词拍第一页,在 b 关键词拍第十一页,你怎么判断?遍历所有关键词?
    summerwar
        18
    summerwar  
       2019-07-21 10:36:51 +08:00
    你不能因为吃到第十个馒头饱了,就说前面的九个都白吃了。你的这个问题跟这个道理差不多
    vindurriel
        19
    vindurriel  
       2019-07-21 11:04:31 +08:00 via iPhone   1
    您的建议在一种情况下是可行的 那就是关键词可穷举 不过这样的系统一般不叫搜索引擎 叫排行榜 data cube 等等
    LongLights
        20
    LongLights  
       2019-07-21 11:11:43 +08:00 via Android   1
    数据先被索引才被排序的。。。你从排序结果推索引与否,那你做的东西就不是现在说的搜索引擎了,是目录搜索
    LongLights
        21
    LongLights  
       2019-07-21 11:12:52 +08:00 via Android
    @wangxiaoaer 顺便心疼老哥
    trcnkq
        22
    trcnkq  
       2019-07-21 11:29:03 +08:00   1
    喜欢看这种抬杠抬一半自己想明白了却找不到台阶下的
    misaka19000
        23
    misaka19000  
       2019-07-21 11:51:28 +08:00 via Android
    楼上干嘛呢都,索引的时候只有权重信息,搜索的时候才有页数的概念
    rexyan
        24
    rexyan  
       2019-07-21 14:03:27 +08:00
    一般不用 from,size 进行分页吧,只是默认结果是 10 页而已。多用 score 查询。还有就是多用 filter 之类的带缓存的过滤器。
    jfdnet
        25
    jfdnet  
       2019-07-21 14:06:51 +08:00
    搜索自然会索引所有的资料。分页只是页面的一种组织形式,你也可以滚动啊。
    mumbler
        26
    mumbler  
       2019-07-21 14:14:10 +08:00
    索引肯定要全部,否则怎么知道哪些结果该排前面,但只显示前多少页,减少反向索引缓存数据量
    goodan
        27
    goodan  
       2019-07-21 14:19:36 +08:00 via Android
    @trcnkq 描述精准哈哈哈
    loading
        28
    loading  
       2019-07-21 15:05:30 +08:00 via Android
    请各位点“忽略主题”
    akira
        29
    akira  
       2019-07-21 18:55:12 +08:00
    如果互联网是禁止不变的,永远没有新增内容,没有变化
    huyi23
        30
    huyi23  
       2019-07-21 20:11:52 +08:00
    lz 别跟一群键盘侠 bb
    阿里云的 open search 就不支持 5000 以外的数据
    xxm459259
        31
    xxm459259  
       2019-07-21 21:19:00 +08:00
    心疼两位,lz 真的应该好好锻炼一下逻辑。。。
    Milomide
        32
    Milomide  
       2019-07-21 21:27:30 +08:00
    可以有但没必要。。
    dezhou
        33
    dezhou  
       2019-07-21 23:06:05 +08:00 via Android
    前提是是否有人看第十一页,有就会缓存
    FrankFang128
        34
    FrankFang128  
       2019-07-21 23:21:40 +08:00
    显然,对于 Google 来说,显示后面页数并没有什么成本,因为你只有遍历所有页面之后,才能知道前十页的结果是什么。而且前十页的结果也是动态变化的。所以 Google 总归是要存更多结果的。
    encro
        35
    encro  
       2019-07-22 08:29:39 +08:00
    搜索引擎大概分为几个部分:
    蜘蛛:爬取内容
    仓库:存储原始数据(磁盘)
    索引:将数据以特定的结构保存进行存储,以便于检索(内存)
    检索:根据各项权重对数据进行取出和排序


    你问的是索引,就是将文章按照关键词保存在内存,当然是除了一些辅助词之外,其他的词都有建立索引的。
    如果你问检索,也基本是一样的,只有检索完所有索引和附加字段,才知道哪些是关联性最高的,可以排在前面。
    petelin
        36
    petelin  
       2019-07-22 08:53:32 +08:00 via iPhone
    索引自然需要 展示 10 页是代码上选择问题 你还可以每天索引一遍全部的 然后想个办法每个关键词都取前 10 页的数量 剩下的 document 都删掉

    这个成本也不比全量保存好
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5188 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 08:51 PVG 16:51 LAX 01:51 JFK 04:51
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86