搜索引擎技术研究 way to explore 2024-10-06T07:34:00Z Copyright © 2010-2018, V2EX 不知道有没有人精通 SEO,我想咨询下我网站的百度搜索问题 tag:www.v2ex.com,2024-10-05:/t/1077809 2024-10-05T14:03:59Z 2024-10-06T07:34:00Z iisboy member/iisboy 可以知识付费,有偿请教。欢迎留下联系

]]>
目前还有支持网页快照的搜索引擎没? tag:www.v2ex.com,2024-05-30:/t/1045408 2024-05-30T07:47:43Z 2024-05-30T08:47:43Z nilai member/nilai 如何起昵称,可以利用到搜索引擎的分词规则,进而避免在搜索引擎中被搜索到? tag:www.v2ex.com,2024-04-30:/t/1036948 2024-04-30T01:40:24Z 2024-04-30T08:29:44Z cooabyli member/cooabyli 最近了解了下人肉搜索相关的东西,发现通过搜索引擎搜索一个人的昵称,可以把它的各种账号都给找出来。

我记得搜索引擎是有所谓的分词规则的,能不能在取昵称的时候利用到分词规则,如取名为“我和动物”,这样搜索引擎就会把这个昵称分为“我”、“和”、“动物”,并主动把“和”这个单词丢掉。

请问这样是否可行?还有没有其他办法可以防止搜索引擎收录自己的各平台信息?

]]>
如何让一些对搜索引擎不友好的内容平台变得友好? tag:www.v2ex.com,2024-01-15:/t/1008795 2024-01-15T07:58:10Z 2024-01-15T12:19:35Z GodOfParentheses member/GodOfParentheses 你们使用的常用搜索关键词或技巧是什么? tag:www.v2ex.com,2023-10-14:/t/982059 2023-10-14T19:53:49Z 2023-10-14T11:50:49Z wanderingaround member/wanderingaround 站类搜索。 site: domain_name keyword

site: v2ex.com mysql

关键词排除 keyword -keyword

and 且

MySQL db design and index -csdn

or 或

MySQL db design or index -csdn

文件类型

数据库设计 filetype: pdf

数据库设计 ext:pdf

日期

leetcode site: github.com after: 2021

before: 2021

2021..2023

url 搜索

algorithm and data structure inurl:blog

inurl: gitbook

text 搜索

intext: mysql performance

我想请教的是你们要学一个东西或者找到你想要的且质量高的文章或者博客是用的什么关键字

你们是用的什么关键字或者技巧找到高质量的文章或者有趣的东西

谢谢大家。

推荐我觉得高质量的文章

https://tailscale.com/blog/how-nat-traversal-works

]]> 分享一个搜索引擎 tag:www.v2ex.com,2023-08-22:/t/967500 2023-08-22T16:12:11Z 2023-08-22T16:12:11Z dzdh member/dzdh manticoresearch

源自 sphinx 支持 Realtime 索引、indexer from mysql 。兼容 es 的 json 搜索,兼容 mysql 协议和基本 sql 语法子查询等。

性能目前在用很好。中文友好。资源占用很小。中小项目觉得挺适合的。

]]>
学习向量搜求教 tag:www.v2ex.com,2023-05-14:/t/939899 2023-05-14T08:45:07Z 2023-05-14T08:44:07Z v2li32 member/v2li32 看了向量搜索, 看到 es 有向量搜索, 搜着搜着 又认识了 Faiss ,Milvus , 又认识了 PaddlePaddle ,embedding ,数据工厂,召回,排序。。。。。

如果是自己玩,应该是 Milvus 好一些, 但是他们数据处理流程是怎么样的呢?

假设有 1000 篇文章在 mysql 中,存在显示不显示状态。

如果导入 es 中,就可以实现分词搜索,但是这时候搜索比较笨。

看 Milvus 可以实现 类似拆字意图搜素, 我是用 Milvus 然后拆词,然后呢。。

用了 Milvus 是不是就不用用 es 了,还是和 es 搭配使用,具体方面呢。

我只会 es 分词搜索,es 日志使用, 对搜索方面又些兴趣, 但是越了解越乱。请大佬指点.

]]>
Brave Search 是当下我认为最好的搜索引擎 tag:www.v2ex.com,2023-03-14:/t/923810 2023-03-14T02:34:45Z 2023-03-14T02:31:45Z novolunt member/novolunt https://search.brave.com/

]]>
同样的搜索内容,为啥谷歌返回的结果差别那么大? tag:www.v2ex.com,2023-03-04:/t/920999 2023-03-04T01:20:38Z 2023-03-04T03:08:24Z OldCarMan member/OldCarMan rt ,前两天提了一个问题关于 google 中文搜索结果的问题,结果回复里,有位哥们(#13 楼)跟我用一样的关键词,我们搜出来的结果差异很大(详细大家可以看一下,我在回复里都有截图),然后我做了以下排查:

结果跟我开始搜索到的结果几乎都一样,这里有几个问题:

PS:哈哈,如果问得不好或是我无知,大家尽管吐槽,谢谢大家回复!
]]>
关于 google 中文搜索结果的问题 tag:www.v2ex.com,2023-02-28:/t/919944 2023-02-28T12:57:50Z 2023-03-08T15:25:48Z OldCarMan member/OldCarMan rt ,不知道大家平时用谷歌中文搜索时,会不会有跟我一样的困扰,比如这种答非所问的搜索结果(我要的是 docker 版本升级的结果,然而结果来全部是有关 gitlab 版本升级的,首页前几条):

docker 版本 升级 备份

]]>
想了解“概念”这个汉语词汇的词源,搜索引擎的搜索关键词应该用什么? tag:www.v2ex.com,2022-06-17:/t/860411 2022-06-17T15:46:55Z 2022-06-17T20:42:43Z 123go member/123go 搜到的往往是“xxx 的概念”相关网页,

]]>
求助各位 SEO 搜索的问题:百度站内搜索,搜一些没有内容的关键字会搜出广告,请问是被黑了吗,怎么防止呢? tag:www.v2ex.com,2022-03-30:/t/843865 2022-03-30T06:50:43Z 2022-03-30T07:07:11Z wqy564789 member/wqy564789 正常情况,比如搜索 site:chuangye.sjtu.edu.cn 学,可以展示正确内容: 1648622765(1).jpg

但是如果搜一些不存在但是又敏感的关键字,就会出现广告内容,比如搜索 site:chuangye.sjtu.edu.cn 污, 出现这种内容: 1648622999.jpg

求解是什么原因呢,如何防止呢?感谢!

]]>
Google Search Is Dying tag:www.v2ex.com,2022-02-17:/t/834393 2022-02-17T00:27:56Z 2022-02-17T05:11:50Z dcoder member/dcoder https://news.ycombinator.com/item?id=30347719
https://dkb.io/post/google-search-is-dying

Google search 里 SEO 或者 Ads 太多了
大家干脆 search Reddit, 或者 Google xxx Reddit

大家之前讨论的 SEO 影响 搜索结果... 其实国外也一样啊
看来 Reddit 成最大赢家, Baidu 贴吧 确实是好牌打烂了

]]>
谷歌精确中文字符串搜索无效 tag:www.v2ex.com,2021-06-03:/t/781134 2021-06-03T06:45:02Z 2021-06-03T06:58:54Z democracier member/democracier 最近用谷歌搜索中文发现半角双引号搜索完全失效了,哪怕是在进阶搜索里面也是在上面那一行。 请问大家有遇到这种情况吗

]]>
百度/bing 搜索结果过滤插件有推荐的吗? tag:www.v2ex.com,2021-02-08:/t/752379 2021-02-08T07:48:33Z 2021-02-08T11:22:03Z tyhuohuo8 member/tyhuohuo8 谷歌的爬虫有点厉害啊 tag:www.v2ex.com,2021-02-06:/t/751781 2021-02-06T04:00:34Z 2021-02-06T17:58:50Z tubowen member/tubowen 昨晚看到一个哥们在火车上听别人讨论几个亿的项目 今天想再看一下, 但是只记得标题里面有火车 回家的关键词 就用百度搜索了一下,结果没搜到 https://imgchr.com/i/yJxlk9

用谷歌搜索了一下却搜到了 https://imgchr.com/i/yJxR0g

谷歌爬虫的收录速度这么快的嘛,一天前的帖子就收录了 https://imgchr.com/i/yJzCjK

]]>
百度搜索已由提高自家站点权重的引流方式改变为屏蔽其他网站 tag:www.v2ex.com,2021-01-18:/t/746128 2021-01-18T18:52:56Z 2021-01-19T01:52:54Z zhangduo1981 member/zhangduo1981
不排除算法错误导致

例:

https://www.baidu.com/s?wd=%E6%96%AD%E5%8D%A1%E8%A1%8C%E5%8A%A8

所有搜索内容均为百家号,屏蔽了其他网站

https://www.baidu.com/s?wd=%E6%96%AD%E5%8D%A1%E8%A1%8C%E5%8A%A8+-baijiahao

-baijiahao 后内容正常 ]]>
分享一个集中式阅读英文技术文档的网站 tag:www.v2ex.com,2020-07-14:/t/689934 2020-07-14T07:09:08Z 2020-07-14T03:08:08Z syl371 member/syl371 网站地址:https://doc.liusha.io 内容都是来自互联网,做了一些整理工作

]]>
关于大量文本搜索的功能要怎么设计 tag:www.v2ex.com,2020-06-10:/t/680510 2020-06-10T17:57:17Z 2020-06-11T03:03:04Z Philippa member/Philippa 背景描述:目前有 10 万份到 100 万份单独英语文本,需求是首先抽取每个文本的每个单词出来,二是搜索时能够找出所有包含该关键字的文本出来,并能够对应到行。

当前想法:的方案是 elasticsearch,分词的话找个 python 库处理一下,有点像个迷你的搜索引擎,但不确定是否需要那么重量级的工具。

请教:有什么简单又直接又省运维成本的方案?非工作项目,所以全部上云,能不要内存型数据库就不要,能上 serverless 就上 serverless,以降每个月成本压到最低。Java 独有的技术线上不了,Python 、Go 和 Javascript ( Node )都可以。谢。

]]>
dogedoge 什么时候可以上市呀?我一定要去买它的股票,国内上市好了,比较好买。 tag:www.v2ex.com,2020-06-01:/t/677476 2020-06-01T06:08:57Z 2020-06-01T10:15:23Z oahebky member/oahebky 刚刚一个中文搜索证明了 dogedoge 在中文的“至少一些方面”完全超越了 baidu 。 请看一个例子(搜索关键词完全一样 - 复制粘贴的):

dogedoge:

image.png


baidu:

image.png


注:没有利益相关

]]>
如何区分词库的哪些词是 事务搜索词,信息搜索词,导航搜索词 tag:www.v2ex.com,2020-05-30:/t/676990 2020-05-30T09:04:43Z 2020-05-30T20:36:11Z chenjunqiang member/chenjunqiang 目前小弟正在处理大批量的词,想问问,这些词是否有什么快捷的方法来分类出来。

因为有几十万个词,不奢求全自动化处理完全部的词。

希望有一个策略告知如何分类出来。

目前我已经处理的是:

导航词这个比较容易处理,就是别人品牌词,自己品牌词,之类的。好处理,但是没有策略自动化处理

事务搜索词,目前我用了价格词处理了一波

信息搜索词,还没有想到招怎么处理。

弱弱的问问各个大大如何处理

]]>
向各位大神请教关于搜索聚合的问题 tag:www.v2ex.com,2020-04-18:/t/663638 2020-04-18T00:19:37Z 2020-04-18T01:33:57Z ksaa0096329 member/ksaa0096329 一张标签信息表(标签 ID, 标签名称)

一张用户标签表(用户 ID, 标签 ID)

一张用户表(用户 ID, 手机号, 微信 openid, 邮件...)

都是 MySQL 表,并且结构固定,数据的维护是别的系统同步(每天会同步一次,用户也可手动同步)

大概 500W 以下的人,几百上千的标签.

要实现:使用标签组成组(标签与标签交集或并集),再使用组组成包(组与组加法或减法),前端界面在组成组或包的过程中,后端实时提供组或包的人群数量.并且人群包创建好之后会发送各种消息(短信,微信等).

我的问题:

  1. 怎么样能实时提供人群数量
  2. 我该怎样存储组和包数据,什么样的结构,以方便我发送消息
  3. 有什么解决方案,用什么样的工具
]]>
从零开发的工作搜索网站,一个人全栈开发的,大家看看怎么样 tag:www.v2ex.com,2020-01-28:/t/640685 2020-01-28T11:56:28Z 2020-01-28T13:31:42Z syl371 member/syl371 网站地址 job search

欢迎拍砖交流,爬虫和后端接口开发使用的是 nodejs,前端使用的是 angular 8,有感兴趣的同学吗?

]]>
什么样的搜索引擎,才是用户所需要的搜索引擎? tag:www.v2ex.com,2019-06-28:/t/578409 2019-06-28T11:21:35Z 2019-06-28T11:18:35Z smdsm member/smdsm 限制搜索引擎抓取平台内容必定是少数,大多数网站还是很期待能够得到搜索引擎的收录和排名的,有很多中小网站,包括一些个人博客自媒体,内容质量不一定比大平台的差,甚至还优秀的都有。但这些中小网站在排名上远远没有得到搜索引擎的重视,很是费解。为了提高搜索质量,一些搜索引擎还弄了个什么号,想用这种方式来挽回用户,说白了,就是在为自家平台导流,搜索网站变成了站内搜索罢了。这样的结果,大家不用猜就知道了,不但弄不好搜索引擎,还会失去更多中小网站的支持,在搜索资源上变得更差!
一个好的搜索引擎,应该是既考虑用户搜索体验又照顾各大中小网站生存的搜索引擎,只有各大中小网站生存下去了,才能有源源不断的搜索资源提供给用户搜索。如果一心只想把搜索资源弄成自家的站内搜索,迟早会出问题的。那如何才能把各个网站的优质内容提供给用户呢?其实现在的搜索引擎都有站长平台,只要好好利用这个平台,这些问题根本就不是个事。
各网站可以把网站提交到搜索资源(站长)平台并且认证通过后,把网站上的优质内容链接,提交到搜索平台上,搜索平台将按照内容质量、网站页面排版给予收录和排名,站长还可以在搜索资源(站长)平台管理已经提交过的文章内容链接。这样做比弄那个什么号强多了,那个什么号只适合自媒体平台,不适合搜索引擎;搜索引擎也可以建立自己的自媒体平台,但不能把自媒体和搜索混在一起。在这里特别需要提醒的是,在平台验证网站方面,最好通过 ftp 上传文件到根目录这种方式验证,因为很多网站有多人管理,为了防止一些员工自己在站长平台弄账号给网站验证所有权,在网页上放代码这种验证方式不提倡! ]]>
sphinx Linux 两千万数据 (current index format allows up to 4 GB) tag:www.v2ex.com,2019-06-19:/t/575544 2019-06-19T09:03:59Z 2019-06-19T09:00:59Z qq7588245 member/qq7588245 求救啊。怎么解决这个呢?

]]>
新站一个月,搜索引擎抓取留念 tag:www.v2ex.com,2017-03-25:/t/350287 2017-03-25T12:56:25Z 2017-03-26T12:50:24Z mfanming member/mfanming www.21qingbei.com
百度:仅收录首页
搜狗:不收录
360 :收录 109 页
bing:收录首页
中搜:未收录
来自俄罗斯的 yandex.com:未收录

话说 yandex 也被和谐了,当初是多麽热衷于搜索 nak ed 系列关键词... ]]>
Top 10 搜索引擎爬虫和 User-Agents tag:www.v2ex.com,2016-04-29:/t/275330 2016-04-29T06:51:44Z 2016-04-29T07:59:32Z meiriyitie member/meiriyitie
https://meiriyitie.com/2016/04/29/top-10-web-crawlers-and-user-agents/ ]]>
那些不用百度搜索的,及不招用百度搜索的求职者的,怎么看待这个 tag:www.v2ex.com,2013-09-13:/t/82367 2013-09-13T14:40:45Z 1975-10-22T09:24:48Z xmbaozi member/xmbaozi http://www.zhihu.com/question/19823250
有时候,百度确实比谷歌更准确。

不知道发哪个节点去。。 ]]>
网站统计可以运算吗 tag:www.v2ex.com,2012-11-21:/t/52936 2012-11-21T02:11:46Z 2012-11-21T06:34:08Z mtvboy member/mtvboy 一种非常好的优化手段 tag:www.v2ex.com,2011-03-02:/t/9158 2011-03-02T13:48:11Z 2011-03-03T16:24:34Z Livid member/Livid http://www.mittrchinese.com/wordmap.php ]]> blekko | slashtag search tag:www.v2ex.com,2011-02-19:/t/8690 2011-02-19T09:37:57Z 2011-03-03T00:23:20Z n2n3 member/n2n3 http://blekko.com/
http://www.scoutjet.com/ ]]>
求 SEO 的书籍/E-book/Blog? tag:www.v2ex.com,2011-01-01:/t/6619 2011-01-01T22:58:57Z 2011-01-04T11:56:14Z FRHong member/FRHong
不知道有没有关注 http://www.chinamyhosting.com/seoblog 这个博客?
质量似乎不错? ]]>
关于SEO tag:www.v2ex.com,2010-07-22:/t/785 2010-07-22T09:34:06Z 2010-07-23T19:24:50Z Los member/Los 比如以下
http://v2ex.appspot.com/t/757#reply15 ]]>
关于目前 V2EX 搜索所用到的软件 tag:www.v2ex.com,2010-07-21:/t/757 2010-07-21T16:55:55Z 2010-07-25T08:27:07Z Livid member/Livid
Tokyo Dystopia http://1978th.net/tokyodystopia/

API Server:

Tornado: http://www.tornadoweb.org/

及用来起到加速目的的 Nginx 和 Memcached。 ]]>
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86