搜索引擎技术研究

不知道有没有人精通 SEO，我想咨询下我网站的百度搜索问题

2024-10-05T14:03:59Z

可以知识付费，有偿请教。欢迎留下联系

目前还有支持网页快照的搜索引擎没？

2024-05-30T07:47:43Z

百度、google 、360 都没有快照功能了，求推荐！

如何起昵称，可以利用到搜索引擎的分词规则，进而避免在搜索引擎中被搜索到？

2024-04-30T01:40:24Z

最近了解了下人肉搜索相关的东西，发现通过搜索引擎搜索一个人的昵称，可以把它的各种账号都给找出来。

我记得搜索引擎是有所谓的分词规则的，能不能在取昵称的时候利用到分词规则，如取名为“我和动物”，这样搜索引擎就会把这个昵称分为“我”、“和”、“动物”，并主动把“和”这个单词丢掉。

请问这样是否可行？还有没有其他办法可以防止搜索引擎收录自己的各平台信息？

如何让一些对搜索引擎不友好的内容平台变得友好?

2024-01-15T07:58:10Z

我习惯用谷歌, 但是一些平台的内容在搜索结果中权重很低, 例如百度贴吧. 还有一些完全不会出现, 例如微信公众号平台. 有没有办法改善这一点呢?

你们使用的常用搜索关键词或技巧是什么？

2023-10-14T19:53:49Z

站类搜索。 site: domain_name keyword

site: v2ex.com mysql

关键词排除 keyword -keyword

and 且

MySQL db design and index -csdn

or 或

MySQL db design or index -csdn

文件类型

数据库设计 filetype: pdf

数据库设计 ext:pdf

日期

leetcode site: github.com after: 2021

before: 2021

2021..2023

url 搜索

algorithm and data structure inurl:blog

inurl: gitbook

text 搜索

intext: mysql performance

我想请教的是你们要学一个东西或者找到你想要的且质量高的文章或者博客是用的什么关键字

你们是用的什么关键字或者技巧找到高质量的文章或者有趣的东西

谢谢大家。

分享一个搜索引擎

2023-08-22T16:12:11Z

manticoresearch

源自 sphinx 支持 Realtime 索引、indexer from mysql 。兼容 es 的 json 搜索，兼容 mysql 协议和基本 sql 语法子查询等。

性能目前在用很好。中文友好。资源占用很小。中小项目觉得挺适合的。

学习向量搜求教

2023-05-14T08:45:07Z

看了向量搜索，看到 es 有向量搜索，搜着搜着又认识了 Faiss ，Milvus ，又认识了 PaddlePaddle ，embedding ，数据工厂,召回，排序。。。。。

如果是自己玩，应该是 Milvus 好一些，但是他们数据处理流程是怎么样的呢？

假设有 1000 篇文章在 mysql 中，存在显示不显示状态。

如果导入 es 中，就可以实现分词搜索，但是这时候搜索比较笨。

看 Milvus 可以实现类似拆字意图搜素，我是用 Milvus 然后拆词，然后呢。。

用了 Milvus 是不是就不用用 es 了,还是和 es 搭配使用，具体方面呢。

我只会 es 分词搜索，es 日志使用，对搜索方面又些兴趣，但是越了解越乱。请大佬指点.

Brave Search 是当下我认为最好的搜索引擎

2023-03-14T02:34:45Z

https://search.brave.com/

同样的搜索内容，为啥谷歌返回的结果差别那么大？

2023-03-04T01:20:38Z

rt ，前两天提了一个问题关于 google 中文搜索结果的问题,结果回复里，有位哥们（#13 楼）跟我用一样的关键词，我们搜出来的结果差异很大（详细大家可以看一下，我在回复里都有截图），然后我做了以下排查：

清理谷歌浏览器的缓存，修改隐私政策（有账号）
更换浏览器为火狐（无账号）
更换设备（电脑→手机）更换浏览器（ brave ）（无账号,无使用记录）
更换同款双脚长凳🪜ip
更换其他双脚长凳

结果跟我开始搜索到的结果几乎都一样，这里有几个问题：

这是被谷歌用户分类了吗？还是被精确定位了？如果是后者，感觉有点细思极恐，在终端存在差异化环境情况下，谷歌是怎么定位到请求是来自“同个局域网”网络设备的？
大概率是什么原因导致这种搜索结果差异的？哪个环节被锁定？运营商？域名解析？或者说谷歌同过某种本地运算让不同环境的请求带上同个 key?
如何避免这种情况

PS:哈哈，如果问得不好或是我无知，大家尽管吐槽，谢谢大家回复！

关于 google 中文搜索结果的问题

2023-02-28T12:57:50Z

rt ，不知道大家平时用谷歌中文搜索时，会不会有跟我一样的困扰，比如这种答非所问的搜索结果（我要的是 docker 版本升级的结果，然而结果来全部是有关 gitlab 版本升级的，首页前几条）：

是我搜索的姿势不对，还是别人的 seo 做的好，或者说是搜索引擎做的不够好？
PS:大家平时使用搜索引擎时，有哪些 tips 可以分享的？谢谢大家！

想了解“概念”这个汉语词汇的词源，搜索引擎的搜索关键词应该用什么？

2022-06-17T15:46:55Z

搜到的往往是“xxx 的概念”相关网页，

求助各位 SEO 搜索的问题：百度站内搜索，搜一些没有内容的关键字会搜出广告，请问是被黑了吗，怎么防止呢？

2022-03-30T06:50:43Z

正常情况，比如搜索 site:chuangye.sjtu.edu.cn 学，可以展示正确内容：

但是如果搜一些不存在但是又敏感的关键字，就会出现广告内容，比如搜索 site:chuangye.sjtu.edu.cn 污，出现这种内容：

求解是什么原因呢，如何防止呢？感谢！

Google Search Is Dying

2022-02-17T00:27:56Z

https://news.ycombinator.com/item?id=30347719
https://dkb.io/post/google-search-is-dying

Google search 里 SEO 或者 Ads 太多了
大家干脆 search Reddit, 或者 Google xxx Reddit

大家之前讨论的 SEO 影响搜索结果... 其实国外也一样啊
看来 Reddit 成最大赢家, Baidu 贴吧确实是好牌打烂了

谷歌精确中文字符串搜索无效

2021-06-03T06:45:02Z

最近用谷歌搜索中文发现半角双引号搜索完全失效了，哪怕是在进阶搜索里面也是在上面那一行。请问大家有遇到这种情况吗

百度/bing 搜索结果过滤插件有推荐的吗？

2021-02-08T07:48:33Z

常用还是百度，偶尔 bing，可以过滤 csdn，阿里云，腾讯云这几个网站，最好直接域名拦截，这些网址看吐了，复读机

谷歌的爬虫有点厉害啊

2021-02-06T04:00:34Z

昨晚看到一个哥们在火车上听别人讨论几个亿的项目今天想再看一下，但是只记得标题里面有火车回家的关键词就用百度搜索了一下，结果没搜到 https://imgchr.com/i/yJxlk9

用谷歌搜索了一下却搜到了 https://imgchr.com/i/yJxR0g

谷歌爬虫的收录速度这么快的嘛，一天前的帖子就收录了 https://imgchr.com/i/yJzCjK

百度搜索已由提高自家站点权重的引流方式改变为屏蔽其他网站

2021-01-18T18:52:56Z

以前百度只是将自己产品搜索靠前但并不影响最终结果，现在搜索某些内容只能搜到百家号内容，

不排除算法错误导致

例：

https://www.baidu.com/s?wd=%E6%96%AD%E5%8D%A1%E8%A1%8C%E5%8A%A8

所有搜索内容均为百家号，屏蔽了其他网站

https://www.baidu.com/s?wd=%E6%96%AD%E5%8D%A1%E8%A1%8C%E5%8A%A8+-baijiahao

-baijiahao 后内容正常

分享一个集中式阅读英文技术文档的网站

2020-07-14T07:09:08Z

网站地址：https://doc.liusha.io 内容都是来自互联网，做了一些整理工作

关于大量文本搜索的功能要怎么设计

2020-06-10T17:57:17Z

背景描述：目前有 10 万份到 100 万份单独英语文本，需求是首先抽取每个文本的每个单词出来，二是搜索时能够找出所有包含该关键字的文本出来，并能够对应到行。

当前想法：的方案是 elasticsearch，分词的话找个 python 库处理一下，有点像个迷你的搜索引擎，但不确定是否需要那么重量级的工具。

请教：有什么简单又直接又省运维成本的方案？非工作项目，所以全部上云，能不要内存型数据库就不要，能上 serverless 就上 serverless，以降每个月成本压到最低。Java 独有的技术线上不了，Python 、Go 和 Javascript （ Node ）都可以。谢。

dogedoge 什么时候可以上市呀？我一定要去买它的股票，国内上市好了，比较好买。

2020-06-01T06:08:57Z

刚刚一个中文搜索证明了 dogedoge 在中文的“至少一些方面”完全超越了 baidu 。请看一个例子（搜索关键词完全一样 - 复制粘贴的）：

dogedoge:

baidu:

注：没有利益相关

如何区分词库的哪些词是事务搜索词，信息搜索词，导航搜索词

2020-05-30T09:04:43Z

目前小弟正在处理大批量的词，想问问，这些词是否有什么快捷的方法来分类出来。

因为有几十万个词，不奢求全自动化处理完全部的词。

希望有一个策略告知如何分类出来。

目前我已经处理的是：

导航词这个比较容易处理，就是别人品牌词，自己品牌词，之类的。好处理，但是没有策略自动化处理

事务搜索词，目前我用了价格词处理了一波

信息搜索词，还没有想到招怎么处理。

弱弱的问问各个大大如何处理

向各位大神请教关于搜索聚合的问题

2020-04-18T00:19:37Z

一张标签信息表(标签 ID, 标签名称)

一张用户标签表(用户 ID, 标签 ID)

一张用户表(用户 ID, 手机号, 微信 openid, 邮件...)

都是 MySQL 表,并且结构固定,数据的维护是别的系统同步(每天会同步一次,用户也可手动同步)

大概 500W 以下的人,几百上千的标签.

要实现:使用标签组成组(标签与标签交集或并集),再使用组组成包(组与组加法或减法),前端界面在组成组或包的过程中,后端实时提供组或包的人群数量.并且人群包创建好之后会发送各种消息(短信,微信等).

我的问题:

怎么样能实时提供人群数量
我该怎样存储组和包数据,什么样的结构,以方便我发送消息
有什么解决方案,用什么样的工具

从零开发的工作搜索网站，一个人全栈开发的，大家看看怎么样

2020-01-28T11:56:28Z

网站地址 job search

欢迎拍砖交流，爬虫和后端接口开发使用的是 nodejs，前端使用的是 angular 8，有感兴趣的同学吗？

什么样的搜索引擎，才是用户所需要的搜索引擎？

2019-06-28T11:21:35Z

很多人都在说现在各大平台都在做自家的内容体系，限制搜索引擎抓取了，导致搜索资源的下降，搜索引擎才不得不弄那些什么号来应对日渐枯萎的内容资源。真的是这样吗？我觉得，不一定！
限制搜索引擎抓取平台内容必定是少数，大多数网站还是很期待能够得到搜索引擎的收录和排名的，有很多中小网站，包括一些个人博客自媒体，内容质量不一定比大平台的差，甚至还优秀的都有。但这些中小网站在排名上远远没有得到搜索引擎的重视，很是费解。为了提高搜索质量，一些搜索引擎还弄了个什么号，想用这种方式来挽回用户，说白了，就是在为自家平台导流，搜索网站变成了站内搜索罢了。这样的结果，大家不用猜就知道了，不但弄不好搜索引擎，还会失去更多中小网站的支持，在搜索资源上变得更差！
一个好的搜索引擎，应该是既考虑用户搜索体验又照顾各大中小网站生存的搜索引擎，只有各大中小网站生存下去了，才能有源源不断的搜索资源提供给用户搜索。如果一心只想把搜索资源弄成自家的站内搜索，迟早会出问题的。那如何才能把各个网站的优质内容提供给用户呢？其实现在的搜索引擎都有站长平台，只要好好利用这个平台，这些问题根本就不是个事。
各网站可以把网站提交到搜索资源（站长）平台并且认证通过后，把网站上的优质内容链接，提交到搜索平台上，搜索平台将按照内容质量、网站页面排版给予收录和排名，站长还可以在搜索资源（站长）平台管理已经提交过的文章内容链接。这样做比弄那个什么号强多了，那个什么号只适合自媒体平台，不适合搜索引擎；搜索引擎也可以建立自己的自媒体平台，但不能把自媒体和搜索混在一起。在这里特别需要提醒的是，在平台验证网站方面，最好通过 ftp 上传文件到根目录这种方式验证，因为很多网站有多人管理，为了防止一些员工自己在站长平台弄账号给网站验证所有权，在网页上放代码这种验证方式不提倡！

sphinx Linux 两千万数据 (current index format allows up to 4 GB)

2019-06-19T09:03:59Z

求救啊。怎么解决这个呢？

新站一个月，搜索引擎抓取留念

2017-03-25T12:56:25Z

域名： www.21qingbei.com
百度：仅收录首页
搜狗：不收录
360 ：收录 109 页
bing:收录首页
中搜：未收录
来自俄罗斯的 yandex.com:未收录

话说 yandex 也被和谐了，当初是多麽热衷于搜索 nak ed 系列关键词...

Top 10 搜索引擎爬虫和 User-Agents

2016-04-29T06:51:44Z

10 大搜索引擎爬虫，谷歌第一，百度第五，居然没有 360 哈哈

https://meiriyitie.com/2016/04/29/top-10-web-crawlers-and-user-agents/

那些不用百度搜索的，及不招用百度搜索的求职者的，怎么看待这个

2013-09-13T14:40:45Z

刚刚在知乎看到的。
http://www.zhihu.com/question/19823250
有时候，百度确实比谷歌更准确。

不知道发哪个节点去。。

网站统计可以运算吗

2012-11-21T02:11:46Z

研究一个考试页面，JS的，很简单，只是用什么方法能统计出哪个省份答对的题多；这个城市哪道题都答对了；哪个地区答题正确率高？总体哪道题正确率是多少？php jsp。

一种非常好的优化手段

2011-03-02T13:48:11Z

http://www.mittrchinese.com/wordmap.php

blekko | slashtag search

2011-02-19T09:37:57Z

http://blekko.com/
http://www.scoutjet.com/

求 SEO 的书籍/E-book/Blog?

2011-01-01T22:58:57Z

各位能否推荐一些比较入门级的？

不知道有没有关注 http://www.chinamyhosting.com/seoblog 这个博客？
质量似乎不错？

关于SEO

2010-07-22T09:34:06Z

现在V2EX上的主题链接使用过多的锚点，是否会对SEO有比较大的影响呢？
比如以下
http://v2ex.appspot.com/t/757#reply15

关于目前 V2EX 搜索所用到的软件

2010-07-21T16:55:55Z

Index and Search Server:

Tokyo Dystopia http://1978th.net/tokyodystopia/

API Server:

Tornado: http://www.tornadoweb.org/

及用来起到加速目的的 Nginx 和 Memcached。