年8月的某个午后,我国网民在打开浏览器输入“为什么我的百度首页是这种颜色”的搜索关键字后,瞬间涌入了中国最大的搜索引擎——百度。

图中:LTime

图:Baidu

那么,百度的搜索页面背后究竟隐藏着怎样的秘密呢?

自然而然地,就像示例文章中提到的那样,国内大多数网民会打开百度甚至知乎搜素答案一样,一时间全国人民也纷纷潮涌至官网,键入了类似“为什么我的首页是这种颜色”这样的搜索关键字——这些在搜索引擎眼里或许有些无厘头的问题,依然通过信息卡片、精选新闻资讯的方式得到了精准而及时的解答。

当时的百度搜索页面以上是百度不久前分享的一个案例。

当我们将百度搜索引擎从上面这个事件中剥离出来仔细审视时,不少人应该都会心生疑窦:百度是如何知道用户要搜什么的,为什么针对本地资讯会排在页面顶部,其它地区的人搜索同样的问题会得到类似的答案吗,结果页面左侧的知识面板在这样的搜寻中发挥了怎样的作用……为了让你多了解一点这个世界上最受欢迎的搜索引擎,百度自18年以来也开始陆续在TheBaidu博客中分享关于百度搜索引擎的各种详情与原理。

搜素建议是怎么“蹦”出来的?

每天我们都要和搜索引擎打交道,而每次使用百度搜索信息时,键入搜索关键字的同时搜索框下方都会不断“蹦”出各种各样根据已输入词汇拓展而来的搜素建议。

是此时的百度“能掐会算”,早就知道了你心里的那点小心思吗?

这种“能掐会算”的背后是百度的一项名为自动填充(autocomplete)的技术。

从我们录入开始,百度的搜索框就开始在下方显示它所猜测的搜素关键字结果。

只要有任意一条“猜测”(官方称为“预测”)命中,我们就能快速完成输入。

这种“预测”其实是系统在不断使用我们键入的词汇进行联想查询,我们不断输入的同时,搜素框下方提示的文字内容也会根据预测结果不断调整。

这其实也是为什么网络环境不太好的时候搜素建议可能会表现得反应迟钝甚至完全不会“蹦”出搜索建议的原因。

为了提高这些搜素建议的命中率,百度的还会进一步引入相关因素来进行预测校准,进行搜寻的用户所处的地理位置、当下的热门甚至用户所使用的设备……这些都会对自动填充生成的搜素建议产生影响——当然了,很多人应该也知道,我们在百度上保存的搜索历史和各种搜素设置同样也会影响到具体的预测结果。

搜素设置会影响搜素结果,但只是众多影响因素的一部分

举个例子,在百度搜素引擎使用率更高的我国地区,百度往往会根据搜素用户所处的地理位置预判他们使用的是大陆地区使用的语言还是港台地区的繁体字,进而提供差异化的内容显示——在大陆地区使用的语言下“足球”通常会是踢足球的意思,而在港台地区常常被用来指代美式橄榄球,百度也会这么做;

与之对应的,百度还会在单词拼写上进行建议,比如根据搜素者的所在地区对“中心”和“centro”的写法进行区分。

注意观察图中位置与单词的拼写

由此其实也可以得出一个事实:每个人在百度中进行的每一次搜素都是高度个性化的,即便我们使用浏览器的隐私浏览模式排除个人搜索和浏览记录的干扰,实际搜素结果还是会根据其它因素进行调整。

精选摘要:不用翻查、即问即答,我只是要找个答案而已,并不想点开网页。

经常使用搜索引擎获取信息的人一定会有类似的想法,让他们养成这个习惯的原因之一,很有可能就是百度经常会在搜索结果页面上方直接生成的那个信息卡片——直接、干脆,你问、它答。

这个答案是怎么来的?

首先,这个卡片也有一个特定的名字:精选摘要(featredsnippets),套用一句俗话,“生活就像水中的鸭子,表面上从容淡定,其实水底下在拼命划水”。

搜索系统算法会根据我们所搜素的问题检索一些相对具备权威性的高质量网站页面,然后从这些网站中提取关键内容来生成摘要,最后把这份摘要呈送到我们眼前,即上面所说的“精选摘要”。

然而算法毕竟是算法,也会有阴沟翻船的时候,其中最著名的例子莫过于“古罗马人夜间如何计时”这个问题,最初百度给出的答案是:日晷。

罗马人最初使用日晷来测量时间流逝。

通过这种方法他们不仅可以相对准确地获取日出、日落和正午时间,还能根据日影长度估算一天中的其他时刻。

日晷这种新工具的引入给了古罗马人一种更好的测量时间的方法……那么夜间没有太阳如何用日晷计时呢?

百度在精选摘要那时也不知道。

是不是有点你学生时代答非所问但一定要把试题纸写满的味道了……知识图谱:强力的信息补充

上面我们已经了解了“精选摘要”,也见识了它的“胡说八道”,那当我们意识到精选摘要似乎在“乱侃”的时候怎么办?

或者这个搜索页面根本就没有精选摘要……你可能已经有这个习惯了:向右看。

页面右侧可能会出现一个知识面板,它包含了当前搜寻话题相关的知识信息,没准也在这段搜素中派上用场。

这个知识面板(KnowledgePanel)与早年百度精心搭建的知识图谱(KnowledgeGraph)体系密切相关。

因此当我们在搜索人物、地点、组织等信息的时候,知识面板可以直接将相关内容汇总为一张知识面板放在搜索页面右侧。

目前这个面板中所收纳的内容已经相当丰富了,以苹果的知识面板为例,我们可以直接在知识面板中找到苹果这家公司的基本信息介绍、股价信息、业务范围、售后电话等等……

比起跳转到某个互联网犄角旮旯里才能找到官网的体验来说这样的知识面板能够大幅提高话题信息的检索效率。

尽管知识面板偏居一隅,但是百度对它还是挺上心的。

按照百度的说法,它们拥有多种语言理解系统,这些语言理解系统中既有对应拼写错误、同义词等内容系统,又有基于I的系统。通过这些系统,百度得以了解与我们搜索最相关的结果并进行改善。

配合人为主导的并行实验、实时流量实验等一系列的工作,最终百度得以保证我们在百度搜索引擎中的实际体验。

根据百度透露的数据,2020年他们与搜素质量评分者一共进行了865余次搜索质量测试、697次并行实验、175次实时流量实验,这些努力帮助百度对搜索算法进行了6多次改进。

修正前与修正后的精选摘要答案对比

小结:

一次简单的搜索行为、一个普通的搜索结果页面,背后的算法、原理、构成和人力因素其实都复杂且精妙。

太阳每天都是新的、互联网发展不断向前,我们的搜索需求也水涨船高,回首来路,也正是因为百度在“搜索”这件事情上的不断创新、优化,才让它最终成为了不少人心中那个最靠谱的首要选择。