关于Google搜索运作方式的深度指南

Google搜索是一款全自动搜索引擎,会使用名为“网页抓取工具”的软件定期探索网络,找出可添加到Google索引中的网页。实际上,Google搜索结果中收录的大多数网页都不是手动提交的,而是我们的网页抓取工具在探索网络时找到并自动添加的。本文档从网站的角度介绍了Google搜索运作方式的各个阶段。掌握这些基础知识可以帮助您解决抓取问题、让您的网页编入索引,并且了解如何优化您的网站在Google搜索结果中的呈现效果。

开始之前的一些注意事项

在深入了解Google搜索的运作方式之前,请务必注意,Google不会通过收取费用来提高网站焯去频率或网站排名。任何与此不符的消息均是子虚乌有。

Google不保证一定会抓取您的网页、将其编入索引或在搜索结果中显示您的网页,计时您的网页遵循Google的网站所有者政策和指南也是如此。

Google搜索的3个阶段简介

Google搜索的工作流程分为3个阶段、并非每个网页都会经历这3个阶段:

  1. 抓取:Google会使用名为“抓取工具”的自动程序从互联网上发现各类网页,并下载其中的文本、图片和视频。
  2. 索引编制:Google会分析网页上的文本、图片和视频文件,并将信息存储在大新数据库Google索引中。
  3. 呈现搜索结果:当用户在Google中搜索时,Google会返回与用户查询相关的信息。

抓取

第一阶段是找出网络上存在哪些网页。不存在包含所有网页的中央注册表,因此Google必须不断搜索新网页和更新过的网页,并将其添加到已知网页列表中。此过程被称为“网址发现”。由于Google之前已经访问过某些网页,因此这些网页是Google已知的网页。当跟踪已知网页上指向新网页的链接时,Google会发现其他网页,例如类别网页等中心页会链接到新的博文。当您以列表形式(站点地图)提交一系列网页供Google抓取是,Google也会发现其它的网页。

Google发现网页的网址后。可能会访问(或“抓取”)该网页以了解其中的内容。我们使用大量计算机抓取网络上的数十亿个网页。执行抓取任务的程序叫做Googlebot(也称为漫游器或“蜘蛛”程序)。Googlebot使用算法流程确定要抓取的网站、抓取频率以及要从每个网站抓取的网页数量。Google的抓取工具也经过变成,确保不会过快IDE抓取网站,避免网站收到过多请求。此机制基于网站的响应{例如:HTTP 500错误意味着“降低抓取速度”}和Search Console中的设置。

但是,Googlebot不会抓取它发现的所有网页。某些网页可能被网站所有者设置为禁止抓取,其他网页可能必须登录网站才能访问,还有的网页可能与之前抓取过得网页重复。例如:许多网站通过WWW(www.example.com)和非WWW(example.com)版本的域名都可以访问,即使这两个版本的内容完全相同。

在抓取过程中,Google会使用最新版Chrome呈现网页并运行它找到的所有JavaScript,此过程与浏览器呈现您访问的网页的方式类似。呈现很重要,因为网站经常依靠JavaScript将内容引入网页,缺少了呈现过程,Google可能就看不到相应内容。

能否抓取取决于Google的抓取工具能否访问网站。Googlebot访问网站时的一些常见问题包括:

  • 服务器在处理网站时出现问题
  • 网络问题
  • Robots.txt指令组织Googlebot访问网页

索引编制

抓取网页后,Google会尝试了解该网页的内容。这一阶段称为“索引编制”,包括处理和分析文字内容以及关键内容标记和属性,例如<title>元素和Alt属性、图片、视频等。

在索引编制的过程中,Google会确定网页是否与互联网上的其他网页重复或是否为规范网页。规范网页是可能会显示在搜索结果中的网页。为了选择规范网页,我们首先会将在互联网上找到的内容类似的网页归为一组,然后选择一组网页中最具有代表性的网页进行呈现。该组网页中的其他网页可作为备用版本在不通情况下提供,例如用户在移动设备上进行搜索时,或是在他们正在查找改组网页中的某个具体网页时。

Google还会收集关于规范网页及其内容的信号,这些信号可能会在下一阶段(即在搜索结果中呈现网页)时用到。一些信号包括网页语言、内容所针对的国家/地区、网页可访问性等。

所收集的关于规范网页及其网页群组的相关信息可能会存储在Google索引(托管在数千台计算机上的大型数据库)中。我们无法保证网页一定会编入索引;并非Google处理的每个网页都会编入索引。

是否会编入索引还取决于网页内容及其元数据。一些常见的索引编制问题可能包括:

  • 网页内容质量低
  • 漫游器元指令禁止编入索引
  • 网站的设计可能是索引编制难以进行

呈现搜索结果

用户输入查询时,我们的机器会在索引中搜索匹配的网页,并返回我们认为与用户的搜索内容最相关的优质结果。相关性是由数百个因素决定的,其中可能包括用户的位置、语言和设备(桌面这杯或手机)等信息。例如,在用户搜索“自行车维修店”后,Google向巴黎用户显示的结果与香港用户显示的结果有所不同。

Search Console可能提升您某个网页已编入索引,但您在搜索结果中看不到该网页。这可能是因为:

  • 网页内容与用户不相关
  • 内容质量低
  • 漫游器元指令阻止呈现搜索结果

发表评论