百度搜索引擎工作原理

sheep · 发表于 2022-8-19 10:43:43

　　互联网信息爆发式增长，如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游，主要负责互联网信息的搜集、保存、更新环节，它像蜘蛛一样在网络间爬来爬去，因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为：Baiduspdier、Googlebot、SogouWebSpider等。

　　Spider抓取系统是搜索引擎数据来源的重要保证，如果把web理解为一个有向图，那么spider的工作过程可以认为是对这个有向图的遍历。从一些重要的种子URL开始，通过页面上的超链接关系，不断的发现新URL并抓取，尽最大可能抓取到更多的有价值网页。对于类似百度这样的大型spider系统，因为每时每刻都存在网页被修改、删除或出现新的超链接的可能，因此，还要对spider过去抓取过的页面保持更新，维护一个URL库和页面库。

　　下图为spider抓取系统的基本框架图，其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider即是通过这种系统的通力合作完成对互联网页面的抓取工作。

百度搜索引擎工作原理

Spider抓取系统的基本框架

Baiduspider 主要抓取策略类型

　　上图看似简单，但其实Baiduspider在抓取过程中面对的是一个超级复杂的网络环境，为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力，会设计多种复杂的抓取策略。以下做简单介绍：

　　1、抓取友好性

　　互联网资源庞大的数量级，这就要求抓取系统尽可能的高效利用带宽，在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。这就造成了另一个问题，耗费被抓网站的带宽造成访问压力，如果程度过大将直接影响被抓网站的正常用户访问行为。因此，在抓取过程中就要进行一定的抓取压力控制，达到既不影响网站的正常用户访问又能尽量多的抓取到有价值资源的目的。

　　通常情况下，最基本的是基于ip的压力控制。这是因为如果基于域名，可能存在一个域名对多个ip（很多大网站）或多个域名对应同一个ip（小网站共享ip）的问题。实际中，往往根据ip及域名的多种条件进行压力调配控制。同时，站长平台也推出了压力反馈工具，站长可以人工调配对自己网站的抓取压力，这时百度spider将优先按照站长的要求进行抓取压力控制。

　　对同一个站点的抓取速度控制一般分为两类：其一，一段时间内的抓取频率；其二，一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同，例如夜深人静月黑风高时候抓取的可能就会快一些，也视具体站点类型而定，主要思想是错开正常用户访问高峰，不断的调整。对于不同站点，也需要不同的抓取速度。

		自动登录	找回密码
密码			立即注册

[seo知识] 百度搜索引擎工作原理

突出贡献

荣誉管理

论坛元老

本科

学士学位

拥有劳力士宇宙计型迪通拿系列m116515ln-0059

拥有欧米茄星座系列131.23.41.21.03.001

拥有梅赛德斯-奔驰EQS 580 4MATIC

拥有宝马M8四门轿跑车雷霆版