新浪微博 腾讯微博 | 网站地图 | SEO教程 | 教研室 | SEO人物 你好,欢迎光临东莞市三好教育信息咨询有限公司的SEO培训网站!

东莞SEO

东莞SEO

联系方式CONTACT

三好教育信息咨询有限公司

地址:东莞虎门龙眼东二路3巷5号
手机:+86 136 2002 3931         

传真:+86 0769 8997 9022

E-mail:gd888vip@163.com
网址:www.seowhe.com
电话:+86 0769 8997 9022

您当前的位置:首页 > 达州SEO

baiduspider主要抓取策略类型

发布时间:2016-06-14   信息来源:东莞SEO  作者: SEO  访问量:

 百度在抓取的的过程中面对的是一个非常复杂的网络环境,而为了尽可能抓取到更多的有价值的资源,并能保持系统及实际环境页面的一致性,同时又可以不给网站体验造成压力,内部会设置多种复杂的抓取策略:

  1、抓取友好性
  由于互联网资源的庞大,故而要求抓取系统尽可能的高效利用带宽,在有限的硬件和带宽资源下尽可能多的抓取到有价值的资源;但这样势必会导致被抓网站的带宽的访问压力加大,进而影响被抓取网站的正常用户访问行为,所以在抓取过程中要对抓取压力进行控制,达到既能抓取大量有价值的资源有不影响正常用户访问。
  一个最基本的就是基于IP进行压力控制;如果是基于域名,可能会出现一个域名对多个IP或者是多个域名对同一个IP的情况,实际上是根据IP及域名的多种条件进行压力控制的。站长也可以利用站长平台推出的压力反馈工具进行调配,这样BaiduSpider将优先按照站长的要求进行抓取压力控制。
其抓取速度的控制一般分为两类:
(1)一段时间内的抓取频率
(2)一段时间内的抓取流量
不同的时间里抓取的速度也大不相同,如深夜时抓取的可能会快些,但也是按不同的站点的类型而定的,一般是错开正常用户访问高峰。
  2、常用抓取返回码示意
  (1)一个最常见的404代表“NOT FOUND”,这是认为网页已经失效,短期内即使BaiduSpider发现这条URL也不会抓取的
  (2) 503代表“Service Unavailable”,通常是网站临时关闭,网页暂时不能访问,带宽有限等会产生这种情况。对于这种情况,BaiduSpider不会把这条URL直接删除的,会在短期内反复访问几次,如果已恢复,则正常抓取;如果继续返回503,那URl就会被认为是失效链接,从库中删除。
  (3)403代表“Forbidden”,认为网页目前禁止访问。加入是新的URL,BaiduSpider暂时不抓取,同样会在短期内反复访问几次;如URL已收录,不会直接删除,同样是短期内重复访问几次。如URL网页正常访问,就正常抓取,假如仍然禁止访问,那就会被认为是失效链接并从库中删除。
  (3)301代表是“Moved Permanently”,认为网页重定向至新的URL。如在站点迁移、域名飞更换、站点改版的情况时,推荐使用301返回码,同时借助站长平台网站改版工具,减少改版对网站流量造成的损失。  
  3、多种URL重定向的识别
  部分网页由于各种原因纯在URl重定向状态,为了能对这部分资源正常抓取,需要BaiduSpider对URL重定向惊醒识别判断,同时防止作弊行为。重定向可分为Http 30X重定向、Meta refresh重定向和JS重定向。同时百度支持的canonical标签,在效果上也可以认为是一中间接的重定向。
  4、抓取优先级调配
 由于互联网资源规模的巨大以及迅速的变化,对于搜索引擎来说全部抓取到并合理的更新保持一致性几乎是不可能的事情,因此这就要求抓取系统设计一套合理的抓取优先级调配策略。主要包括:深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、社会化分享指导策略等等。每个策略各有优劣,在实际情况中往往是多种策略结合使用以达到最优的抓取效果。
  5、重复url的过滤
  spider在抓取过程中需要判断一个页面是否已经抓取过了,如果还没有抓取再进行抓取网页的行为并放在已抓取网址集合中。判断是否已经抓取其中涉及到最核心的是快速查找并对比,同时涉及到url归一化识别,例如一个url中包含大量无效参数而实际是同一个页面,这将视为同一个url来对待。
  6、暗网数据的获取
  互联网中存在着大量的搜索引擎暂时无法抓取到的数据,被称为暗网数据。一方面,很多网站的大量数据是存在于网络数据库中,spider难以采用抓取网页的方式获得完整内容;另一方面,由于网络环境、网站本身不符合规范、孤岛等等问题,也会造成搜索引擎无法抓取。目前来说,对于暗网数据的获取主要思路仍然是通过开放平台采用数据提交的方式来解决,例如“百度站长平台”“百度开放平台”等等。
  7、抓取反作弊
  spider在抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰,这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统。例如分析url特征、分析页面大小及内容、分析站点规模对应抓取规模等等。

首页 | SEO培训 | 网站模板 | 产品与服务 | 企业动态 | 行业资讯 | SEO教程 | SEO人物 | 客户见证 | 常见问题 | 工程案例 | 公司荣誉 | 企业优势 | 关于我们 | 联系我们

Copyright © 2016 三好教育信息咨询有限公司
座机:+86 0769 8997 9022
传真:+86 0769 8997 9022
公司:东莞市三好教育信息咨询有限公司
网址:http://www.seowhe.com
手机:+86 136 2002 3931
邮箱:gd888vip@163.com
地址:东莞市虎门镇龙眼东二路3巷5号   
粤ICP备16043294号-2