新浪微博 腾讯微博 | 网站地图 | SEO教程 | 教研室 | SEO人物 你好,欢迎光临东莞市三好教育信息咨询有限公司的SEO培训网站!

东莞SEO

东莞SEO

联系方式CONTACT

三好教育信息咨询有限公司

地址:东莞虎门龙眼东二路3巷5号
手机:+86 136 2002 3931         

传真:+86 0769 8997 9022

E-mail:gd888vip@163.com
网址:www.seowhe.com
电话:+86 0769 8997 9022

您当前的位置:首页 > 湖南SEO

搜索引擎蜘蛛名称及爬行惯性

发布时间:2016-08-05   信息来源:东莞SEO  作者: SEO培训  访问量:

搜索引擎蜘蛛我们通常称它为机器人,是一种能够自己抓取网站,下载网页的程序。它可以访问互联网上的网页、图片、视频等内容,喜欢收集对用户有用的内容,而且如果他觉的你好的话,会定期来看你哦,我们要做的事情就是把它们伺候好,顺其意投其好。那么如果还有不了解《什么是网络蜘蛛》可以参考这篇文章有详细说明。
 
一、如何查看搜索引擎蜘蛛是否来爬过我的网站?首先要了解各大搜索引擎蜘蛛名称
 
《百度蜘蛛:baiduspider》《google蜘蛛:googlebot》《yahoo蜘蛛:slurp》《alexa蜘蛛:ia_archiver》
《man蜘蛛: msnbot》《soso蜘蛛: sosospider》《bing蜘蛛: bingbot》《altavista蜘蛛:scooter》
《lycos蜘蛛:lycos_spider_(t-rex)》《alltheweb蜘蛛:fast-webcrawler/》《有道蜘蛛:yodaobot和 OutfoxBot》
《inktomi蜘蛛:slurp》《搜狗蜘蛛:soguo spider》《热士蜘蛛:Adminrtspider》
 
二、搜索引擎蜘蛛工作流程
 
首先,蜘蛛程序分为三个部分:控制器,解析器和索引数据库。
1.控制器负责收集URL集合并分配URL集合给解析器。
2.解析器获得URL集合后,通过访问URL并下载页面。
3.索引数据库存储解析器下载的页面并分析页面内容,以此来确认是否建立数据缓存。
 
三、蜘蛛爬行惯性规则
 
百度蜘蛛:爬谨慎,收录更谨慎。
google蜘蛛:不太爱爬,但爱收录。
搜搜蜘蛛:爱爬图片,经常绕在动态地址里出不来。
雅虎蜘蛛:恪守规则,每次都是先爬robots.txt。
其他的没有太多留意,就不多说了。
 
四、robots.txt的对于蜘蛛的支持程度
 
由于robots协议多种多样,这里我就拿Disallow: /*?*分析(禁止动态页面抓取)讲解一下
1.百度的表现:写了禁止之后很少爬,但是偶尔也会爬,相信是起作用了,因为越来越少,以前一天几次现在几天一次
2.google表现:写了禁止就不再爬,会在谷歌站长工具中列出来它想爬被你阻止了
3.搜狗蜘蛛:可以说是基本不听话,也不知道是不是不吃这个规则,说它完全不吃它也吃了一点,只是把动态地址的问号拿掉了,然后照爬,一爬就是一大片,这不知道它能爬出什么东西
4.搜搜蜘蛛跟雅虎蜘蛛好像差不多,感觉还是挺有效的,禁止之后没有再有它爬过的痕迹
 

总结:一般来说百度搜索引擎是每周更新,网页重要性有不同的更新率,频率在几天至一月之间,baiduspider会重新访问和更新一个网页。google蜘蛛,它会访问制定的网页,收集该网页上的链接,而且会顺着这些链接找其他的网页,通过这些链接,把世界上的网页连成了一个巨   大的网,所以这些在网络上爬行的Googlebot也被称为Google蜘蛛。百度蜘蛛,它的作用是访问互联网上的html网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站的网页。 

首页 | SEO培训 | 网站模板 | 产品与服务 | 企业动态 | 行业资讯 | SEO教程 | SEO人物 | 客户见证 | 常见问题 | 工程案例 | 公司荣誉 | 企业优势 | 关于我们 | 联系我们

Copyright © 2016 三好教育信息咨询有限公司
座机:+86 0769 8997 9022
传真:+86 0769 8997 9022
公司:东莞市三好教育信息咨询有限公司
网址:http://www.seowhe.com
手机:+86 136 2002 3931
邮箱:gd888vip@163.com
地址:东莞市虎门镇龙眼东二路3巷5号   
粤ICP备16043294号-2