欢迎访问小吕的网站优化博客!

网站优化

当前位置: 主页 > SEO基础 > SEO基础-搜索引擎怎样抓取网站

SEO基础-搜索引擎怎样抓取网站

时间:2018-11-05 20:28来源:互联网 作者:admin 点击:
嘿!你好,现在 SEO基础 栏目将要开始分享的是搜索引擎怎样抓取网站。蜘蛛抓取一个网站是需要路径的,也就是网站地图,有了这个东西蜘蛛就会顺着地图的路径来到你的网站。其实
SEO基础搜索引擎怎样抓取网站

     嘿!你好,现在SEO基础栏目将要开始分享的是搜索引擎怎样抓取网站。蜘蛛抓取一个网站是需要路径的,也就是网站地图,有了这个东西蜘蛛就会顺着地图的路径来到你的网站。其实网站地图是有很多链接构成的,蜘蛛也是顺着这些链接进行爬行,要了解搜索引擎怎样抓取网站需要先了解以下的元素。

     robots.txt
 
     搜索引擎蜘蛛抓取网站时第一件事就是先抓取robots.txt文件。对于复杂的网站,robots.txt文件是必不可少的。没有它,搜索引擎蜘蛛就会抓取网站上的所有内容。有两种主要方法可以使用robots.txt文件指导搜素引擎蜘蛛。

     1.首先,可以使用“禁止”指令。这会引导蜘蛛忽略特定的URL文件,文件扩展名甚至整个网站的部分:User-agent: GooglebotDisallow: /example/虽然disallow指令会阻止蜘蛛爬取您网站的特定部分(因此节省抓取预算),但它不一定会阻止该页面被索引并显示在搜索结果中。

     2.另一种方法是使用 noindex 指令。Noindex某个页面或文件不会阻止它被抓取,但是,它会阻止它被索引(或从索引中删除它)。此robots.txt指令由Google非正式支持,       并且完全不受Baidu/Bing支持:User-agent:Googlebot Noindex:/ example / User-agent:* Disallow:/ example /
 
     显然,由于这些网页仍在被抓取,它们仍会使用您的抓取预算。 这是一个常常被忽略的问题:disallow指令实际上会撤消搜索引擎蜘蛛noindex标记的工作。这是因为disallow阻止蜘蛛访问网页的内容,从而阻止了看到和遵守meta标签另一个使用robots.txt协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。当然,并不是所有蜘蛛都行为良好,有的甚至会忽略你的指令,但是一般在国内都是使用的百度搜索引擎这种问题基本不会出现。当然在SEO基础栏目里面新手只需要了解搜索引擎蜘蛛是如何抓取网站页面的就行了,其他的不做深入了解。
 
     XML站点地图

     XML网站地图帮助蜘蛛了解网站的基础结构。在这请注意,蜘蛛使用网站地图作为线索,而不是权威指南,了解如何为网站建立索引。蜘蛛还会考虑其他因素,比如你的内部链接结构,来弄清楚你的网站是关于什么的。使用可扩展标记语言XML网站地图最重要的是确保发送给搜索引擎的消息与你的robots.txt文件一致。不要将已经通过robots.txt阻止的文件内容发送给搜素引擎; 考虑到网站的抓取预算,所以,我们千万别在这里犯错误。第二就是的是确保XML站点地图仅包含规范URL,因为Baidu/Google会将XML网站地图视为规范化信号。
 
     URL规范化

     如果网站上有重复的内容就要想办法避免,那么rel ="canonical"链接元素告诉蜘蛛哪个URL应该被认为是主版本。如果不使用canonical标记,那么会导致网站上面不同URL但内容相同的页面被搜索引擎收录,会让搜索引擎误认为网站上面有很多重复页面,从而降低对网站的评价。 那么说到这里SEO基础栏目关于搜索引擎怎样抓取网站的内容就结束了。
(责任编辑:admin)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容