网站中的robots.txt文件的具体作用-新概念互动

资讯中心

News

网站中的robots.txt文件的具体作用

发布时间：2022-09-27 00:00 您所在的位置：网站首页 > 新闻资讯 > 经验杂谈

上海网站开发给大伙说一下网站中的robots.txt文件的作用，robots.txt文件放在网站根目录下，是搜索引擎中浏览网站的时候要查看的第一个文件。当一个搜索蜘蛛浏览一个站点时，它会最先检查该站点根目录下能否存在robots.txt，假如存在，搜索机器人就会依照该文件中的信息来确定浏览的范围;假如该文件不存在，所有的搜索蜘蛛将可以浏览网站上所有没有被口令保护的页面。每个网站都应该有一个robots，它告知搜索引擎我的网站里有什么东西是不允许抓取的，有什么页面是欢迎爬行与抓取。

robots的几种作用：

1.屏蔽所有的搜索引擎抓取信息，假如你的网站只是你的私密性的网站，不想太多的人知道的话，可以利用robots屏蔽掉所有的搜索引擎,例如你写的私人博客。你就可以把搜索引擎全都屏蔽掉

User-agent: *

Disallow: /

2.假如你只想某一个搜索引擎抓取你的信息，这样的时候就可以用robots开展设置,例如：我只想我的网站被百度这样的收录，而不想被别的搜索引擎收录。就可以利用robots开展设置

User-agent: Baiduspider

Allow:

User-agent: *

Disallow: /

3.可以利用多种通配符对网站开展相对应的调配，例如我不想网站抓取我的所有图片，这样的时候就可以运用$来开展设置。一般咋们常见的图片的格式是BMP、JPG、GIF、JPEG等格式。这样的时候设置便是：

User-agent: *

Disallow: /.bmp$

Disallow: /.jpg$

Disallow: /.gif$

Disallow: /.jpeg$

4.还能够利用*来屏蔽掉相应的URL，有一些网站不允许搜索引擎抓取动态地址的时候可以利用这样的*通配符来开展匹配设置。一般情况下动态URL的有一个特点便是有“?”这样的时候咋们就可以利用这样的特性来开展匹配的屏蔽：

User-agent: *

Disallow: /*?*

5.假如网站改版了，整个文件夹都没有了的时候，这样的情况下就要考虑屏蔽掉整个文件夹。咋们可以运用robots来对这整个的文件夹开展屏蔽，例如网站里的ab文件夹因改版全都给删掉了，这样的时候就可以这样子子设置：

User-agent: *

Disallow: /ab/

6.假如网站里有一个文件夹不想被收录，不过在这样的文件夹里边有一个信息是允许被收录。那可以运用robots的allow开展设置。例如我网站里ab文件夹不允许搜索引擎抓取，不过在ab文件夹里边又有一个信息cd是允许被抓取的，这样的时候就可以运用robots开展设置：

User-agent: *

Disallow: /ab/

　7.可以在robots里定义出网站地图的位置，有利于网站的收录。

　　sitemap:<网站地图的位置>

　　8.有的时候你会发现我的网站里设置了robots不过还发现其收录了这样的URL地址，这样的的原因是由于这样的搜索引擎的蜘蛛是通过URL爬行到网页的一般google抓取这样子子的URL的时候是不带title与描述的，不过百度抓取这样的URL会带上title与描述，故此有好多有人会说我设置了robots不过没有成效。具体情况是抓取了这样的链接而没有收录这样的页面信息。

　　网站的首页权重是最高的，权重是靠链接传递的，咋们设置robots是为了更好的把权重传递给那些必须要有很高权重的页面，而有一部分页面则是不必须要搜索引擎抓取和爬行的。

本文章由新概念互动原创，如没特殊注明，转载请注明来自：http://www.jianzhan0.com/jingyand/68295.html

上一篇：搜索引擎规则到底该怎么掌握

下一篇：Tradekey推广的操作应该顾虑什么

案例推荐

上海金娜化工网站建设开发

安德厨电高端网站搭建项目完工

嘉必驰润滑油网站设计开发

SKG品牌网站制作

上海艾铮压缩机营销型网站建设

侨益集团网站建设项目