robots.txt怎么写 robots.txt写法及作用

 robots.txt一般是指robots.txt协议。Robots协议(也称为搜索引擎蜘蛛协议)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎蜘蛛哪些页面可以抓取,哪些页面不能抓取。

robots.txt是一个robots为名字.txt为后缀的一个文本文件。在文件里,你可以写一些允许百度等搜索引擎蜘蛛抓取收录的页面,而有些页面你不想让百度等搜索引擎抓取和收录,也可以用robots语法禁止掉。之前马云将淘宝全站禁止百度抓取的事件曾经轰动一时。但随着时间的推移,淘宝已经将很多页面允许让百度搜索蜘蛛抓取了。

robots.txt语法:

1.基本语法:

User-agent 定义协议的搜索引擎。

Disallow 不允许抓取

Allow 允许抓取

* 通配符,代表所有

$ 结束符

2.详情讲解:

User-agent: * 所有的搜索引擎都要遵守

PS:1.英文的首字母一定要大写。下同。2.问号一定是英文状态下的。下同。3.问号之后一定要有一个空格。下同。

User-agent: Baiduspider 针对百度的协议

Disallow: / 屏蔽全站

Disallow: /can/ 屏蔽can文件下的所有文件

Allow: /can/123 屏蔽can文件下的所有文件,但是允许收录123

Disallow: /*.jpg$ 屏蔽所有的图片文件。

PS:使用通配符,一定要有结束符。不然可能导致正常的路径被屏蔽。


3.jpg


网站为什么要使用robots.txt

1.统一路径

在我们的网站中,指向页面的路径一定是有且只有一个。一旦多途径指向一个页面,会导致百度不知道收录那个页面。所以我们只要屏蔽了一个,让百度收录我们想让收录的。

2.搜索路径

如果我们网站中有搜索框,那么我们就要把搜索结果页面给屏蔽掉。目的就是为了防止有人使用这个搜索框捣乱。

3.标签路径

如果我们网站有标签页面,这个标签页面就是中文的链接,中文链接百度不认识,所以要屏蔽。

4.js文件

对于js文件或者其他无意义的文件,我们都可以屏蔽掉。

robots.txt写法

1. 熟手自己动手写,按上面的介绍的robots语法来。

2. 新手可以利用robots.txt生成工具,一键生成,非常简单。

http://tool.chinaz.com/robots/

robots.txt怎么检测是否成功?

可以用百度搜索资源平台的站长工具来测试。

站长工具->网站支持->Robots

设置了robots.txt文件百度一定会遵守吗?

当百度等搜索引擎来到我们网站的时候,会先看一看有没有这个文件,在进行下一步的抓取。但是需要注意的是,这个协议只是我们单方面的,搜索引擎遵守与否,我们管不了。但是正常情况下搜索引擎会遵守这个协议。

Robots.txt生效时间是几天?

百度内容人员曾经说过:

不同的站点略有不同,但通常在几天内陆续生效。 其实我们可以假想下robots生效的过程:

1. 蜘蛛发现robots文件修改并将信息传回

2.分析修改前后的robots文件

3.删除不允许被收录的索引数据 这个过程中肯能还会存在其他的一些步骤,然而由于每个网站蜘蛛爬的频率和网站的权重不同(网站的重要性)而导致蜘蛛发现robots更改的时间延时或者被处理的优先性不同,最终导致的结果就是robots的生效时间不同。 通过以上分析我们可以得出robots的生效时间并不是一定的。

网站哪些文件是要被robots.txt屏蔽的?

下面举例列出来:

1、模板文件(/template/)可以屏蔽;

2、这个文件/uploads/一般放的是图片,可以屏蔽;

3、/data/系统数据文件,可以屏蔽;

5、/bin/系统文件可以屏蔽;

6、/install/安装文件可以屏蔽;

7、/member/有会员的可以屏蔽;

8、/logreport/有统计报告的可以屏蔽;

9、/bjk/有加密的文件,可以屏蔽;

10、/js/,/css/可以屏蔽,留着是为了让蜘蛛更好地了解网站结构,资源少的情况下,可以屏蔽。

11、网站地图,sitemap要记得放进去,不要屏蔽,让蜘蛛第一时间去看你的网站地图,更快了解网站链接结构!

注意事项:

1.基础语法中PS的点。

2.生效时间

robots是我们和搜索引擎之间的一个单方面的协议,不是我们今天写上,明天百度就会遵守。想让百度遵守是需要一个过程的,一般情况下是两个月。但是也不排除当天写,当天生效。所以在更改robots的时候,一定要小心小心再小心。一旦你的robots错了,对整个网站的影响是巨大的。

3.不要随便的屏蔽整站

4.为了网站安全,不要将后台文件路径写在robots.txt文件中。比如dede做的网站,一般后台地址是dede这路径,但千万不要将路径写在robots.txt中,以免被黑客攻击。上面说到的/data /bin /install 也不要写在robots.txt文件中。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

分类目录屋