网站后台里面的robots文件的作用是可以像搜索引擎反映哪些页面是我不想被收录的页面,一般来说网站或多或少都存在一些对排名没多大帮助反而还有害的页面。所以这个时候就需要用到robots文件。
一.robots的原理
robots文件的作用刚也说到了,一般搜索引擎蜘蛛会优先访问网站内部的robots文件,根据文件内设置的规则不再去抓取那些你像要屏蔽的网页网址。
二.robots的文件格式
1.Disallow:该项的值用于描述不希望被抓取的URL链接
2.Allow:该项的值用于描述希望被抓取的URL链接
3.User-agent:该项的值用于描述搜索引擎robot的名字
三.robots的文件存放位置
通常robots文件直接存放于网站ftp后台的根目录路径即可,一般搜索引擎蜘蛛优先发文的也是网站的根目录下的robots。
四.robots的文件格式
通常robots的文件格式用一般的txt文本格式即可,保存的字符编码为utf-8标准字符即可。
五.robots的通配符介绍
星号*,表示匹配0个或多个任意字符;美元符号$,表示行结束符;
注:404和503的区别,404表示页面丢失,503表示页面访问不了,503短期内,搜索引擎不会去抓取。