【robots.txt】蜘蛛协议写法
1、User—Agent: 定义搜索引擎类型(定义robots对哪个搜索引擎生效)
2、User—Agent:BaiduSpider (定义该协议只对百度搜索引擎生效)
User—Agent:*(定义该协议协议对所有搜索引擎生效)
3、Disallow: 定义搜索引擎禁止抓取收录地址
4、Disallow:/ (代表着整站禁止搜索引擎抓取,/代表着网站根目录),如果前期做了整站禁止搜索引擎抓取,后期蜘蛛将很长一段时间不会来网站进行抓取内容。
Disallow:/ data/ (代表着禁止蜘蛛抓取data目录后所有的页面)
Disallow:/d (代表着data文件后边的网页被屏蔽)
5、原因:/d和路径中出现的目录词是相匹配的的,所以都会被屏蔽掉
Disallow:/*?* 屏蔽所有动态路径(动态链接中存在着?符号匹配)
Disallow:/ *.js$ (屏蔽所有js文件)
6、Allow: 定义允许抓取收录地址
Allow:/seojishu/ (代表着seojishu文件允许被抓取)
7、Disallow:/ a/ 导致全站会被屏蔽,因为Disallow:/后边出现空格,建议写完robots在百度站长工具中效验一下是否有误。
声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
阅读量:28
阅读量:132
阅读量:42
阅读量:170
阅读量:122