robots.txt文件怎么写
1、先来看一下dz论坛默认的写法# # robots.txt for 曳舞门http://www.cnshuffle.com # User-锾攒揉敫agent: * Disallow: /api/ Disallow: /data/ Disallow: /source/ Disallow: /install/ Disallow: /template/ Disallow: /config/ Disallow: /uc_client/ Disallow: /uc_server/ Disallow: /static/ Disallow: /admin.php Disallow: /search.php Disallow: /member.php Disallow: /api.php Disallow: /misc.php Disallow: /connect.php Disallow: /forum.php?mod=redirect* Disallow: /forum.php?mod=post* Disallow: /home.php?mod=spacecp* Disallow: /userapp.php?mod=app&* Disallow: /*?mod=misc* Disallow: /*?mod=attachment* Disallow: /*mobile=yes* Sitemap: http://www.cnshuffle.com/sitemap.xml
2、我们可以建立一个空白的文本文档,命名为robots.txt放在网站的根目录下即可。robots.txt写法如下:User-agent: *Disallow:或者User-agent: *Allow: /
3、如果我们需要某一个搜索引擎的抓取的话,比如百度,禁止百度索引我们的网站的话robots.txt写法如下:User-agent: BaiduspiderDisallow: /如果我们禁止Google索引我们的网站的话,其实跟示例3一样,就是User-agent:头文件的蜘蛛名字改成谷歌的Googlebot即可robots.txt写法如下:User-agent: GooglebotDisallow: /
4、如果我们需要禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引的话robots.txt写法如下:User-agent: *Disallow: /css/Disallow: /admin/Disallow: /images/
5、如果我们允许蜘蛛访问我们网站的某个目录中的某些特定网址的话robots.txt写法如下:User-agent: *Allow: /css/myAllow: /admin/htmlAllow: /images/indexDisallow: /css/Disallow: /admin/Disallow: /images/
6、我们看某些网站的robots.txt里的Disallow或者Allow里会看很多的符号,比如问号星号什么的,如果使用“*”,主要是限制访问某个后缀的域名,禁止访问/html/目录下的所有以".htm"为后缀的URL(包含子目录)。robots.txt写法如下:User-agent: *Disallow: /html/*.htm
7、如果我们使用“$”的话是仅允许访问某目录下某个后缀的文件robots.txt写法如下:User-agent: *Allow: .asp$Disallow: /
8、如果我们禁止Google搜索引擎抓取我们网站上的所有图片(如果你的网站使用其他后缀的图片名称,在这里也可以直接添加)robots.txt写法如下:User-agent: GooglebotDisallow: .jpg$Disallow: .jpeg$Disallow: .gif$Disallow: .png$Disallow: .bmp$