怎样制作网站Robots.txt文件

2025-05-24 21:43:49

1、一、什么是Robots文件。Robots.txt文件是我们用来规范搜索引擎蜘蛛在索引网站时的索引范围，可以防止搜索引擎索引我们网站的私密文件。注意事项：1）必须放在根目录下。2）文件名必须全部小写。3）如果允许全部抓取，也需要建立一个空的Robots.txt文件。4） Robots.txt禁止的文件仍然有可能出现在搜索结果中。如需完全禁止需要用Meta Robots属性。5） Robots只是一种规则，需要搜索引擎的配合。如若搜索引擎不遵守则无意义。

2、二、Robots.txt文件的语法规则。Robots.txt中的记录是以空行来分开的，每行的格式：“<稆糨孝汶;field>:<optionalspace><value><optionalspace>"，<field>表示定义域，<optionalspace>表示开放空格，<value>表示定义域值。<field>定义域有三种：1）User-agent该项定义域用来描述搜索引擎名称。常见搜索引擎名称：Baiduspider 百度Scooter Vistaia_archiver AlexaGooglebot 谷歌FAST-WebCrawler FastMSNBOT Msn2）Disallow该项定义域用来描述希望不被索引的URL路径。3）Allow该项定义域用来描述可以被索引的URL路径（由于缺省值是允许索引所以该项定义域会很少使用到）。Disallow与Allow这两定义域的域值可以是一条完整路径也可以是路径的非空前缀。

3、三、robots.txt文件具体写法。robots.txt文件包含2个域，“User-agent:”和“Disallow:”，每条指令独立一行。(1)User-agent:指定允许哪些蜘蛛抓取，如果给出参数，则只有指定的蜘蛛能够抓取；如值为通配符“*”号，代表允许所有蜘蛛抓取。如：User-agent: Googlebot只允许Google的蜘蛛抓取；User-agent: *允许所有蜘蛛抓取。注意：User-agent必须出现在第一行（有意义的行，注释除外），首先声明用户代理。(2)Disallow:指定禁止蜘蛛抓取的目录或文件，如：Disallow: /help.php禁止抓取根目录下help.php文件；Disallow: /admin/禁止抓取根目录下的admin子目录中任何内容；Disallow:值为空时，表示不限制，蜘蛛可以抓取站内任何内容。如果需要指定多个目录或文件，可以用多个“Disallow: 文件或目录名”来指定，但必须每一项单独一行（例如google的robots.txt就很夸张）。

4、四、Robots.txt文件的具体实例用法。例1. 禁止所有搜索引擎访问网站的任何部分User-agent: * Disallow: /例2. 允许所有的robot访问网站的任何部分User-agent: * Disallow:例3. 仅禁止Baiduspider访问您的网站User-agent: Baiduspider Disallow: /例4. 仅允许Baiduspider访问您的网站User-agent: www.gzlij.com Disallow: User-agent: * Disallow: /例5. 禁止spider访问特定目录User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /data/

声明：本网站引用、摘录或转载内容仅供网站访问者交流或参考，不代表本站立场，如存在版权或非法内容，请联系站长删除，联系邮箱：site.kefu@qq.com。