做网站要到通信管理局备案,可用来制作网页的软件有,网站响应度,国外金融网站设计欣赏什么是robots.txt文件?搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时#xff0c;会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。您可以在您的网站中创建一个纯文本文件robots.txt#xff0c;在文件中声明该网站… 什么是robots.txt文件?搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。您可以在您的网站中创建一个纯文本文件robots.txt在文件中声明该网站中不想被robot访问的部分或者指定搜索引擎只收录特定的部分。 请注意仅当您的网站包含不希望被搜索引擎收录的内容时才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容请勿建立robots.txt文件或者创建一个内容为空的robots.txt文件。robots.txt文件放在哪里?robots.txt文件应该放在网站根目录下。举例来说当spider访问一个网站比如http://www.abc.com时首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件如果机器人找到这个文件它就会根据这个文件的内容来确定它访问权限的范围。 网站 URL 相应的 robots.txt的 URLhttp://www.w3.org/ http://www.w3.org/robots.txthttp://www.w3.org:80/ http://www.w3.org:80/robots.txthttp://www.w3.org:1234/ http://www.w3.org:1234/robots.txthttp://w3.org/ http://w3.org/robots.txt 我放置或者刚刚修改了robots.txt的内容大约多长时间能生效baiduspider通常每天访问一次网站的robots.txt文件您对robots所做的修改会在48小时内生效。需要注意的是robots.txt禁止收录以前百度已收录的内容从搜索结果中去除可能需要数月的时间。 我在robots.txt中设置了禁止百度收录我网站的内容为何还出现在百度搜索结果中如果其他网站链接了您robots.txt文件中设置的禁止收录的网页那么这些网页仍然可能会出现在百度的搜索结果中但您的网页上的内容不会被抓取、建入索引和显示百度搜索结果中展示的仅是其他网站对您相关网页的描述。 禁止搜索引擎在搜索结果中显示网页快照而只对网页建索引百度支持通过设置网页的meta防止搜索引擎显示网站的快照。方法如下要防止所有搜索引擎显示您网站的快照请将此元标记置入网页的 部分 要允许其他搜索引擎显示快照但仅防止百度显示请使用以下标记 注此标记只是禁止百度显示该网页的快照百度会继续为网页建索引并在搜索结果中显示网页摘要. robots.txt文件的格式“robots.txt”文件包含一条或更多的记录这些记录通过空行分开以CR,CR/NL, or NL作为结束符每一条记录的格式如下所示“: “。 在该文件中可以使用#进行注解具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始后面加上若干Disallow和Allow行,详细情况如下 User-agent: 该项的值用于描述搜索引擎robot的名字。在”robots.txt”文件中如果有多条User-agent记录说明有多个robot会受到”robots.txt”的限制对该文件来说至少要有一条User-agent记录。如果该项的值设为*则对任何robot均有效在”robots.txt”文件中”User-agent:*”这样的记录只能有一条。如果在”robots.txt”文件中加入”User-agent:SomeBot”和若干Disallow、Allow行那么名为”SomeBot”只受到”User-agent:SomeBot”后面的Disallow和Allow行的限制。 Disallow: 该项的值用于描述不希望被访问的一组URL这个值可以是一条完整的路径也可以是路径的非空前缀以Disallow项的值开头的URL不会被robot访问。例如”Disallow:/help”禁止robot访问/help.html、/helpabc.html、/help/index.html而”Disallow:/help/”则允许robot访问/help.html、/helpabc.html不能访问/help/index.html。”Disallow:”说明允许robot访问该网站的所有url在”/robots.txt”文件中至少要有一条Disallow记录。如果”/robots.txt”不存在或者为空文件则对于所有的搜索引擎robot该网站都是开放的。 Allow: 该项的值用于描述希望被访问的一组URL与Disallow项相似这个值可以是一条完整的路径也可以是路径的前缀以Allow项的值开头的URL是允许robot访问的。例如”Allow:/hibaidu”允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的所以Allow通常与Disallow搭配使用实现允许访问一部分网页同时禁止访问其它所有URL的功能。 需要特别注意的是Disallow与Allow行的顺序是有意义的robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。 使用”*”和”$”baiduspider支持使用通配符”*”和”$”来模糊匹配url。 “$” 匹配行结束符。 “*” 匹配0或多个任意字符。 URL匹配举例Allow或Disallow的值 URL 匹配结果/tmp /tmp yes/tmp /tmp.html yes/tmp /tmp/a.html yes/tmp/ /tmp no/tmp/ /tmphoho no/tmp/ /tmp/a.html yes /Hello* /Hello.html yes/He*lo /Hello,lolo yes/Heap*lo /Hello,lolo nohtml$ /tmpa.html yes/a.html$ /a.html yes htm$ /a.html no