控制被索引的内容—使用robots.txt文件默认情况下,Drupal没有使用 通过添加这个文件到你的站点服务器(虚拟目录)根目录,你可以引导搜索引擎的“机器人(Robots)”遍历你的站点或者禁止索引站点的某些部分。一个例子,你可以访问 http://drupal.org/robots.txt 来查看drupal.org的robots.txt文件。 如果你想要使用robots.txt文件,请按照下面的指导,更多详细信息可以访问 http://www.robotstxt.org 用下面的内容创建一个新文件,取名为“robots.txt” # 小型 robots.txt # 关于此文件的更多信息可以在 http://www.robotstxt.org/wc/robots.html 找到 # 以井号(“#”)标记开始的行表示注释并可以被删除。 # 如果你的drupal站点在文档根目录下的某个子目录(如 /drupal) # 请在下面的路径前面添加子目录路径 # 要阻止某个特定机器人索引目录exampledir # 只要加入下面两行(删除#号) # user-agent: 特定机器人 # Disallow: /exampledir/ # 已知机器人列表可以在 http://www.robotstxt.org/wc/active/html/index.html 找到 # 可以访问 http://www.sxw.org.uk/computing/robots/check.html 进行语法检查 User-agent: * Crawl-Delay: 10 Disallow: /aggregator Disallow: /tracker Disallow: /comment/reply Disallow: /node/add Disallow: /user Disallow: /files Disallow: /search Disallow: /book/print 这个文件告诉索引机器人应该避免索引包含用户个人内容的页面,例如搜索页面,或者节点的“添加评论”表单。 很多机器人遵从“Crawl-Delay:”参数。如果Drupal站点在搜索引擎上很受欢迎,有更多的甚至超过访问者数量的机器人抓取你的站点而变得有攻击性,这种情况下最好减慢机器人的速度,在robots.txt添加如下的行: User-Agent: *这里的10是每个页面请求之间延迟的秒数。 不管是“Slurp”(yahoo和altaVista的索引机器人)还是MSN使用的微软机器人都遵从这个参数,Googlebot还没有使用“crawl-delay”参数,但是可能会在下个版本中实现。 按需要修改好这个文件并保存,然后上传到你的网站服务器,并确保文件在你的网站(虚拟目录)的根目录下。如果你已经把Drupal安装到了子目录中(比如 现在注意访问你站点的机器人,过一段时间后,查看你的日志文件(logs)("来源日志(referrer log)")可以看到有多少来自搜索引擎的访问者。 |
安装与配置用户登录导航水滴榜
新的论坛主题
新进会员
|
最新评论
16 分钟 39 秒 前
49 分钟 7 秒 前
55 分钟 55 秒 前
57 分钟 15 秒 前
59 分钟 56 秒 前
2 小时 6 分钟 前
2 小时 7 分钟 前
2 小时 10 分钟 前
2 小时 27 分钟 前
2 小时 54 分钟 前