robots.txt文件常见问题:
robots.txt文件介绍robots.txt是网站主建立与搜索引擎之间沟通的一座桥梁。其文件常见问题很多,下面列举一些我们经常犯的一些错误:
1、robots.txt的位置应该放在那里?robots.txt文件应该放置在网站根目录下。当搜索引擎的蜘蛛程序访问一个网站(比如http://www.seo-hf.cn)时,首先会检查该网站中是否存在http://www.seo-hf.cn/robots.txt这个文件,如果找到这个文件,它就会根据这个文件的内容,来确定它即将要访问的范围。
2、我建立了robots.txt文件屏蔽了网页,为什么还会出现在搜索结果中呢?如果在robots.txt中屏蔽了该url路径,按常理来将是不会出现的搜索结果中的,但是很多情况下并不是这样,原因如下:
1.蜘蛛程序通过其他链接直接进入网站的内页,导致被爬取并收录;
2.robots.txt文件是后期修改,搜索结果还未进行更新;
3.…
以上经过一段时间的更新就会逐渐消失,如果被抓取的网页涉及到一些隐私,可以直接想相关搜索引擎反映。
3、robots.txt中的一些细节问题?文件中头字母大小写;
注意空格和“/”
4、robots.txt的一些操作事例a、禁止搜索搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
b、允许访问所有的内容
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
也可以建立一个空的robots.txt文件
c、仅仅允许google访问我的网站
User-agent: Googlebot
Disallow: /
User-agent: *
Disallow: /
d、禁止访问指定目录
User-agent: *
Disallow: /abc/
Disallow: /def/
Disallow: /ghp/
e、允许访问特定目录
User-agent: *
Allow: /abc/abc
Allow: /def/ef
Allow: /ghp/look
Disallow: /abc/
Disallow: /def/
Disallow: /ghp/
f、禁止访问/abc/目录下的所有以”.html”为后缀的URL(包含子目录)
User-agent: *
Disallow: /abc/*.html
g、仅允许访问以”.html”为后缀的URL
User-agent: *
Allow: .html$
Disallow: /
h、禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*
i、禁止抓取网站上所有图片
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
注意:如果还有其他格式,可以再进行添加Disallow: 如果允许抓取某一类型的图片,将“Disallow”修改为“Allow”即可。
注意以上格式中空格和“/”的使用
j、允许所有搜索引擎抓取,将自己的网站地图放进robots.txt文件
User-agent: *
Disallow:
Sitemap: http://www.seo-hf.cn/sitemap1.xml
robots.txt存在的问题比较多,大家有什么疑问也可以直接留言,方便进一步完善robots.txt文件常见问题。
CopyRight © 合肥SEO 2008包河区徽州大道银杏大厦1单元1002室 电话:86-0551-3429170 3414261
关于我们| 网站地图 | 联系方式
皖ICP备08104759号