1. 概念:robots.txt是一个最简单的.txt文件,用以告诉搜索引擎哪些网页/文件夹可以收录,哪些不允许收录(可以爬行)。
提示:/admin/ 拒绝推荐
搜索引擎第一步看的就是网站的robots.txt
文件放在哪里:FTP服务器-网站根目录
穿插小疑问:网站收录特别差,为什么差?原因不明!
推荐解决方法:网站地图+robots.txt结合使用。
2. robots.txt 写法:
用户名:*
1)User-agent: * ——通配符(代表所有搜索引擎)
Disallow: / ——否定前缀
User-agent: *
Allow: /
2)User-agent:baiduspider ——蜘蛛名称(网站日志)
Disallow: /
User-agent: googlebot ——蜘蛛名称
Disallow: /
3)User-agent: * AB
Allow: /目录1/目录2.html(容许访问目录2中的网页)
Disallow: /目录1/
4)User-agent: * A邀请B来A家去玩
Disallow: /A/ 得罪B
Allow: /目录1/目录2.html(容许访问目录2中的网页)
Disallow: /?* 不要爬行以?开头的页面或者是文件夹
Disallow: /*?* 不要爬行网站内的动态页面
百度官方指南里面,已经说明了,动态和静态页面,都一样收录。
推荐格式:
User-agent: *
Disallow: /目录1/1.html
Disallow: /目录3/
Disallow: /目录5/
Sitemap: /sitemap.xml(推荐地图)
Sitemap: /sitemap.html(推荐地图)
再次提示:允许爬行什么,请一定要放在robots.txt 文件前面。
3. robots.txt 特点:
1)robots.txt文件因此纯文本格式存在的txt文件。
2)robots.txt必须放置在网站的根目录中。
如:http://www.domain.com/robots.txt
3)大小写形式。冒号后面需要有一个空格号。
4)不喜欢被收录什么,喜欢收录什么都可以通过这个推荐。
其他基础概念:
1、网站PV值 IP
PV:指的是用户到达你的网站,每次访问的页面数。
IP:独立访客数
2、搜索引擎跳出率
跳出率:用户来到你的网站,只浏览了一个页面就离开所占的比例。
思考:对网站排名的影响有哪些?快排技术的原理。
3、网站次导航在哪里?它有哪些作用?
思考:怎么合理地安排次导航,能最大帮助网站的排名?
呵呵
0 人
震惊
0 人
赞
0 人
鄙视
0 人
流泪
0 人