robots文件的重要性

  • 首页 > 网站优化
  • 作者:海云工作室
  • 时间: 2016年11月13日 21:28
  • 字数:1194 个
  • 字号:
  • 评论: 0条
  • 浏览:166 次
  • 百度:百度未收录
  • 分类: 网站优化
  • 时间:2016-11-13 21:28  热度:166°  评论: 0 条 

    robots文件的重要性

     

    其实robots文件很重要,有很多站长都不太清楚,现在就说说robots的重要性!

    一、robots是什么?

    它是搜索引擎的机器协议。全称是“网络爬虫排除协议”。网站通过Robots协议来告诉搜索引擎,哪些页面可以抓取,哪些页面不能够抓取。

    是放在我们网站的根目录的文件,命名为:robots.txt

    二、robots都有哪些指令?

     分别为User-agent指令、Disallow指令、Allow指令。

    三、User-agent指令、Disallow指令、Allow指令的作用

    User-agent: 此指令定义了此指令下面的内容对哪些蜘蛛有效。默认所有蜘蛛都允许抓取,如果此指令指定了特定的蜘蛛,那么此指令下跟的内容就对特定蜘蛛有效。
    Disallow: 此指令定义了禁止蜘蛛抓取哪些因为,有些人可能认为,做网站当然都希望被抓取了。错,如果是后台或是隐私文件,相信谁都不愿意被抓取的。
    Allow: 此指令定义了允许蜘蛛抓些哪些内容,如果是某些内容允许,其它全部拒绝,则可以用这个指令,大多数网站只用到禁止指令。

    四、robots文件的如何去应用

    禁止所有搜索引擎抓取所有页面:
    User-agent: *
    Disallow: /
    这种情况一般用在新站建好还没正式上线,不希望蜘蛛抓取时。
    禁止百度蜘蛛抓取所有页面:
    User-agent: Baiduspider
    Disallow:  /
    淘宝就因为与百度的利益关系,从2008年就禁止百度抓取它所有页面了。
    仅允许百度蜘蛛抓取所有页面:
    User-agent: Baiduspider
    Allow:  /
    User-agent: *
    Disallow: /
    禁止所有蜘蛛抓取特定的目录和页面,允许其它所有:
    User-agent: *
    Disallow:  /sys-admin/
    Disallow:  /cloudblog.html
    Allow:  /
    仅允许蜘蛛抓取.html的页面与.jpg的图片:
    User-agent:*
    Allow: /*.html$
    Allow: /*.jpg$
    Disallow:/
    禁止所有动态的页面的抓取,允许其它:
    User-agent: *
    Disallow:  /*?*
    Allow:  /
    允许某个目录下某个目录被抓取,禁止其它
    User-agent: *
    Allow: /cloudblog/cloudblog/
    Disallow:/cloudblog/

     



    正文到此结束
    您阅读这篇文章共花了: 
    二维码加载中...
    版权声明:若无特殊注明,本文皆为《 海云工作室 》原创,转载请保留文章出处。
    本文链接: http://www.cloudblog.cc/post-53.html

    热门推荐

    看完文章就评论一下! 你还可以输入250 / 250 个字

    嘻嘻 大笑 可怜 吃惊 害羞 调皮 鄙视 示爱 大哭 开心 偷笑 嘘 奸笑 委屈 抱抱 愤怒 思考 日了狗


    既然没有吐槽,那就赶紧抢沙发吧!
    返回顶部    返回首页    手气不错    后花园   
    版权所有:海云博客    站点维护: 海云工作室   +主题模板:【PJAX 海云彩色主题】   粤ICP备16108538号-1     sitemap
    回到顶部 去留言 回到底部
    00:00 / 00:00
    顺序播放