苏苏网赚论坛

 找回密码
 立即注册
查看: 4438|回复: 0

wordpress网站的robots文件怎么写

[复制链接]
跳转到指定楼层
楼主
发表于 2018-5-30 14:24:01 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
robots协议是搜索引擎蜘蛛访问网站的时候要查看的第一个文件,它告诉蜘蛛该网站哪个页面可以爬取,哪个页面不必抓取。当你的网站写有robots协议,蜘蛛就会按照协议里的内容来确定抓取的范围,如果没有,则你网站的所有页面都会被蜘蛛抓取,收录就会显得乱七八糟,那么robots文件该怎么写呢?

wordpress通常都有默认的robots文件,但是非常的简单,是不能够满足网站SEO优化的,所有SEOer通常都是自己写 robots文件。以下列举一些比较常用的写法:
User-agent: *   指定所有的搜索引擎蜘蛛,如果只想让百度蜘蛛抓取,则把 *换成 Baiduspider
Disallow: /wp-admin          禁止收录登录页面
Disallow: /wp-includes/     这2项是WordPress自动生成的,不要删除
Disallow: /wp-content/plugins    禁止收录插件目录
Disallow: /wp-content/themes    禁止收录模板目录
Disallow: /wp-login        禁止收录注册表页面
Disallow: /feed
Disallow: /articles/*/feed       这2项是禁止收录内容重复的feed源
Disallow: /page/      禁止收录翻页的页面
Disallow: /*?replytocom=     禁止收录评论内容
Disallow: /trackback       禁止收录trackback,如果关闭了此功能可以删掉
Disallow: /wp-content/uploads     看个人喜好,如果希望网站的图片被收录,则可以去掉这条
Disallow: /tag/     禁止收录tag标签页
Disallow: /date/
Disallow: /author        这2项禁止收录文档归类页面
Disallow: /category/     用于禁止收录文章目录,因为此页面都是无意义的文章列表
Sitemap: http://www.machaojin.com/sitemap_baidu.xml       引导搜索引擎找到网站地图
就简单列举这些吧, robots协议是根据个人的要求自己写的,并不是每个网站都一样。一般来说个人配置都是一个协议允许所有爬虫(即第一项的 User-agent: * 星号代表所有爬虫),接着就开始部署不希望抓取的目录,最后再指明自己的网站地图, 写好后保存为 robots.txt文件,上传到网站根目录即可。
上传好后,可以到站长平台检测一下是否配置成功

下面是马超金博客的robots文件,比较简单,感觉博客内容不多,所以那些标签,图片,栏目页面都没有禁止抓取。
回复

使用道具 举报

广告合作|最大的网赚客中文交流社区!十年老站!

GMT+8, 2024-4-27 10:58 , Processed in 0.124800 second(s), 21 queries , Gzip On.

Powered by Discuz! X3.1 VIP版

© 2012-2022 苏苏网赚论坛 版权所有 | 10年老品牌

快速回复 返回顶部 返回列表