1、使用文本浏览器来检查你的网页,看网页中重要的URL链接是否能够被文本浏览器抓取得到
常用的文本浏览器是lynx,大家可以在linux环境下安装它,它在浏览器你的网页时,几乎与搜索引擎蜘蛛看到的内容分歧,所以大家经常使用它来测试网页的可抓取性,假如你的页面中重要的链接使用了JS、AJAX等技术,lynx浏览器是看不到这些链接的,同样的搜索引擎也抓取不到这些链接。因此在网站上线前,可以先用文本浏览器检查一下主要的网页,看是否用了对搜索引擎不友好的技术
2、许可搜索引擎蜘蛛在不使用可跟踪其网站访问路径的会话 ID 或参数的情况下抓取您的网站
一些session id对于跟踪用户的访问行为来说是很有效的,但是对于搜索引擎来说,就不是好的作法了,假如使用了这些技术,你的网页可能被索引得不完整,由于搜索引擎程序还不能排除那一些从URL上看上来不同,但是网页内容却完全相同的网页。对于收录是不友好的。
3、确保您的网络服务器支持
假如你的服务器支持if-modified-since-HTTP标头的话,当搜索引擎蜘蛛程序抓取到你的网页的时候,会首先检查这个If-Modified-Since HTTP 标头值,通过这个值,搜索引擎爬虫程序可以判断出来你的网页自从它上次抓取后,是否有所变化,如果没有变化,它便可以不用下载相同的页面内容,节约蜘蛛资源,也节约你的服务器带宽,这样蜘蛛就可以抓取更多其他的页面。
4、设置合理的robots文件
每个网站最好都设置一个robots文件,如果你的网站没有任何内容不想被搜索引擎索引,那么可以建立一个空的以robots为命名的文件,上传到你网站的根目录下,通过robots文件,我们可以让搜索引擎抓取某些目录,而不抓取某些目录,例如一些模板文件,可以禁止搜索引擎抓取,一些后台登录文件,也可以利用robots文件加以禁止收录,在设置robots文件时,一定要小心,以制止把一些重要的文件给禁止了,我们可以使用谷歌网站治理员东西进行测试。
5、对网站进行新人容性测试,以确保在每个浏览器中都可以正确显示
我们在网站上线前,最好先做大量的浏览试验,确保网页内容可以正确的显示在所有的浏览器上边,例如IE的有一个IE东西测试,可以测试各个IE版本的显示效果,谷歌浏览器也有类似的插件,可以对浏览器的新人容性进行测试,等检测完都能正常显示时,再上线,在平时的维护中,也可以经常去测试页面显示的新人容性
6、经常使用一些前端测试东西来测试网页的性能
例如我们可以使用谷歌的page speed东西以及yahoo的yslow对网页进行性能的测试,这两个东西还可以指出你的网站中页面需要改进的地方,我们可以按照里边描述的步骤进行前端页面优化,例如启用GZIP、启用keep-alive、使用css sprites技术、合并JS与CSS等。
|