请选择 进入手机版 | 继续访问电脑版

苏苏网赚论坛

 找回密码
 立即注册
查看: 3129|回复: 0

URL的准确性与网站的抓取速度息息相关

[复制链接]
发表于 2018-12-17 12:35:55 | 显示全部楼层 |阅读模式
URL的准确性与网站的抓取速度息息相关

我们知道网络世界越来越庞大,内容的产生几乎可以说是无穷无尽的,这对于资源有限的搜索引擎而言,它们可以做的只能是尽可能快地收录新内容,所以说,网络中新内容的产生被抓取收录的内容。而url跟搜索引擎的关系,举个形象的例子,就好像你的地址跟速递员之间的关系,一个准确的以及便于查找的地址,将很大程度上提高速递员的投递。

  一:url的重复性。

  请不要忽略这一点,要讲的内容可能跟你想象中的不一样。我们假设有以下两个url

  这两个页面产生的内容是一样的,前者可能是伪静态,也可能是真实的静态页面,但似乎前者比后者更好。但事实并非如此,首页,这两个url的格式都是容易被抓取和收录的,我们很多时候之所以不用?这种动态的引入方式,就是为了避免可能产生的大量重复内容。但是前者这种模式同样可能产生大量的重复内容,比如搜索引擎可能会误以为这个888只是一个sessionid,在无法做到准确判断的情况下,前者这种模式的优势并不明显。

  可能有些人不太明白这段话了,首先要把url和内容分开来,在理解上述话的时候,我们先简单说下搜索引擎对于重复性内容的判断:搜索引擎本身有个强大的数据库存放已经抓取进来的内容,判断一个内容是否有相似的,最佳做法是把即将抓取的内容跟数据库已有的内容做比较,但通过阅读《google网站质量指南》,我们发现这是个理解误区,反过来想下,这种在抓取的时候就进行内容对比的技术手段可行性也并不强,因为内容太庞大了。所以搜索引擎对抓取的url分析就相当重视,我们要让搜索引擎认为我们的url对应的内容在站内是不重复的,最佳的做法当然还是静态化url,让搜索引擎认为网站本身的确有很多不同的内容,针对这种情况,最佳的url写法应该是:

  归根结底,就是保证url的唯一性以及不和其他一些情况混淆掉。

  二:“无限空间”(无限循环)

  现在绝大多数博客上都会有一个日历控件,就是不管你点击哪个时间段,都会出现一个页面,既然找不到对应的内容,但产生的url都是唯一的,这样一来,就形成无限空间的概念了,因为时间是无止境的,所以产生的页面也是无穷的,对于搜索引擎而言,这个是非常不友好的。

  三:层级要符合逻辑。

  如果说搜索引擎今天只能抓取其中一个的话,那从优先级上出发,它是先抓取第1个,那么这时又产生一个误区,如果我把页面都放在根目录下,就不存在层次的优先级了,如果层次优先级没区别,搜索引擎会进行同目录下的url的优化比较,这也是为什么收录的时候会先抓取网站首页。所以最好的方式就是按照业务逻辑来建立子目录,内容跟内容之间的从属关系是怎么样的,在url就用层次优化级方式来规划。

  四:重复内容的处理。

  上图是我从某知名网购平台上搜索笔记本时出来的筛选条件,我们做个数据分析,在这个页面中,品牌为16个,价格条件为5个,处理器为8个,屏幕尺寸为8个,硬盘容易条件为6,内存为6个,硬盘为6个,显卡条件为6个,那么最多产生的搜索条件结果有:

  而我们看上图显示的产品为2471个,所以显然重复性的内容是非常多的,这里举的例子还不是非常庞大的数据,有些网站可以组合成几亿甚至几百亿的页面出来。有兴趣的朋友可以看下我之前写的asp等动态语言网站在做seo时,站内搜索应该注意的问题本文由:橡胶止水带http://www.hsguangfa.com/负责整理,转载请注明,谢谢。
热帖推荐
回复

使用道具 举报

广告合作|最大的网赚客中文交流社区!十年老站!

GMT+8, 2024-3-29 09:50 , Processed in 0.093600 second(s), 23 queries , Gzip On.

Powered by Discuz! X3.1 VIP版

© 2012-2022 苏苏网赚论坛 版权所有 | 10年老品牌

快速回复 返回顶部 返回列表