苏苏网赚论坛

 找回密码
 立即注册
查看: 1068|回复: 0

对上网站日志文件剖析:蜘蛛的工作行为

[复制链接]
跳转到指定楼层
楼主
发表于 2019-1-13 22:56:17 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
经由过水平析上网站日志Log文件我们可以看到用户和SEO搜索引擎蜘蛛访谒网站的行为数据,这些数据能让我们说明出用户和蜘蛛对网站的偏好以及网站的健康情形。在网站日志剖析中,我们首要需要分析的是蜘蛛行为。 在蜘蛛爬取及收录过程中,搜索引擎会给特定权重网站分配响应的资本量。一个搜索引擎友好型的网站应该充实操作这些资源,让蜘蛛可以迅速、切确、周全的爬取有价值、用户喜欢的内容,而不华侈资源在无用的、会见异常的内容上。
但因为网站日志中数据量过年夜,所以我们一般需要借助网站日志分析工具来查看。常用的日志分析对象有:光年日志分析工具、web log
在分析日志时,对于单日日志文件我们需要分析的内容有:接见次数、勾留时刻、抓取量、目录抓取统计、页面抓取统计、蜘蛛访问IP、状况码、蜘蛛活跃时段、蜘蛛爬取路径等对于多日日志文件我们需要分析的内容有:蜘蛛访问次数趋向、停留时间趋势、整体抓取趋势、各目录抓取趋势、抓取时间段、蜘蛛活跃周期等。
下面我们来看看网站日志若何分析?
网站日志数据分析解读:
1、访问次数、停留时间、抓取量
从这三项数据中我们可以得知:平均每次抓取页面数、单页抓取停留时间和平均每次停留时间。
平均每次抓取页面数=总抓取量/访问次数
单页抓取停留=每次停留/每次抓取
平均每次停留时间=总停留时间/访问次数
从这些数据我们可以看出蜘蛛的活跃程度、亲和程度、抓取深度等,总访问次数、停留时间、抓取量越高、平均抓取页面、平均停留时间,剖明网站越受搜索引擎喜欢。而单页抓取停留时间批注网站页面访问速度,时间越长,诠释网站访问速度越慢,对搜索引擎抓取收录较晦气,我们应尽量提高网页加载速度,削减单而立停留时间,让爬虫资源更多的去抓取收录。
此外,按照这些数据我们还可以统计出一段时间内,网站的整体趋势默示,如:蜘蛛访问次数趋势、停留时间趋势、抓取趋势。
2、目录抓取统计
通过日志分析我们可以看到网站哪些目录受蜘蛛喜欢、抓取目录深度、主要页脸孔录抓取状况、无效页面目录抓取状况等。通过对比目录下页面抓取及收录情况,我们可以发现更多问题。对于重要目录,我们需要通过内外调整增添权重及爬取对于无效页面,在进行屏障。
另外,通过多日日志统计,我们可以看到站内外行为给目录带来的下场,优化是否合理,是否达到了预期效果。对于统一目录,以持久时间段来看,我们可以看到该目录下页面浮现,凭证行为猜测施展阐发的原因等。
3、页面抓取
在网站日志分析中,我们可以看到具体被蜘蛛爬取的页面。在这些页面中,我们可以分析出蜘蛛爬取了哪些需要被禁止爬取的页面、爬取了哪些无收录价值页面、爬取了哪些一再页面url等,为丰裕哄骗蜘蛛资源我们需要将这些地址在禁止爬取。
另外,我们还可以分析未收录页面原因,对于新文章,是因为没有被爬取到而未收录抑或爬取了但未放出。对于某些阅读意义不大的页面,可能我们需要它作为爬取通道,对于这些页面,我们是否应该做签等。但从另一方面讲,蜘蛛会弱智到靠这些无意义的通道页爬取页面吗,蜘蛛不懂
4、蜘蛛访问IP
曾经有人提出过通过蜘蛛的ip段来判定网站的降权情况,笨鸟感受这个意义不大,因为这个后知性太强了。而且降权更多应该畴前三项数据来判断,用单单一个ip段来判断意义不大。IP分析的更多用途应该是判断是否存在采集蜘蛛、假蜘蛛、恶意点击蜘蛛等。
5、访问状态码
蜘蛛经常呈现的状态码如等,泛起这些状态码要实时措置,以避免对网站造成坏的影响。
6、抓取时间段
通过分析对比多个单日蜘蛛小时爬取量,我们可以体味到特定蜘蛛对于本网站在特按时间的活跃时段。通过对比周数据,我们可以看到特定蜘蛛在一周中的活跃周期。熟悉这个,对于网站内容更新时间有必然指导意义,而之前所谓小三大四等均为不科学说法。
热帖推荐
回复

使用道具 举报

广告合作|最大的网赚客中文交流社区!十年老站!

GMT+8, 2024-4-28 20:31 , Processed in 3.088805 second(s), 23 queries , Gzip On.

Powered by Discuz! X3.1 VIP版

© 2012-2022 苏苏网赚论坛 版权所有 | 10年老品牌

快速回复 返回顶部 返回列表