苏苏网赚论坛

 找回密码
 立即注册
查看: 3343|回复: 0

解析网站日志文件

[复制链接]
跳转到指定楼层
楼主
发表于 2019-1-11 16:04:37 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
作为SEOer,我们使用的各类各样的工具,以收集林林总总的手艺问题,上网站剖析,抓取诊断,百度引擎站长对象等。所有这些工具是有用的,但都无法对比在网站日志数据说明SEO搜索引擎蜘蛛抓取,就像爬取您的网站并您的网站上留下了一个真实的记实。这是收集处事器日志。日志是一个强年夜的源数据经常没有获得充实操作,但有助于连结您的网站的搜索引擎抓取搜检的完整性。 服务器日志是由一个特定的服务器进行具体纪录了每一个动作。在一个Web服务器的情形下,你可以得到良多有用的信息。若何检索和分析日志文件,并按照您的服务器的响应代码(等)的识别问题。我将它分化成2个部门,每个部分凸起分歧的问题,可以发此刻您的Web服务器日志
一、获取日志文件
搜索引擎抓取网站信息必会在服务器上留下信息,这个信息就在网站日志文件里。我们经由过程日志可以体味搜索引擎的访谒情况,一般通过主机服务商开通日志功能,再通过FTP会见网站的根目录,在根目录下可以看到一个log或者件夹,这里面就是日志文件,我们把这个日志文件下载下来,用记事本浏览器开就可以看到网站日志的内容。那么到底这个日志里面潜匿了什么玄机呢?其实日志文件就像飞机上的黑匣子。我们可以通过这个日志熟悉许多信息,那么到底这个日志给我们传递了什么内容呢?下面先做一个简单的声名。
日期:这将让你一天搜索引擎抓取速度的成长趋向进行分析。
被爬取文件:这将告诉你哪些被抓取的目录和文件,并在某些路段或类型的内容可以辅佐查明问题。
状况码:(只列出常见到并能直接归正网站问题的状态码)
200状态码:请求已成功,请求所但愿的响应头或数据体将随此响应返回。
302状态码:请求的资本而今姑且从不同的URI响应请求。
404状态码:请求失踪败,请求所进展得到的资源未被在服务器上发现。
500状态码:服务器碰着了一个不曾预料的状况,导致了它无法完成对请求的措置。
- - 供给了哪些网页被爬虫运行到并反映出什么样的问题。
从哪里来:虽然这不必然是有用的分析搜索机械人,它长短常有价值的,其他的流量分析。
哪种爬虫:这个会告诉你哪个搜索引擎爬虫在你的网页上运行的。
二、解析网站日志文件
目前你需要一个日志分析工具,因为若是你的网站有几M或几十M甚至百M以上的日志数据时,你不成能一条条去看。再说,就算日志数据不多,一条条看也是不科学的。这里用光年seo日志分析工具为巨匠做个例子。
1.导入文件到您解析软件。
热帖推荐
回复

使用道具 举报

广告合作|最大的网赚客中文交流社区!十年老站!

GMT+8, 2024-5-10 21:06 , Processed in 0.062400 second(s), 23 queries , Gzip On.

Powered by Discuz! X3.1 VIP版

© 2012-2022 苏苏网赚论坛 版权所有 | 10年老品牌

快速回复 返回顶部 返回列表