如何巧妙处理网站内容重复的问题

zxseven · 发表于 2018-11-8 17:37:54

在一般情况下，除了会增加搜索引擎的抓取和索引内容的难度以外，你的网站上存在重复内容并不构成问题。此外，通过导入链接而得到的PageRank以及类似信息可能会在我们尚未确定为重复内容的网页间扩散，导致你的首选网页在谷歌中的排名降低。处理你的网站内部重复内容的步骤:
第一步：识别你网站上的重复内容，也是处理重复内容的最重要的一步。使用一种简单的方法可以实现这个目的，即从网页中选取一段独特的文本代码，然后搜索这段文本，并使用谷歌的site:query将搜索结果限制为自己网站上的网页。如此以来，搜索出的含有同样内容的多个结果就是你需要处理的重复内容。
第二步：确定你需要的首选URL网址。在处理重复内容之前，必须确保你的首选URL网址结构。对于这段内容，你希望使用哪一个URL网址。
第三步：保持网站内部的统一性。选择首选网址之后，确保在你的网站内所有可能的位置上使用他们（包括你的Sitemap文件）。
第四步：尽可能使用301永久重定向。可能的话，可以使用301代码将重复网址重新定向为你选择的网址。此举能够帮助用户和搜索引擎在访问重复URL网址时找到你的首选URL网址。如果你的网站有数个域名，可选择一个域名，使用将其他域名301重定向到这个域名，同时还要确保其转向正确的特定网页，而不仅是域根目录。如果网站同时支持www和非www主机名，可选择其中一种，使用Google网站站长工具中的首选域设置，再进行适当的重定向。
第五步：尽量在网页上使用rel="canonical"。在无法使用301重定向的情况下，可以使用rel="canonical"，以方便搜索引擎更好地理解你的网站和首选URL网址。Ask.com、Bing和Yahoo!等主要搜索引擎都支持这种链接标签的使用。
第六步：尽量在Google网站站长工具中使用URL参数处理工具。如果部分或全部网站重复内容来自带有查询参数的URL网址，则此工具将帮助你将URL内的重要参数和不相关参数通知我们。有关此工具的详细信息可参见我们的博客声明。
怎样处理robots.txt文件？
使用robots.txt文件来禁止对重复内容进行抓取不在我们推荐的方法之内。我们建议你不要使用robots.txt文件或其他方式来禁止对你网站上的重复内容的访问。你可以使用rel="canonical" 链接标签、URL参数处理工具或301重定向。如果完全阻止了对重复内容的访问，搜索引擎必须将这些URL作为独立的不同网页处理，因为它们无法分辨出这些URL其实只是指向相同内容的不同网址。更好的解决方法是允许对其进行抓取，同时用我们推荐的方法将这些URL网址明确标记为重复内容。如果你允许我们访问这些URL网址，Google抓取机器人将学会通过查看URL确定其是否为重复内容，在各种情况下都能很好地避免不必要的重复爬行抓取。为了防止重复内容仍然引导我们过多地爬行搜索你的网站，你还可以调整Google网站站长工具里的抓取速度。

		自动登录	找回密码
密码			立即注册