NEWS
深圳外贸建站知识【Google算法:页面质量大于页面数量】 GooglePageRank是基于大数据智能算法,它们往往缺乏人类自带的技能:常识。 众所周知,在多个页面上放置相同的内容会产生重复的内容。但是如果你创建关于类似产品的页面会有什么影响呢?算法会将它们标记为重复,但其实他们完全是不相同的两个产品。比如: ......外贸英文网站建设报价www.appwebui.com三行网络公司为您详细介绍 - 请往下阅读》
GooglePageRank是基于大数据智能算法,它们往往缺乏人类自带的技能:常识。
众所周知,在多个页面上放置相同的内容会产生重复的内容。但是如果你创建关于类似产品的页面会有什么影响呢?算法会将它们标记为重复,但其实他们完全是不相同的两个产品。比如:
电子商务:具有多种型号或关键差异的类似产品
旅游:酒店的分店,目的地套餐,内容相似
分类:相同项目的详尽列表
业务:本地分支机构的页面,在不同地区提供相同的服务
一、重复内容很危险
网站会出现以下情况:
丢失竞争相同关键字的唯一网页的排名
无法对群集中的网页进行排名,因为Google选择了一个网页作为规范
大量精简内容丢失了网站权限
二、机器如何识别重复内容
Google使用算法来确定两个页面或部分页面是否是重复内容,而Google将其定义为“明显相似”的内容。
谷歌的相似性检测基于他们的专利Simhash算法,该算法可以分析网页上的内容块。然后,它为每个块计算唯一标识符,并为每个页面组成一个散列或“指纹”。
由于网页数量巨大,因此可扩展性至关重要。目前,Simhash是大规模查找重复内容的唯一可行方法。
Simhash指纹:
计算成本低廉,它们是在页面的单个爬网中建立的。
固定长度,易于比较。
能够找到近乎重复的东西,与许多其他算法不同,它们将页面上的微小变化等同于散列中的微小变化。
这意味着任何两个指纹之间的差异可以通过算法测量并显示为百分比。为了降低评估每一页网页的成本,Google采用了以下技术:
聚类:通过将多组足够相似的页面分组在一起,只需要比较聚类中的指纹,因为其他所有指针都已被分类为不同。
估计:对于异常大的聚类,在计算一定数量的指纹对之后应用平均相似性。
匠心打造精品,用心成就经典!携手客户共创双赢!© Copyright 2008-2019 广州三行网络科技有限公司粤ICP备案号:09210325