运营推广

首页 > 新闻资讯  > 运营推广
浅谈搜索引擎如何确定网页的相关性
2016-05-13 14:21:14
来源:九河网络
摘要:搜索引擎判断一个页面的价值主要通过两方面来考虑:权威性和相关性。权威性主要体现在网页被推荐的次数,也就是我们平常经常说的反向链接;相关性则更多体现在一个网页的内容本身。
浅谈搜索引擎如何确定网页的相关性

搜索引擎判断一个页面的价值主要通过两方面来考虑:权威性和相关性。权威性主要体现在网页被推荐的次数,也就是我们平常经常说的反向链 接;相关性则更多体现在一个网页的内容本身。搜索引擎本身就是一个非常复杂的系统,我们可以简单的把搜索引擎理解为一台机器,搜索引擎最擅长的就是计算。 同样的,网页的相关性也是通过一系列计算得出来的,其主要的通过TF-IDF计算模型得到。

基于这个模型有两个约定的条件:

1.一个词预测主题能力越强,权重就越大,反之,权重就越小。

2.停止词的权重为零。

缺点是:查询的数据非常不准确,只能查询到非常少量的数据,可供分析。

方法二:通过国外工具查询竞争对手外链

通过这两个条件,我们可以发现,一个词蕴含的信息越多,这个词的价值也就越大。从词性来说,名词的价值是最高的,而那些形容词、叹词、副词的价值相对来说就低了很多。因此,搜索引擎在计算网页相关性的时候会把名词赋予更高的权重,其他词赋予更低的权重。

比如在一篇介绍"搜索引擎的原理"的网页中有1000个词,"搜索引擎"这个词出现了3次,"的"出现了20次,"原理"出现了10 次。由于"搜索引擎"这个词的预测主题能力是最强的,在这里假设其权重为0.005;"的"作为停止词的权重为0;"原理"在很多网页都出现,其预测主题 的能力相对较弱,其权重假设为0.00015。因此,在这篇文章中,"搜索引擎"的权重为:0.005*3=0.015,"的"权重为:0;"原理"权重 为:10*0.0005=0.0015。

除了这种假设外,我们还可以从整个互联网的页面本身考虑。我们假设整个中文的网页文档总数量D有10亿个,"搜索引擎"D(1) 出现在200万个文档中;"的"D(2)出现在10亿个文档中,"原理"D(3)出现在5亿个文档中。一个关键词在越多页面出现,其价值就越低。在这里, 搜索引擎一般用IDF(逆文本频率指数)计算各个词汇的权重,IDF=(D/Dw)

"搜索引擎"的IDF(D1)=LOG(500)=6.2;"的"的IDF(D2)=LOG(1)=0;"原理"的IDF=LOG(2)=0.7。这个结果再与词频相乘就能得到某一个网页的关于某个关键词的相关性,在这里就不再多说了。

搜索引擎不是人,一切的排名或者展现都是其计算的结果,网站的相关与否,我们一眼就能看透,而搜索引擎却需要通过大量的迭代计算才能得到这个结果,我们SEOER能做的就是尽量挖掘搜索引擎技术原理,从而能搜索引擎处获得更多的免费流量。

九河网络为您的网站提供全球顶级IDC资源
在线咨询