WinHTTP.com
  搜索资讯   娱乐休闲   生活服务
  电脑网络   教育就业   综合行业

谈比较两篇文章相识度的i—match算法

文章整理日期:5月12日


(WinHTTP.com搜索资讯)我们在比较两件事物的相似性时,往往都会拿能均衡的反应这事物本质的东西来比较,就像比赛时,要去除一个最高分和最低分,然后再变算总分一样~~

i—match算法基于的依据是,在文挡中,特别高频的词和特别低频的词无法反应这一个文挡的真实内容,所以在比较之前,先将文挡中高频词和低频词去掉(注意:这里的高频和低频指的是文档频率,并非关键词在你网页中的密度!)

我们来看一个例子:

这里有两段网页文字:

1.中国足球队在米卢的率领下首次获得世界杯决赛阶段的比赛资格,新浪体育播报 。

2.米卢率领中国足球队员首次杀入世界杯决赛阶段,搜狐体育播报。(嘿嘿,看到这两句很熟吧?)

文档(一)中去掉高频:中国,在,的,获得,比赛,资格,新浪,体育,播报

去掉低频:米卢

则剩下中频词有:足球队,率领,首次,世界杯,决赛,阶段

文档(二)中去掉高频:中国,搜狐,体育,播报

去掉低频:米卢,杀入

则剩下中频词有:率领,足球队,首次,世界杯,决赛 ,阶段

看到了吧?剩下的,两者是一模一样 这就是相似性的存在

呵呵,其实这个例子很早就有过的。。

综上所述:搜索引擎要检测相似性,主要就是要分词和词频的比较!!

不知道大家是否都清楚了?呵呵,下次再讲一个经典算法:shingle算法。


网站更换域名的最佳方法 (2008年5月12日 )
谷歌地位超然 掌握雅虎生杀大权 (2008年5月12日 )
谷歌公关部门副总裁跳槽facebook (2008年5月12日 )
莫天全和搜房的成功密码 (2008年5月13日 )
搜狐能“牛”多久 (2008年5月13日 )

目前比较流行的添加单向链接的方法 (2008年5月12日 )
百度新站收录十五天实战心得 (2008年5月12日 )
解决网站改版对百度收录的影响 (2008年5月11日 )
百度黔驴技穷,必将被广大网民所抛弃。 (2008年5月11日 )
301转向和网址规范化 (2008年5月11日 )
新站获得百度主题推广广告的方法 (2008年5月10日 )
同一IP的网站之间的友情链接价值等于0 (2008年5月10日 )
高质量软文的六大秘籍 (2008年5月10日 )
关于点石的“google不收录tag页面”的几点看 (2008年5月10日 )
如何针对msn搜索进行网站优化 (2008年5月10日 )
 
鹰翔网 ©1999-2007