![]() |
|
谈比较两篇文章相识度的i—match算法文章整理日期:5月12日(WinHTTP.com搜索资讯)我们在比较两件事物的相似性时,往往都会拿能均衡的反应这事物本质的东西来比较,就像比赛时,要去除一个最高分和最低分,然后再变算总分一样~~ i—match算法基于的依据是,在文挡中,特别高频的词和特别低频的词无法反应这一个文挡的真实内容,所以在比较之前,先将文挡中高频词和低频词去掉(注意:这里的高频和低频指的是文档频率,并非关键词在你网页中的密度!) 我们来看一个例子: 这里有两段网页文字: 1.中国足球队在米卢的率领下首次获得世界杯决赛阶段的比赛资格,新浪体育播报 。 2.米卢率领中国足球队员首次杀入世界杯决赛阶段,搜狐体育播报。(嘿嘿,看到这两句很熟吧?) 文档(一)中去掉高频:中国,在,的,获得,比赛,资格,新浪,体育,播报 去掉低频:米卢 则剩下中频词有:足球队,率领,首次,世界杯,决赛,阶段 文档(二)中去掉高频:中国,搜狐,体育,播报 去掉低频:米卢,杀入 则剩下中频词有:率领,足球队,首次,世界杯,决赛 ,阶段 看到了吧?剩下的,两者是一模一样 这就是相似性的存在 呵呵,其实这个例子很早就有过的。。 综上所述:搜索引擎要检测相似性,主要就是要分词和词频的比较!! 不知道大家是否都清楚了?呵呵,下次再讲一个经典算法:shingle算法。 网站更换域名的最佳方法 (2008年5月12日 ) 谷歌地位超然 掌握雅虎生杀大权 (2008年5月12日 ) 谷歌公关部门副总裁跳槽facebook (2008年5月12日 ) 莫天全和搜房的成功密码 (2008年5月13日 ) 搜狐能“牛”多久 (2008年5月13日 ) 目前比较流行的添加单向链接的方法 (2008年5月12日 ) 百度新站收录十五天实战心得 (2008年5月12日 ) 解决网站改版对百度收录的影响 (2008年5月11日 ) 百度黔驴技穷,必将被广大网民所抛弃。 (2008年5月11日 ) 301转向和网址规范化 (2008年5月11日 ) 新站获得百度主题推广广告的方法 (2008年5月10日 ) 同一IP的网站之间的友情链接价值等于0 (2008年5月10日 ) 高质量软文的六大秘籍 (2008年5月10日 ) 关于点石的“google不收录tag页面”的几点看 (2008年5月10日 ) 如何针对msn搜索进行网站优化 (2008年5月10日 ) |
||||
| 鹰翔网 ©1999-2007 |