奥门金沙手机娱乐网址检索引擎网页排序算法,

2019-10-10 作者:奥门金沙手机娱乐网址   |   浏览(142)

奥门金沙手机娱乐网址 1微博之类的社交网络上相互关注的朋友越多,并不代表你的人脉就一定好。与人气更高但不轻易结交朋友的大V结交,才是更重要的。图片来源:reporterow.com

2.1基于词频统计——词位置加权的搜索引擎

俗话说“有关系就没关系,没关系就有关系”。

         利用关键词在文档中出现的频率和位置排序是搜索引擎最早期排序的主要思想,其技术发展也最为成熟,是第一阶段搜索引擎的主要排序技术,应用非常广泛,至今仍是许多搜索引擎的核心排序技术。其基本原理是:关键词在文档中词频越高,出现的位置越重要,则被认为和检索词的相关性越好。

虽然有些残酷,但残酷的话里常蕴涵着道理。奋斗数十载,不如认识几位贵人,实力强大没有舞台发挥不行,千里马还要伯乐呢。

         1)词频统计

因此,尽管二次元世界是我的最爱(说出来了),但我偶尔还是会提起屁股去社交场合,递上那仿佛跟兵马俑一起被挖出来的泛黄破旧名片。

        文档的词频是指查询关键词在文档中出现的频率。查询关键词词频在文档中出现的频率越高,其相关度越大。但当关键词为常用词时,使其对相关性判断的意义非常小。TF/IDF很好的解决了这个问题。TF/IDF算法被认为是信息检索中最重要的发明。TF(Term Frequency):单文本词汇频率,用关键词的次数除以网页的总字数,其商称为“关键词的频率”。IDF(Inverse Document Frequency):逆文本频率指数,其原理是,一个关键词在N个网页中出现过,那么N越大,此关键词的权重越小,反之亦然。当关键词为常用词时,其权重极小,从而解决词频统计的缺陷。

交际花的能力:人见人爱

社交场合中,我羡慕那些周旋于各种人群而游刃有余的人。他聊天时不搔头,听别人讲话时不会忍不住转起杯子。 他的酒窝是个黑洞,全场人都被吸过去。

一个晚上,他的手机联络人增加了一页,我收到了两条广告短信;他的微博“互相关注”又多了几十个,我只收到一条“感谢您关注我……回复DY即可”。 他的名片没印上「交友家」,只是因为这个职业尚未明确定义。

若以学术标准来看,这就是那种“被引用次数”很高的人。被引用次数是指发表论文后成为其他论文的参考文献次数。数值越高,这篇论文就越重要。

所以认识的人越多就表示人脉越广,越有份量。是这样吗?

         2)词位置加权

重点在于跟谁握手,而不是握几双手

非也。“被引用次数”并非最佳的衡量尺度。

举例来说,被《马达加斯加工程学会日报》或《Nature》引用,是完全不同的两件事。人际关系也一样,跟我或丘成桐握手,手心冒汗的程度绝对不同。

人脉不等于名片厚度或微博好友多寡。那么,怎样评估某个人的人脉?下面介绍的算法,可以告诉你两个体现人脉价值的重点。

首先,将每个人看成一个点,人与人的关系是一条线。“想认识谁”,便画一条单向的箭头连向那人。好比拥有无数条箭头连过来的丘成桐先生,人脉指数绝​​对很高。

假设五个人,A1、A2、A3、B1、B2。 每人的人脉指数初始值都为1。 现在,A2、A3久仰A1,B2想认识B1。

于是我们能算出A1跟B1的人脉指数是3与2,除了自己的1分,各自再加上A2、A3,与B2贡献的分数。

假如A1在聚会上看见B1,想跟他攀谈。这时B1的人脉指数瞬间涨停——不只加1分,而是从2分跳到5分。

毕竟人气3的A1想和你结交,和只有初始值的一般人想认识你是不同的。

因此提升人脉的第一个重点是:不只跟很多人聊天,还要懂得结交“高人气”的人。

        在搜索引擎中,主要针对网页进行词位置加权。所以,页面版式信息的分析至关重要。通过对检索关键词在Web页面中不同位置和版式,给予不同的权值,从而根据权值来确定所搜索结果与检索关键词相关程度。可以考虑的版式信息有:是否是标题,是否为关键词,是否是正文,字体大小,是否加粗等等。同时,锚文本的信息也是非常重要的,它一般能精确的描述所指向的页面的内容。

但请不要永远找人气王

有趣的是,如果A1接下来跟A2聊天,一旁什么事都没做的B1,人脉指数立刻降低!

为什么?因为这暗示着,当B1想找有很多朋友的A1帮忙时,作为他众多朋友中平常的一个,B1对A1的重要性并不突出,A1也就不太会尽力。正确提升人脉的第二个重点是:交情满天下的人力量分散,如果你的权重不高,分到你这里的力量也就不多,他不见得是最能帮助你的人。反过来说,如果你是他唯一的朋友,他会为你赴汤蹈火。由此可知,与知名但不轻易结交朋友的人成为朋友,是相当重要的。

事实上,这套算法是Google创办时发明的:被越多的网页,特别是“高人气”的网页链接,“人脉值”也就越高;高人气的网页链接的网页越少,这些被链的网页价值越高。这样的网页也就很可能是用户想看到的,Google便会将它排在搜索结果的前几名。

看来,活在二十一世纪,做人难,做网页也不容易。

 

编者注:本文作者頼以威是数学博士,现任职中国台湾中央研究院的EE PhD,擅长用理工思维来观察生活,推广数学教育,现为台湾联合报开设专栏《阅读数学》。为便于阅读,我们在作者原文上做出了部分修改。

         2.2基于链接分析排序的第二代搜索引擎

扩展阅读

  • 本文里提到的谷歌的算法,死理性派此前有过详细的介绍,有兴趣的朋友可以点击阅读:谷歌怎样给搜索结果排序?
  • 关于人脉这件事,推荐阅读:最关键的人脉是不熟的朋友

        链接分析排序的思想起源于文献引文索引机制,即论文被引用的次数越多或被越权威的论文引用,其论文就越有价值。链接分析排序的思路与其相似,网页被别的网页引用的次数越多或被越权威的网页引用,其价值就越大。被别的网页引用的次数越多,说明该网页越受欢迎,被越权威的网页引用,说明该网页质量越高。链接分析排序算法大体可以分为以下几类:基于随机漫游模型的,比如PageRank和Repution算法;基于概率模型的,如SALSA、PHITS;基于Hub和Authority相互加强模型的,如HITS及其变种;基于贝叶斯模型的,如贝叶斯算法及其简化版本。所有的算法在实际应用中都结合传统的内容分析技术进行了优化。本文主要介绍以下几种经典排序算法:

相关的果壳网小组

  • 数学午餐会
  • 晒幸福

        1)PageRank算法

         PageRank算法由斯坦福大学博士研究生Sergey Brin和Lwraence Page等提出的。PageRank算法是Google搜索引擎的核心排序算法,是Google成为全球最成功的搜索引擎的重要因素之一,同时开启了链接分析研究的热潮。

         PageRank算法的基本思想是:页面的重要程度用PageRank值来衡量,PageRank值主要体现在两个方面:引用该页面的页面个数和引用该页面的页面重要程度。一个页面P(A)被另一个页面P(B)引用,可看成P(B)推荐P(A),P(B)将其重要程度(PageRank值)平均的分配P(B)所引用的所有页面,所以越多页面引用P(A),则越多的页面分配PageRank值给P(A),PageRank值也就越高,P(A)越重要。另外,P(B)越重要,它所引用的页面能分配到的PageRank值就越多,P(A)的PageRank值也就越高,也就越重要。

         其计算公式为:
               奥门金沙手机娱乐网址 2.jpg)
         PR(A):页面A的PageRank值;

         d:阻尼系数,由于某些页面没有入链接或者出链接,无法计算PageRank值,为避免这个问题(即LinkSink问题),而提出的。阻尼系数常指定为0.85。

         R(Pi):页面Pi的PageRank值;

         C(Pi):页面链出的链接数量;

         PageRank值的计算初始值相同,为了不忽视被重要网页链接的网页也是重要的这一重要因素,需要反复迭代运算,据张映海撰文的计算结果,需要进行10次以上的迭代后链接评价值趋于稳定,如此经过多次迭代,系统的PR值达到收敛。

         PageRank是一个与查询无关的静态算法,因此所有网页的PageRank值均可以通过离线计算获得。这样,减少了用户检索时需要的排序时间,极大地降低了查询响应时间。但是PageRank存在两个缺陷:首先PageRank算法严重歧视新加入的网页,因为新的网页的出链接和入链接通常都很少,PageRank值非常低。另外PageRank算法仅仅依靠外部链接数量和重要度来进行排名,而忽略了页面的主题相关性,以至于一些主题不相关的网页(如广告页面)获得较大的PageRank值,从而影响了搜索结果的准确性。为此,各种主题相关算法纷纷涌现,其中以以下几种算法最为典型。

         2)Topic-Sensitive PageRank算法

         由于最初PageRank算法中是没有考虑主题相关因素的,斯坦福大学计算机科学系Taher Haveli-wala提出了一种主题敏感(Topic-Sensitive)的PageRank算法解决了“主题漂流”问题。该算法考虑到有些页面在某些领域被认为是重要的,但并不表示它在其它领域也是重要的。

         网页A链接网页B,可以看作网页A对网页B的评分,如果网页A与网页B属于相同主题,则可认为A对B的评分更可靠。因为A与B可形象的看作是同行,同行对同行的了解往往比不是同行的要多,所以同行的评分往往比不是同行的评分可靠。遗憾的是TSPR并没有利用主题的相关性来提高链接得分的准确性。

         3)HillTop算法

本文由奥门金沙网址发布于奥门金沙手机娱乐网址,转载请注明出处:奥门金沙手机娱乐网址检索引擎网页排序算法,

关键词:

  • 上一篇:没有了
  • 下一篇:没有了