问:

pr和ps哪个学起来简单

答:
PR(Page Rank)和PS(Page Similarity)都是搜索引擎的排名算法,用于计算网页的重要性和相关性从而对搜索结果进行排序。
相比而言,PR算法更简单一些,原理较为清晰。PR算法的核心思想是:一个网页的重要性取决于链向它的页面的重要性,并且链的数量和质量都起作用。它使用随机游走模型,假设有一个游走者在网络上随机点击链接游走,那么游走者停留在一个页面的概率就是该页面的PageRank值。PR值仅依赖于链结构,计算简单直接。
PS算法相对复杂一些,它不仅考虑链接,还会分析页面内容来计算相关性。PS算法需要提取网页的特征词,构建向量空间模型来表示网页,然后计算不同网页向量之间的相似度来度量相关性。这需要涉及网页解析、特征抽取、向量空间构造以及相似度计算等技术,实现起来难度较大。
总的来说,从算法的复杂度和实现难易度来看,PR算法更简单一些,比较适合入门学习。PS算法涉及的技术更多,实现也更加困难,比较适合在掌握了PR算法的基础上进一步学习。
学习这两个算法的一般路径是:
1. 学习PR算法的原理,理解随机游走模型和PageRank值的计算方法。
2. 实现一个简单的PR算法,对一些小网络进行PageRank计算。
3. 学习PS算法的原理,理解向量空间模型、相似度计算等技术。
4. 实现一个简单的PS算法,完成特征抽取、向量构建和相关页面查询等功能。
5. 对比两种算法的优缺点,理解为何搜索引擎会 jointly 使用这两种算法。
通过上述学习路径,可以较为系统和深入地理解PR和PS这两种搜索引擎排名算法。