scribble

吕小荣

Blog Friends RSS About

如何推荐相关文献

29 September, 2012

google新闻可以推荐相关的新闻给我,google reader可以基于我的订阅推荐相关的博文。今天我在思考文献的推荐算法问题。顺手整理了一下思路。

引用关系

如果两篇文献引用的参考文献相同,那么相关性必然很高

关键词

Keywords:两篇文章的关键词如果相同,可能有相关性 MeSH词:收录到PubMed中的医学文献都被标引了MeSH词,如果相同可以作为参考依据 SCI Topic:被SCI收录的数据库都被标引了主题词,可以作为参考依据

以上方法也有缺陷,忽略了词与词之间的关系,比如父子级。

余弦定理

方法来自吴军博士的书籍《数学之美》 取出文章所有的实词,对他们的TF/IDF值进行排序,计算两篇文献的向量夹角。 如果当两篇文献向量的夹角为0,说明是论文抄袭, 如果接近1,说明高相关, 如果接近0,说明不相关。

如果每篇文献都两辆比较,计算量大,不现实,可以采用矩阵运算中的奇异值分解(SVD)