摘 要:传统的DHT—P2P系统有一定的局限性,如基于单特征词搜索,计算机不理解用户搜索请求的含义等。对基于本体的P2P复杂搜索进行了研究。应用向量空间模型理论去描述文档,同时对P2P标识符空间进行分割,使相似文档在邻近的节点范围内聚集,不但解决了多特征词复杂搜索的问题,而且提高了搜索的速度。利用本体知识的帮助去理解用户的搜索请求,合理扩大搜索范围,避免搜索结果出现遗漏。实验结果表明,依据该理论构建的仿真系统实现了复杂搜索,搜索速度较快,提高了查全率,且节点达到了较好的负载平衡。
关键词:
对等网;复杂搜索;向量空间模型;本体;负载平衡
中图分类号: TP393文献标识码:A
文章编号:1001-9081(2007)04-0780-04
0 引言
P2P技术由于其固有的优点,如非集中结构、自治性、容错性和良好的可伸缩性等,已经被广泛用于网络环境下的文件共享系统中,成为Internet上有效的资源共享模型。一般来说,P2P系统被分为结构化P2P和无结构化P2P两类。Chord[1]、CAN和Pastry等是典型的结构化P2P。Gnutella[2]、Kazza等是典型的无结构化P2P。在无结构化P2P中,覆盖网络采用松散的方式连接,节点的加入和退出比较简单,覆盖网络的维护成本比较低。但是无结构化P2P的查询多采用泛洪的方式,在系统中产生了大量的消息,网络负担较重。在结构化P2P中,覆盖网络严格按照一定的结构组织在一起,查询请求在节点间转发的过程中有很强的方向性,查询性能较好。当节点加入和退出结构化P2P系统时,需要对覆盖网络的局部结构进行调整,所以覆盖网络有一定的维护成本。
在结构化P2P系统中,基于DHT(Distributed Hash Table)的结构化P2P技术(如Chord)具有很好的可扩展性和良好的性能,一直是人们研究的热点。然而,DHT—P2P系统是基于单特征词搜索的。通常,给定一个搜索特征词,系统首先通过哈希技术将该特征词转换成空间标识,然后通过DHT路由算法进行定位和搜索。
在实际的查询搜索过程中,人们经常会碰到这样的情况:不能准确描述所要搜索的目标,只能从几个侧面对搜索目标的特征进行大致的描述。为了很好地完成上述查询搜索,DHT—P2P系统需要完善和解决两个问题:1)如何支持多特征描述的复杂搜索,而不仅仅是单特征的准确匹配;2)用户从多个侧面对搜索目标进行了描述,如何准确理解这些特征词,避免搜索过程漏掉符合要求的结果。
本文以文档搜索为背景,尝试运用向量空间模型(Vector Space Model,VSM)[3]和本体(Ontology)[4]来解决DHT—P2P系统所遇到的上述两个问题。利用向量空间模型来支持多特征的复杂搜索;利用本体知识的帮助去理解关于搜索目标特征的描述。本文第2节介绍了基于本体的P2P 复杂搜索所涉及到的关键技术及关键问题;第3节介绍了仿真实验,给出了实验结果,并对结果进行了分析;第4节是本文的结论和下一步工作的展望。
1 基于本体的P2P复杂搜索关键技术
1.1 向量空间模型
向量空间模型是信息获取领域经典的统计算法,它将描述文档的多个特征词以向量的形式来表示,向量中的每个分量对应了文档的不同特征。用户进行文档搜索时,将提交的描述文档的多个特征词也用类似的向量表示,通过比较两个向量的相似程度来进行文档的匹配。
TFIDF(Term Frequency Inverse Document Frequency)技术[5]可以很好地解决上述问题。TFIDF考虑特征词在当前文档及整个文档集的频率而计算权重。TF表示在某文档中某特征词出现的数量,DF表示该文档集中拥有该特征词的文档数量,TF值除以DF值就是该特征词对应的TFIDF值。定性的来看,在很多文档中都会出现的特征词的权值肯定没有只在极少数文档中出现的特征词的权值大。文档di的第j个特征词的权重vi,j
定量计算如式(1)所示:
给定任何一个文档向量,根据式(4)就能够得到其相似角。相似角是通过与标准单位向量比较而得到的。对任何两个文档,如果其相似角的值接近,则说明两文档相似。
1.2 相似文档的聚集
利用向量空间模型可以将描述一个文档的多个特征词向量化,按照DHT的原理,下面就可以利用该向量得到该文档对应的空间标识符(Space Identifiers)。由于DHT哈希的随机性,即使是两个很接近的值经过哈希后的数据相差也可能非常大。这样使得分布在各个节点的文档没有相关性,不利于搜索的展开。


















