摘要: 提出了一种基于路径的XML文档结构聚类方法(PBC).与其他方法直接计算XML文档结构距离不同,该方法通过对文档包含的路径聚类,间接完成文档的聚类.首先,包含某一路径的文档集合形成初始类,并用该路径作为初始类的标识.然后,用层次聚类方法根据设定的标准,合并初始类,直至结束.类的标识信息是类中文档包含的路径,结果直观,容易理解.算法的复杂度是O(n),其中n是文档的大小.相关实验证明该算法不但能保证聚类结果准确,而且能大幅度提高计算的速度.
中图分类号:
梁作鹏, 业宁, 董逸生. PBC:一种基于路径的XML文档聚类方法[J]. 应用科学学报, 2005, 23(4): 399-403.
LIANG Zuo-peng, YE Ning, DONG Yi-sheng. PBC: A Path-Based Method to Clustering XML Documents[J]. Journal of Applied Sciences, 2005, 23(4): 399-403.