摘要: 提出一种有效的XML文档结构信息表达方法,用数字化的结构总结树SST对XML文档的结构信息进行编码,在此基础上给出结构距离的定义,并采用遗传算法对XML文档进行聚类.实验证明该方法分类准确率高,易于实现,且不需先验的DTD知识.
中图分类号:
梁作鹏, 吴文明, 董逸生. 一种基于结构信息总结树的XML文档聚类方法[J]. 应用科学学报, 2005, 23(1): 71-74.
LIANG Zuo-peng, WU Wen-ming, DONG Yi-sheng. Clustering XML Documents Based on a Structural Summary Tree[J]. Journal of Applied Sciences, 2005, 23(1): 71-74.