摘要: 提出一种新的在线数据清洗方法:将确认为干净的参照表中的记录字符串映射成高维空间中的点后进行聚类划分,然后利用B+树对划分中的点进行索引从而将高维空间的查询转换成一维空间的范围查询.输入表中的元组利用索引采用分枝限界策略搜索KNN (K nearest neighbors)记录从而完成与其最匹配记录的识别.理论分析和实验表明这是一种解决在线数据清洗的有效途径.
中图分类号:
韩京宇, 胡孔法, 徐立臻, 董逸生. 一种在线数据清洗方法[J]. 应用科学学报, 2005, 23(3): 292-296.
HAN Jing-yu, HU Kong-fa, XU Li-zhen, DONG Yi-sheng. An Online Data Cleaning Method[J]. Journal of Applied Sciences, 2005, 23(3): 292-296.