图书馆大规模日志数据的快速聚类

应用科学学报 ›› 2003, Vol. 21 ›› Issue (3): 284-288.

图书馆大规模日志数据的快速聚类

宋爱波, 庄晓青, 何洁月, 业宁, 董逸生

东南大学计算机科学与工程系江苏南京 210096

收稿日期:2002-07-08 修回日期:2003-02-18 出版日期:2003-09-10 发布日期:2003-09-10
作者简介:宋爱波(1970-),男,山东烟台人,博士生;董逸生(1940-),男,江苏启东人,教授,博导.
基金资助:
江苏省十五高科技基金资助项目(BG2001013)

Quick Clustering of Large Log Data in Library

SONG Ai-bo, ZHUANG Xiao-qing, HE Jie-yue, YE Ning, DONG Yi-sheng

Department of Computer Science & Engineering, Southeast University, Nanjing 210096, China

Received:2002-07-08 Revised:2003-02-18 Online:2003-09-10 Published:2003-09-10

摘要/Abstract

摘要： 给出了一种简单有效的算法,用于对图书馆大规模日志数据的快速聚类和借阅趋势分析.首先,根据读者基本的借阅规律,把日志数据聚成若干子类,然后,给出了对子类结果进行再次聚类的模糊算法.最后,为了预测读者的借阅趋势,对每一类进行了回归分析.该算法具有线性复杂度,对大规模数据集是可伸缩的,实验证明是可行的.

关键词: 日志数据, 聚类, 回归分析, 数字图书馆

Abstract: In this paper, a simple and efficient method is presented for quick clustering and trend analyzing of library large log data. First, log data is clustered into a number of subclasses based on the underlying regularity of reader's borrowing and returning books. Then a fuzzy clustering algorithm is given for clustering the subclasses. The time complexity is linear, so our method can scale to large dataset. Finally, regression analysis is performed on the each cluster in order to dis cover the trend of borrowing and returning books. The experiment shows that this approach is successful.

Key words: digital library, clustering, regression analysis, log data

中图分类号:

宋爱波, 庄晓青, 何洁月, 业宁, 董逸生. 图书馆大规模日志数据的快速聚类[J]. 应用科学学报, 2003, 21(3): 284-288.

SONG Ai-bo, ZHUANG Xiao-qing, HE Jie-yue, YE Ning, DONG Yi-sheng. Quick Clustering of Large Log Data in Library[J]. Journal of Applied Sciences, 2003, 21(3): 284-288.

[1]	魏子洋, 赵志宏, 赵敬娇. 改进Faster R-CNN算法及其在车辆检测中的应用[J]. 应用科学学报, 2020, 38(3): 377-387.
[2]	胡本固, 戴牡红. 多中心点增量式模糊聚类算法[J]. 应用科学学报, 2019, 37(6): 806-814.
[3]	余玥, 邓丽, 庞洪霖, 费敏锐. 基于分布式聚类的作物生长环境异常检测方法[J]. 应用科学学报, 2018, 36(6): 1010-1021.
[4]	韦秋含, 梁海华, 张新鹏. 基于动态BoW模型的密文JPEG图像检索[J]. 应用科学学报, 2018, 36(4): 628-634.
[5]	巫兆聪, 项伟, 李俊, 杨志. 基于满足度评估的遥感应用需求聚类算法[J]. 应用科学学报, 2018, 36(4): 635-643.
[6]	马丹, 程辉, 毛艳玲, 邢世和. 基于DMSP/OLS夜间灯光影像的省际经济发展水平评估模型研究[J]. 应用科学学报, 2017, 35(5): 647-657.
[7]	陈江平, 谭波, 连世忠. 湖北省雷击关联规则挖掘发现[J]. 应用科学学报, 2017, 35(1): 42-50.
[8]	胡昭华, 王冠南, 王珏, 邵晓雯, 卞飞飞. 模板在线聚类的目标跟踪[J]. 应用科学学报, 2016, 34(4): 430-440.
[9]	姚利涛，董育宁. 无监督的视频业务特征分析与分类[J]. 应用科学学报, 2015, 33(2): 117-128.
[10]	吴诗婳1，吴一全1,2,3,4,5，周建江1，孟天亮1，戴一冕1. 基于Shearlet 变换和Krawtchouk 矩不变量的河流SAR 图像分割[J]. 应用科学学报, 2015, 33(1): 21-31.
[11]	喻钧1, 刘飞鸿1, 王占峰2, 杨俊娜1. 基于色度直方图的颜色聚类算法[J]. 应用科学学报, 2015, 33(1): 95-104.
[12]	谢凯，张涛，奚玲，李文祥，平西建. k均值聚类的混合异构图像隐写分析[J]. 应用科学学报, 2014, 32(5): 543-550.
[13]	董天宝. 采用孤立点检测的欠定混合矩阵盲辨识[J]. 应用科学学报, 2013, 31(5): 481-487.
[14]	喻钧，双晓. 仿造数码迷彩的设计方法[J]. 应用科学学报, 2012, 30(4): 331-334.
[15]	吴昊，苏卫民，顾红. 干扰环境下数目可变的多目标跟踪[J]. 应用科学学报, 2012, 30(3): 263-269.