期刊简介
本刊是由中国航天科工集团公司主管, 由航天科工集团十七所主办。它是仿真技术领域的综合性科技期刊。98年起已列入国家科技部中国科...【详细查看】
过刊浏览
信息公告
- 15/01 中国航天科工信...
- 14/09航天工业机关服务...
- 14/10航天信息股份有限...
- 14/12湖南航天工业总公...
- 14/08中国航天科工集团...
- 14/07中国航天科工集团...
- 14/06 南京航天管理干...
基于改进CURE算法的微博热点话题发现
【出 处】:《
计算机仿真
》
CSCD
2013年第30卷第11期 383-387页,共5页
【作 者】:
杨长春
;
周猛
;
叶施仁
;
徐小松
【摘 要】
由于微博平台的信息量大,为对博文热点进行准确识别,本文提出了一种基于经典CURE聚类算法的改进算法来发现微博热点话题。本文选取了20391条中文微博作为样本数据集,通过将博文稀疏矩阵化达到将高维数据降维的效果,很大程度上提高了计算的精度和速度。从选取CURE层次聚类的代表点出发,将代表点转换为博文种子集,同时调节收缩因子,加大排除博文的异常点,利用CURE层次聚类算法的思想设计了改进的CURE算法来发现微博热点话题,通过实验发现改进CURE层次聚类算法能够将数据集中的74.65%作为孤立点,更好的提高了算法的精度,同时准确地抓住长尾效应的”头部”,能够更加直观的发现微博热点话题。
相关热词搜索: 稀疏矩阵 热点话题 层次聚类算法 博文种子集 改进层次聚类算法 Sparse Matrix Hot Topic Hierarchical Clustering Algorithm Tweets Seed Set Improved Hierarchi-cal Clustering Algorithm