项目基本情况Basic information of the project
不确定数据管理采用与确定性数据管理截然不同的数据模型,面临多种挑战,例如概率维冲击,时空效率,能量约束等。目前,国内外在不确定数据挖掘领域取得了一些成果,例如不确定数据的频繁项集挖掘算法U-Apriori,UF-growth,FP-streaming 算法,UF-stream算法和SUF-stream算法,不确定数据聚类算法,UK-means,FOPTICS,FDBSCAN,不确定数据的异常值检测算法等。由于不确定性数据面临新的挑战,概率维度的冲击和数据维度的增加等,都要求数据挖掘算法在保证挖掘结果质量的同时,考虑算法的时间开销和空间开销,对现有挖掘算法进行必要的改进,例如距离函数的新定义,分类器的定义,支持度的表示。目前国内外对不确定数据挖掘中的Top-k查询,组反最近邻查询,概率流数据的挖掘,聚类,skyline查询的研究也是针对时间性能和挖掘质量展开。本课题组的研究内容与国内外研究接轨,主要研究内容属于目前该领域的研究前沿问题。
本课题组提出的不确定数据的概率组反最近邻查询,更加符合实际应用背景。我们详细研究了组反最近邻的性质,采用过滤-提纯方式,利用R*树索引,设计了组反最近邻的有效挖掘算法,具有较好的理论意义和应用价值。提出不确定数据的多维Top-K查询,利用Sink反馈和簇内簇内过滤的机制降低数据通信开销,实现查询处理的高效性;定义了高斯混合模型和不确定数据流系统数据模型,提出分布式不确定数据流的top-k聚集查询算法,不确定数据流概率skyline查询算法和基于KL的不确定数据流的聚类算法KL-Micro。上述算法解决了不确定数据挖掘领域面临的时间开销大,挖掘质量低等挑战问题。
管理团队与技术团队Management team and technical team
黑龙江大学
效益分析Benefit analysis
该项目为储备库项目资源,暂无效益分析内容。