首页 > 技术交易 > 科技成果
基于随机森林算法的数据分析软件设计
发布时间: 2023-12-08 浏览量:30
  • 交易方式:面议
  • 联系电话:0451-88028639
  • 单位名称或姓名:甘曦之
  • 产业领域:数字经济
  • 成果类型:
项目基本情况Basic information of the project
本项目研究了基于随机森林的特征选择技术和数据挖掘技术及其在医学数据分析中的应用,主要研究成果包括: 1. 针对医学临床数据的高维特征空间、高度特征冗余等特点,提出了一种基于随机森林的封装式特征选择算法RFFS,在UCI数据集上的对比实验结果表明,RFFS算法在分类性能和特征子集选择两方面具有较好的性能。 2. 针对高通量DNA序列数据的指数级增长给数据处理、存储和传输带来的巨大挑战,研究了大型生物测序数据集压缩技术,在对现有数据压缩方法进行比较分析的基础上,提出了一种新的高通量测序数据压缩方法。在真实的DNA测序数据集上的实验结果表明,所提出的压缩方法可以获得很好的压缩比,同时提高数据的处理速度。 3. 面向疾病危险因素预测,提出一种新的基于随机森林变量重要性和SVM分类精度的的Wrapper式特征选择和数据分类方法,结合了序列前向搜索策略和序列后向搜索策略,在剔除冗余特征和不相关特征的同时,有效地选择与目标变量密切相关的关联特征,在11个UCI数据集和真实的临床数据集上的实验结果显示,该算法能够在提高运算速度的同时产生较小的具有更好分类精度的特征子集。 4. 针对生物信息学数据中存在的高度特征冗余和超高维特征空间给数据分析带来的挑战,提出一种新的基于随机森林算法的特征选择方法,采用分层特征空间的思想并结合广义序列反向搜索和广义顺序前进搜索策略。在5个基因表达数据集的实验结果表明,该方法不仅能提高分类的准确度也大大降低了特征选择过程的计算时间。 5. 设计并实现了一款实用性较强的医学数据分析软件,基于R统计平台在服务器端进行数据挖掘和分析,基于Java语言实现了Web端,采用rJava技术实现R语言与Java语言的通信。用户可以同Web端方便地提交实验数据,选择数据挖掘算法并设置相应的算法参数,查看并保存算法执行结果。
管理团队与技术团队Management team and technical team
黑龙江工程学院
效益分析Benefit analysis
该项目为储备库项目资源,暂无效益分析内容。
成果推荐Result recommendation