关键词:
不平衡数据
K-NN
过采样
集成学习
摘要:
不平衡数据分类是机器学习中的一项关键挑战.针对传统K近邻(K-nearest neighbors,KNN)及其变体在此任务中性能不佳的问题,本文提出了一种融合动态边界过采样、集成学习与改进K近邻的两阶段分类模型.该方法首先在数据层面采用动态边界过采样策略(dynamic boundary oversampling,DBO),自适应地生成少数类样本以构建多个平衡子集;其次,在算法层面为每个子集构建一个双重加权类可信度K近邻(double weighted class credibility K-nearest neighbor algorithm, DWCCKNN)基分类器,通过加权机制修正近邻计数并强化边界判别;然后,通过集成学习机制聚合预测结果以提升模型的准确性;最后,利用多个公开数据集将本文方法与经典过采样方法进行对比分析.结果表明:相对SMOTE-CCKNN、ADASYN-CCKNN及Borderline-SMOTE-CCKNN等方法,本文所提方法协同数据、算法与模型三层技术,有效提升了不平衡数据的分类性能.