近日,我院2021级应用数学研究生张姣妮等人完成的研究工作“A new oversampling approach based differential evolution on the safe set for highly imbalanced datasets”在Elsevier旗下SCI期刊Expert Systems With Applications上发表,该期刊为中科院SCI期刊分区计算机科学类一区TOP期刊,最新影响因子为8.5。张姣妮为论文第一作者,我院李艳颖副教授为论文唯一通讯作者,我校为该论文唯一通讯单位。
过采样方法用于解决类不平衡问题。现有的一些过采样方法不能很好地去除噪声样本及避免合成噪声样本。因此,该文针对高度不平衡数据集提出了一种新的基于安全区域差分进化的过采样方法(SS_DEBOHID)。SS_DEBOHID首先使用k-nearest neighbors(kNN)方法学习少数类的安全区域,然后使用DEBOHID过采样方法在安全区域内合成新的少数类样本。SS_DEBOHID的优点如下:(a)在安全区域生成样本,减少噪声样本的生成,减少合成样本落入分类边界和多数类区域;(b)使用DEBOHID方法合成样本,增加样本的多样性;(c)该方法适用于高度不平衡的数据集。在43个高度不平衡数据集上,所提方法与10种先进方法进行比较,采用AUC和G_Mean指标进行评估。实验结果表明,SS_DEBOHID在KNN、SVM和DT分类器上均获得了30多个AUC和G_Mean指标最佳的数据集。此外,该文还在8个高维和大样本量数据集上验证了SS_DEBOHID方法的效率。实验结果表明,SS_DEBOHID具有更好的分类性能和鲁棒性。该研究结果为类不均衡问题的研究提供了新思路与可行性方案。工作得到我校研究生创新科研项目(YJSCX23YB31)的支持。
(研究生院、数学与信息科学学院 文、图/张姣妮 审核/凡明锦、刘淳安)
原文链接:https://doi.org/10.1016/j.eswa.2023.121039