一种包含相互关系的复杂多标签医疗数据的预处理方法及装置

    公开(公告)号:CN116842374A

    公开(公告)日:2023-10-03

    申请号:CN202310603032.X

    申请日:2023-05-25

    Inventor: 朱生文 高满 吴鹏

    Abstract: 本发明属于数据处理领域,特别涉及一种包含相互关系的复杂多标签医疗数据的预处理方法及装置,方法包括将数据中缺失值大于99%特征和无关项进行删除,并进行0值填充;对于数据集中的数值型特征使用最小熵法进行离散化;对数据集的标签进行聚类,将每个类簇靠近聚类中心的标签作为该类簇的代表标签,并将每个类簇中所有数据的标签更新为对应的代表标签;结合数据特征与标签之间的协同性、相关性、冗余性和动态变化对数据的特征进行选择;将处理后的数据的标签已经选择的特征作为预处理后的数据,完成预处理;本发明为特征选择提供更好的标签子集,可以减少特征选择的计算时间,同时能避免由于标签中的冗余信息导致特征子集选择不准确的问题。

    一种基于标签不平衡的医疗数据的疾病预测方法

    公开(公告)号:CN115938567A

    公开(公告)日:2023-04-07

    申请号:CN202211608821.4

    申请日:2022-12-14

    Abstract: 本发明属于计算机数据挖掘领域计算医疗方向,特别涉及一种基于标签不平衡的医疗数据的疾病预测方法,所述方法包括:获取医疗数据集,进行预处理;聚类标签信息粒,选择标签信息粒的最靠近中心的标签组合为代表标签集;对特征集做离散化处理得到离散特征集;使用代表标签集和离散特征集进行特征选择;已选特征集和标签集放入多标签k近邻分类器中进行训练,本发明创新的采用粒计算的思想,将多标签数据的标签部分进行聚类,选择最靠近中心标签的作为代表标签集,使得聚类更为准确,可以选择更准确的代表标签,创新性的引入动态特征部分,使特征选择方法在少量的特征选择数量下达到更高的准确率。

Patent Agency Ranking