-
公开(公告)号:CN106570178A
公开(公告)日:2017-04-19
申请号:CN201610991719.5
申请日:2016-11-10
Applicant: 重庆邮电大学
IPC: G06F17/30
Abstract: 本发明请求保护一种基于图聚类的高维文本数据特征选择方法,该方法包括:剔除不相关特征,并构造加权无向图;再结合社区发现算法快速地将特征聚类;并以“最大相关最小冗余”原则搜索类簇空间,剔除类簇内的冗余特征;最后根据特征与类别间的关系挑选出最佳特征子集。本发明旨在利用图能体现特征空间分布的特性,结合高效的社区发现进行特征聚类,选取出具有代表性的特征,并消除聚类过程中忽略数据分布情况和每个特征与类别都具有不同程度的重要性问题。同时解决聚类时的盲目性,使得文本分类结果具有更高的准确性和稳定性。
-
公开(公告)号:CN106570178B
公开(公告)日:2020-09-29
申请号:CN201610991719.5
申请日:2016-11-10
Applicant: 重庆邮电大学
IPC: G06F16/35
Abstract: 本发明请求保护一种基于图聚类的高维文本数据特征选择方法,该方法包括:剔除不相关特征,并构造加权无向图;再结合社区发现算法快速地将特征聚类;并以“最大相关最小冗余”原则搜索类簇空间,剔除类簇内的冗余特征;最后根据特征与类别间的关系挑选出最佳特征子集。本发明旨在利用图能体现特征空间分布的特性,结合高效的社区发现进行特征聚类,选取出具有代表性的特征,并消除聚类过程中忽略数据分布情况和每个特征与类别都具有不同程度的重要性问题。同时解决聚类时的盲目性,使得文本分类结果具有更高的准确性和稳定性。
-
公开(公告)号:CN107067025A
公开(公告)日:2017-08-18
申请号:CN201710081921.9
申请日:2017-02-15
Applicant: 重庆邮电大学
IPC: G06K9/62
Abstract: 本发明请求保护一种基于主动学习的数据自动标注方法,属于主动学习领域,包括以下步骤:101对已标记和未标记数据进行处理;102利用多个不同分类器对未标记数据进行分类;103选出分歧熵低的数据;104对分歧熵低的数据进行人工标记;105对人工标记结果进行自检。本发明针对如何在减少人工标注数据的数量的同时,尽量保证人工标注数据的准确性问题,通过结合主动学习方法发明一个附带自检功能的数据自动标注系统,达到缩减工作量且提高人工标注数据准确性的目的。
-
公开(公告)号:CN106599913B
公开(公告)日:2019-08-06
申请号:CN201611115834.2
申请日:2016-12-07
Applicant: 重庆邮电大学
Abstract: 本发明涉及一种基于聚类的多标签不平衡生物医学数据分类方法,包括以下步骤:S101对标签不均衡的数据根据特征相似度和标签关联性定义关系矩阵;S102根据关联矩阵对数据进行聚类;S103对每个类簇中的不平衡标签进行有方向性的增加;S104对每个类簇中的数据用多标签分类器进行训练学习;S105根据投票原则把每个分类器的结果进行合并,预测出标签。本发明通过层次聚类方法对数据进行聚类,并且在聚类时考虑标签关联性来降低簇内标签的不平衡性,从而提高重采样方法生成新数据的可靠性,降低噪声数据的概率。
-
公开(公告)号:CN107067025B
公开(公告)日:2020-12-22
申请号:CN201710081921.9
申请日:2017-02-15
Applicant: 重庆邮电大学
IPC: G06K9/62
Abstract: 本发明请求保护一种基于主动学习的文本数据自动标注方法,属于主动学习领域,包括以下步骤:101对已标记和未标记数据进行处理;102利用多个不同分类器对未标记数据进行分类;103选出分歧熵低的数据;104对分歧熵低的数据进行人工标记;105对人工标记结果进行自检。本发明针对如何在减少人工标注数据的数量的同时,尽量保证人工标注数据的准确性问题,通过结合主动学习方法发明一个附带自检功能的数据自动标注系统,达到缩减工作量且提高人工标注数据准确性的目的。
-
公开(公告)号:CN106599913A
公开(公告)日:2017-04-26
申请号:CN201611115834.2
申请日:2016-12-07
Applicant: 重庆邮电大学
CPC classification number: G06K9/6219 , G06K9/6215 , G06K9/6282 , G16H50/20
Abstract: 本发明涉及一种基于聚类的多标签不平衡生物医学数据分类方法,包括以下步骤:S101对标签不均衡的数据根据特征相似度和标签关联性定义关系矩阵;S102根据关联矩阵对数据进行聚类;S103对每个类簇中的不平衡标签进行有方向性的增加;S104对每个类簇中的数据用多标签分类器进行训练学习;S105根据投票原则把每个分类器的结果进行合并,预测出标签。本发明通过层次聚类方法对数据进行聚类,并且在聚类时考虑标签关联性来降低簇内标签的不平衡性,从而提高重采样方法生成新数据的可靠性,降低噪声数据的概率。
-
-
-
-
-