一种基于图聚类的高维文本数据特征选择方法

    公开(公告)号:CN106570178A

    公开(公告)日:2017-04-19

    申请号:CN201610991719.5

    申请日:2016-11-10

    Abstract: 本发明请求保护一种基于图聚类的高维文本数据特征选择方法,该方法包括:剔除不相关特征,并构造加权无向图;再结合社区发现算法快速地将特征聚类;并以“最大相关最小冗余”原则搜索类簇空间,剔除类簇内的冗余特征;最后根据特征与类别间的关系挑选出最佳特征子集。本发明旨在利用图能体现特征空间分布的特性,结合高效的社区发现进行特征聚类,选取出具有代表性的特征,并消除聚类过程中忽略数据分布情况和每个特征与类别都具有不同程度的重要性问题。同时解决聚类时的盲目性,使得文本分类结果具有更高的准确性和稳定性。

    一种基于图聚类的高维文本数据特征选择方法

    公开(公告)号:CN106570178B

    公开(公告)日:2020-09-29

    申请号:CN201610991719.5

    申请日:2016-11-10

    Abstract: 本发明请求保护一种基于图聚类的高维文本数据特征选择方法,该方法包括:剔除不相关特征,并构造加权无向图;再结合社区发现算法快速地将特征聚类;并以“最大相关最小冗余”原则搜索类簇空间,剔除类簇内的冗余特征;最后根据特征与类别间的关系挑选出最佳特征子集。本发明旨在利用图能体现特征空间分布的特性,结合高效的社区发现进行特征聚类,选取出具有代表性的特征,并消除聚类过程中忽略数据分布情况和每个特征与类别都具有不同程度的重要性问题。同时解决聚类时的盲目性,使得文本分类结果具有更高的准确性和稳定性。

    一种基于主动学习的数据自动标注方法

    公开(公告)号:CN107067025A

    公开(公告)日:2017-08-18

    申请号:CN201710081921.9

    申请日:2017-02-15

    Abstract: 本发明请求保护一种基于主动学习的数据自动标注方法,属于主动学习领域,包括以下步骤:101对已标记和未标记数据进行处理;102利用多个不同分类器对未标记数据进行分类;103选出分歧熵低的数据;104对分歧熵低的数据进行人工标记;105对人工标记结果进行自检。本发明针对如何在减少人工标注数据的数量的同时,尽量保证人工标注数据的准确性问题,通过结合主动学习方法发明一个附带自检功能的数据自动标注系统,达到缩减工作量且提高人工标注数据准确性的目的。

Patent Agency Ranking