一种基于组稀疏优化的聚类方法

    公开(公告)号:CN112508049B

    公开(公告)日:2023-11-17

    申请号:CN202011211533.6

    申请日:2020-11-03

    Abstract: 本发明提供的一种基于组稀疏优化的类聚方法,首先是数据的处理,其目的在于获得数据集样本间的相似度矩阵目标矩阵、误差最小项和稀疏约束项;第二,构建基于组稀疏约束的优化模型,其目的在于利用更为强力的组稀疏约束来抑制噪声影响;之后,本发明提供一种基于交替方向乘子(Alternating Direction Method of Multipliers)的优化算法来快速求解所构建的优化模型;最后,本发明提供一种快速的优化聚类算法,其目的是合并冗余的聚类结果,进一步提升性能。本发明的方法约束每个样本只能由一个样本近似表示,从而可以有效的提升算法鲁棒性;另一方面,所得到的目标矩阵无需再进行谱聚类分析,从而达到端到端的聚类效果。

    视觉词典构建及应用方法和装置

    公开(公告)号:CN104978395B

    公开(公告)日:2019-05-21

    申请号:CN201510267106.2

    申请日:2015-05-22

    Abstract: 本发明实施例提供了一种视觉词典的构建及应用方法和装置。包括:确定训练图像数据集,提取所述训练图像数据集中全部训练图像的局部描述符,得到第一局部描述符集;根据设定的分解方式将所述第一局部描述符集分解成若干第一子局部描述符集;对每个所述第一子局部描述符集分别进行聚类,分别得到每个所述第一子局部描述符集对应的第一视觉子词集,由所有所述第一视觉子词集构成视觉词典。通过本发明实施例,在构建视觉词典的过程中,提高了为实现图像检索所需要的运算时间以及内存占用。

    基于低秩矩阵分解的文章话题关键词提取方法和装置

    公开(公告)号:CN105912524A

    公开(公告)日:2016-08-31

    申请号:CN201610218407.0

    申请日:2016-04-09

    Abstract: 本发明实施例提供了一种基于低秩矩阵分解的文章话题关键词提取方法和装置。该方法主要包括:使用将词表征为实数值向量的工具训练数据预处理后的文章文本,得到词向量化文件,使用基于文本图模型的关键词抽取算法抽取数据预处理后的文章文本中的特定话题下每个事件的关键词,根据抽取的关键词查询词向量化文件,建立特定话题下的关键词矩阵;采用增广拉格朗日乘子算法求解关键词矩阵的低秩分解问题,得到关键词低秩矩阵,最终生成所述数据预处理后的文章文本中所述特定话题下的关键词。本发明采用低秩矩阵分解的方法生成微博等文章话题的关键词,有效的解决了微博等文章话题关键词的稀疏性问题,大大降低了非关键词数据噪声的干扰。

    一种基于词向量分析的网络文章所属事件的检测方法和装置

    公开(公告)号:CN105975478A

    公开(公告)日:2016-09-28

    申请号:CN201610218382.4

    申请日:2016-04-09

    Abstract: 本发明实施例提供了一种基于词向量分析的网络文章所属事件的检测方法和装置。该方法主要包括:建立典型训练集;对典型训练集中的每一条网络文章样本进行分词,去无用词预处理,得到规范化的网络文章样本文本;将每一条规范化的网络文章样本文本分别用word2vec算法和LDA算法提取特征,得到每一条网络文章样本文对应的多维词向量;将每一条网络文章样本文本对应的多维词向量和事件标签输入到随机森林算法,该随机森林算法输出事件的分类模型,利用所述事件的分类模型对待识别的网络文章文本进行识别,判断出所述待识别的网络文章文本所属的事件。本发明实施例充分利用了网络文本样本的信息,提高了网络文本样本所属事件分类的准确度。

    一种基于组稀疏优化的聚类方法

    公开(公告)号:CN112508049A

    公开(公告)日:2021-03-16

    申请号:CN202011211533.6

    申请日:2020-11-03

    Abstract: 本发明提供的一种基于组稀疏优化的类聚方法,首先是数据的处理,其目的在于获得数据集样本间的相似度矩阵目标矩阵、误差最小项和稀疏约束项;第二,构建基于组稀疏约束的优化模型,其目的在于利用更为强力的组稀疏约束来抑制噪声影响;之后,本发明提供一种基于交替方向乘子(Alternating Direction Method of Multipliers)的优化算法来快速求解所构建的优化模型;最后,本发明提供一种快速的优化聚类算法,其目的是合并冗余的聚类结果,进一步提升性能。本发明的方法约束每个样本只能由一个样本近似表示,从而可以有效的提升算法鲁棒性;另一方面,所得到的目标矩阵无需再进行谱聚类分析,从而达到端到端的聚类效果。

    基于低秩矩阵分解的文章话题关键词提取方法和装置

    公开(公告)号:CN105912524B

    公开(公告)日:2019-08-20

    申请号:CN201610218407.0

    申请日:2016-04-09

    Abstract: 本发明实施例提供了一种基于低秩矩阵分解的文章话题关键词提取方法和装置。该方法主要包括:使用将词表征为实数值向量的工具训练数据预处理后的文章文本,得到词向量化文件,使用基于文本图模型的关键词抽取算法抽取数据预处理后的文章文本中的特定话题下每个事件的关键词,根据抽取的关键词查询词向量化文件,建立特定话题下的关键词矩阵;采用增广拉格朗日乘子算法求解关键词矩阵的低秩分解问题,得到关键词低秩矩阵,最终生成所述数据预处理后的文章文本中所述特定话题下的关键词。本发明采用低秩矩阵分解的方法生成微博等文章话题的关键词,有效的解决了微博等文章话题关键词的稀疏性问题,大大降低了非关键词数据噪声的干扰。

Patent Agency Ranking