一种构建文档-关键词异构网络模型方法

    公开(公告)号:CN110717042A

    公开(公告)日:2020-01-21

    申请号:CN201910904571.0

    申请日:2019-09-24

    Abstract: 本发明公开一种构建文档-关键词异构网络模型方法,包括:获取大量文本语料作为语料库;获取相应停用词语料;对获取的所有文本进行去停用词处理;计算和保存每个单词词频;计算和保存关键词间互信息;计算和保存文档-词的权重;构建文档-词异构网络。与现有技术相比,本发明的有益效果是:本发明所提供的一种构建文档-关键词异构网络模型方法,构建语料库的文本语料和停用词语料容易获取,关键词处理过程简单有效,边缘权重易于计算获得,可将无结构化或半结构化的文本文档转换成能够被各种处理算法识别与计算的结构化形式,可以将本发明应用于文本特征提取或者文本聚类后端处理领域,从而为人们提供有价值的信息。

    一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法

    公开(公告)号:CN110688484A

    公开(公告)日:2020-01-14

    申请号:CN201910905103.5

    申请日:2019-09-24

    Abstract: 本发明公开一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法,包括:S1、选取需要检测的微博言论数据集,通过文本特征处理构建不平衡数据集,构建分类模型;指定分类模型在参数ω上的先验分布,对参数ω随机初始化,得到初始参数向量ω0;S2、计算参数为ω0的分类模型对各类别子数据集的间隔似然值;S3、计算分类模型在参数ω0上的后验概率;S4、采样新参数点;S5、记录采样到的参数序列;S6、分类模型计算待测言论特征属于各类别的概率分布向量p,预测待测言论特征的类别为p中概率最高的类别;本发明不需大量数据支撑训练过程,克服了异常类样本过拟合的问题,从而有效提高了异常类言论数量过少时数据集的分类精度。

    一种基于神经网络的中文标点符号添加方法

    公开(公告)号:CN109918666A

    公开(公告)日:2019-06-21

    申请号:CN201910168357.3

    申请日:2019-03-06

    Abstract: 本发明提出一种基于神经网络的中文标点符号添加方法,包括以下步骤:构造标点符号添加的训练数据集、基于神经网络构建中文标点符号添加方法、利用标点符号训练数据集来训练神经网络、利用训练好的神经网络对中文标点符号进行恢复、勘误;本发明从大数据出发,构建深度神经网络模型来对中文标点符号恢复、勘误,突破了传统的大量人工检测的局限,神经网络在大量训练集一经训练完成,就可以对各种题材的文本进行标点符号的恢复勘误,经大量文本训练过后的神经网络,标点符号预测的准确率在95%以上,精确率在85%以上,召回率在85%以上,f1值在85%以上,符合工业要求水平,本发明可应用于对语音合成文字后的文本进行标点符号勘误。

    一种基于编辑距离以及词频和词向量的实体关系识别方法

    公开(公告)号:CN106066856B

    公开(公告)日:2019-05-21

    申请号:CN201610349298.6

    申请日:2016-05-24

    Abstract: 本发明涉及一种基于编辑距离以及词频和词向量的实体关系识别方法:步骤一:获取文本数据;步骤二:采用分词软件进行分词,对分词后的文本进行每个词个数的统计;步骤三:调整词向量的维数、窗口大小,进行词向量的训练;步骤四:利用训练好的词向量,对词进行聚合;步骤五:对步骤四中获得的实体进行编辑距离的计算,结合步骤一中得到的词频,进而得到给定实体词的别名或简称;基于编辑距离,在步骤四的基础上,计算给定实体词到其它实体的d[i,j]值,结合步骤一获取每个实体词的个数;经加权平均得到G(X),即:获取给定实体词的前n个最可能的简称,通过比重可以看出其关系强度,便可得到给定实体词的别名或简称。

    一种有效的动态网络节点影响力度量方法

    公开(公告)号:CN107958032A

    公开(公告)日:2018-04-24

    申请号:CN201711156309.X

    申请日:2017-11-20

    CPC classification number: G06F16/951 G06F2216/03 G06Q50/01

    Abstract: 本发明一种有效的动态网络节点影响力度量方法,针对带有时间戳的网络,按照一定的时间片段,将网络划分为若干个有序的独立网络快照。网络结构以边集的形式存储,每条边都带有时间戳记录。含依次对独立网络快照进行叠加,形成叠加网络快照。为了刻画网络的动态性,本发明提出了边权重衰减与节点影响力衰减机制,通过不断迭代计算,得到节点在不同时间段内的影响力。本发明所提供的动态网络节点影响力度量方法,无论在小规模的电影演员合作网络,还是在大规模社交网络,都能够快速有效度量动态网络节点影响力。相对于传统的静态网络影响力度量,本发明可以对节点影响力的变化过程进行刻画,并且准确度量动态网络节点影响力,本方法简洁高效。

    一种基于节点结构特征的社交网络去匿名化方法

    公开(公告)号:CN107945037A

    公开(公告)日:2018-04-20

    申请号:CN201711203750.9

    申请日:2017-11-27

    CPC classification number: G06Q50/01

    Abstract: 本发明一种基于节点结构特征的社交网络去匿名化的方法,在拥有辅助图的基础上将匿名化网络中节点与辅助图中属于同一用户的节点匹配出来,从而达到去匿名化的方法。原理是将用户和用户间的关系抽象为网络拓扑结构中的节点和连边形成社会网络拓扑图。以图为对象,一个图中节点身份信息已知作为辅助图,另外一个图中节点身份信息未知作为匿名图。包括如下步骤:步骤一:数据获取及处理;步骤二:确定种子节点,作为最初的匹配集合μ;步骤三:根据匹配集合μ,开始迭代的传播过程,直到没有新的匹配可以被添加;步骤四:输出匹配集合μ中的节点对。本发明利用较少的种子节点可以有效地识别匿名化网络,可以应用于大规模社会网络中去匿名化。

    一种基于超图的文本分类方法

    公开(公告)号:CN111125358B

    公开(公告)日:2023-07-11

    申请号:CN201911302220.9

    申请日:2019-12-17

    Abstract: 本发明公开一种基于超图的文本分类方法,包括:步骤一、构建语料库和语料库的关键词库,基于语料库生成超图,得到超图的超边和结点;步骤二、基于共现窗口计算关键词的邻接矩阵;步骤三、对语料库中的每一个文档通过超边向量表示,形成超边矩阵;步骤四、计算超边之间的相似度,构建超边的相似度矩阵;步骤五、构建由词向量组成的超图结点特征矩阵;步骤六、使用图神经网络模型对超边进行分类,得到语料库中每个文档类别的第一次预测概率;步骤七、基于文档的真实标签,采用随机梯度下降算法更新图神经网络模型的参数矩阵,完成语料库中无标签文本的分类;本发明实现了对语料库中无标签文本的准确分类。

    一种基于无监督图神经网络结构的文本向量生成方法

    公开(公告)号:CN110705260B

    公开(公告)日:2023-04-18

    申请号:CN201910905090.1

    申请日:2019-09-24

    Abstract: 本发明公开一种基于无监督图神经网络结构的文本向量生成方法,利用停用词语料对收集的所有文本语料做去停用词处理,从处理后的语料中选取关键词,计算并保存文本关键词权重以及关键词间权重,构建文本‑关键词网络邻接矩阵;其次利用训练好的词向量作为单词节点特征,文档内出现关键词计算文本初始节点特征,得到文本‑关键词网络特征矩阵;最后构建与正样本相对应的负样本邻接矩阵和特征矩阵,利用损失函数与构建的网络模型步骤、梯度下降使损失收敛,取收敛后的文本节点特征向量,得到基于无监督GNN的文本表示向量。本发明充分考虑到了语料库中非连续的全局词共现和长距离语义以及单个文档对所有文档‑关键词集合的总相关性。

    一种针对多重关系的知识图谱链接补全方法及系统

    公开(公告)号:CN114064627A

    公开(公告)日:2022-02-18

    申请号:CN202111406286.X

    申请日:2021-11-24

    Abstract: 本发明涉及一种一种针对多重关系的知识图谱链接补全方法及系统,方法包括:获取待补全的知识图谱三元组数据;将所述待补全的知识图谱三元组数据输入知识图谱链接补全模型,得到三元组补全结果;所述知识图谱链接补全模型是根据知识图谱数据构建的;所述知识图谱链接补全模型包括图卷积神经层、多关系注意力网络层和链路预测层;所述图卷积神经层的输出端和所述多关系注意力网络层的输出端均与所述链路预测层连接。本发明能够有效挖掘知识图谱结构特征与多关系特征,快速准确地完成知识图谱补全任务。

    一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法

    公开(公告)号:CN110688484B

    公开(公告)日:2021-12-31

    申请号:CN201910905103.5

    申请日:2019-09-24

    Abstract: 本发明公开一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法,包括:S1、选取需要检测的微博言论数据集,通过文本特征处理构建不平衡数据集,构建分类模型;指定分类模型在参数ω上的先验分布,对参数ω随机初始化,得到初始参数向量ω0;S2、计算参数为ω0的分类模型对各类别子数据集的间隔似然值;S3、计算分类模型在参数ω0上的后验概率;S4、采样新参数点;S5、记录采样到的参数序列;S6、分类模型计算待测言论特征属于各类别的概率分布向量p,预测待测言论特征的类别为p中概率最高的类别;本发明不需大量数据支撑训练过程,克服了异常类样本过拟合的问题,从而有效提高了异常类言论数量过少时数据集的分类精度。

Patent Agency Ranking