-
公开(公告)号:CN106066856A
公开(公告)日:2016-11-02
申请号:CN201610349298.6
申请日:2016-05-24
Applicant: 北京工商大学
CPC classification number: G06F16/951 , G06F17/2715 , G06F17/2775
Abstract: 本发明涉及一种基于编辑距离以及词频和词向量的实体关系识别方法:步骤一:获取文本数据;步骤二:采用分词软件进行分词,对分词后的文本进行每个词个数的统计;步骤三:调整词向量的维数、窗口大小,进行词向量的训练;步骤四:利用训练好的词向量,对词进行聚合;步骤五:对步骤四中获得的实体进行编辑距离的计算,结合步骤一中得到的词频,进而得到给定实体词的别名或简称;基于编辑距离,在步骤四的基础上,计算给定实体词到其它实体的d[i,j]值,结合步骤一获取每个实体词的个数;经加权平均得到G(X),即:获取给定实体词的前n个最可能的简称,通过比重可以看出其关系强度,便可得到给定实体词的别名或简称。
-
公开(公告)号:CN109918666B
公开(公告)日:2024-03-15
申请号:CN201910168357.3
申请日:2019-03-06
Applicant: 北京工商大学
IPC: G06F40/253 , G06F40/289 , G06F16/33 , G06N3/02 , G06N3/08
Abstract: 本发明提出一种基于神经网络的中文标点符号添加方法,包括以下步骤:构造标点符号添加的训练数据集、基于神经网络构建中文标点符号添加方法、利用标点符号训练数据集来训练神经网络、利用训练好的神经网络对中文标点符号进行恢复、勘误;本发明从大数据出发,构建深度神经网络模型来对中文标点符号恢复、勘误,突破了传统的大量人工检测的局限,神经网络在大量训练集一经训练完成,就可以对各种题材的文本进行标点符号的恢复勘误,经大量文本训练过后的神经网络,标点符号预测的准确率在95%以上,精确率在85%以上,召回率在85%以上,f1值在85%以上,符合工业要求水平,本发明可应用于对语音合成文字后的文本进行标点符号勘误。
-
公开(公告)号:CN112231562B
公开(公告)日:2023-07-14
申请号:CN202011099869.8
申请日:2020-10-15
Applicant: 北京工商大学
IPC: G06F40/30 , G06F40/216 , G06F16/35 , G06N3/0464 , G06N3/048 , G06N3/084 , G06Q50/00
Abstract: 本发明涉及一种网络谣言识别方法即系统,方法包括:根据包含谣言信息的多个文本得到文本特征矩阵;构建传播图结构,图结构中的节点为多个文本,图结构中的邻接矩阵为谣言信息在多个文本之间的转发和评论关系;构建图卷积神经网络模型;图卷积神经网络模型的输入为文本特征矩阵和邻接矩阵,图卷积神经网络模型的输出为谣言特征矩阵;根据谣言特征矩阵训练神经网络模型,得到谣言识别模型;根据谣言识别模型识别网络谣言。本发明根据谣言在多个文本之间的转发和评论关系训练图卷积神经网络模型,根据谣言特征矩阵训练神经网络模型,有效的捕获了谣言信息广泛且分散的传播特征,可以有效识别谣言信息。
-
公开(公告)号:CN113688171B
公开(公告)日:2022-05-10
申请号:CN202110974801.8
申请日:2021-08-24
IPC: G06F16/2458 , G06N3/04 , G06N3/08 , G06Q10/00 , G06Q50/30
Abstract: 本发明涉及一种基于图卷积神经网络的列车制动故障检测方法及系统,方法包括:获取列车制动故障数据以及各监测器之间的连接关系,根据所述列车制动故障数据和所述连接关系构建列车制动故障样本集;根据所述各监测器之间的连接关系构建标准邻接矩阵;根据所述列车制动故障数据构建自适应邻接矩阵;根据所述标准邻接矩阵和所述自适应邻接矩阵构建列车制动故障检测模型;利用所述列车制动故障样本集对所述列车制动故障检测模型进行训练,得到训练好的列车制动故障检测模型;利用训练好的列车制动故障检测模型进行列车制动故障检测。本发明能有效检测出列车运行过程中所发生的制动故障及其故障类型,从而保证了列车运行的安全性和可靠性。
-
公开(公告)号:CN112329439A
公开(公告)日:2021-02-05
申请号:CN202011291703.6
申请日:2020-11-18
Applicant: 北京工商大学 , 北京市疾病预防控制中心
IPC: G06F40/211 , G06F40/216 , G06F40/289 , G06K9/62 , G06N3/04 , G06N3/08 , G06Q50/26
Abstract: 本发明涉及一种基于图卷积神经网络模型的食品安全事件检测方法及系统。该方法包括:对从食品安全相关网站获取的数据进行预处理;根据预处理后的数据构建文本分类模型;获取待预测的食品安全事件数据;将所述待预测的食品安全事件数据输入至所述文本分类模型中,得到食品安全事件的分类结果。本发明能够根据国家食品安全事件分级标准,对获取的食品安全事件进行快速准确的分类。
-
公开(公告)号:CN111125358A
公开(公告)日:2020-05-08
申请号:CN201911302220.9
申请日:2019-12-17
Applicant: 北京工商大学
Abstract: 本发明公开一种基于超图的文本分类方法,包括:步骤一、构建语料库和语料库的关键词库,基于语料库生成超图,得到超图的超边和结点;步骤二、基于共现窗口计算关键词的邻接矩阵;步骤三、对语料库中的每一个文档通过超边向量表示,形成超边矩阵;步骤四、计算超边之间的相似度,构建超边的相似度矩阵;步骤五、构建由词向量组成的超图结点特征矩阵;步骤六、使用图神经网络模型对超边进行分类,得到语料库中每个文档类别的第一次预测概率;步骤七、基于文档的真实标签,采用随机梯度下降算法更新图神经网络模型的参数矩阵,完成语料库中无标签文本的分类;本发明实现了对语料库中无标签文本的准确分类。
-
公开(公告)号:CN110705260A
公开(公告)日:2020-01-17
申请号:CN201910905090.1
申请日:2019-09-24
Applicant: 北京工商大学
IPC: G06F40/216 , G06F40/284 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明公开一种基于无监督图神经网络结构的文本向量生成方法,利用停用词语料对收集的所有文本语料做去停用词处理,从处理后的语料中选取关键词,计算并保存文本关键词权重以及关键词间权重,构建文本-关键词网络邻接矩阵;其次利用训练好的词向量作为单词节点特征,文档内出现关键词计算文本初始节点特征,得到文本-关键词网络特征矩阵;最后构建与正样本相对应的负样本邻接矩阵和特征矩阵,利用损失函数与构建的网络模型步骤、梯度下降使损失收敛,取收敛后的文本节点特征向量,得到基于无监督GNN的文本表示向量。本发明充分考虑到了语料库中非连续的全局词共现和长距离语义以及单个文档对所有文档-关键词集合的总相关性。
-
公开(公告)号:CN109948152A
公开(公告)日:2019-06-28
申请号:CN201910168386.X
申请日:2019-03-06
Applicant: 北京工商大学
Abstract: 本发明公开了一种基于LSTM的中文文本语法纠错模型的方法,首先收集大量的中文文本语料用以计算5-gram语言模型,保存的语言模型将会用作数据处理过程和模型输出的结果选择,然后收集语法纠错平行语料数据,语法纠错平行语料数据用作训练LSTM神经网络模型,实现模型对错误句子到正确句子的序列翻译过程;其次用保存好的5-gram语言模型对平行语料数据进行预处理,修改掉明显的错误,最后构建LSTM神经网络并用预处理后的数据进行训练,训练结束保存网络参数,并用已训练好的网络,输出语法正确的文本序列。本发明数据容易获取,过程简单有效,LSTM神经网络自动抽取抽象特征,完成语法纠错任务,算法效率和准确度都相对较高,应用于中文学习过程和语音识别后端处理。
-
公开(公告)号:CN106021232B
公开(公告)日:2019-06-28
申请号:CN201610350203.2
申请日:2016-05-24
Applicant: 北京工商大学
Abstract: 本发明涉及一种基于依存句法关系的微博马甲账号识别方法,具体步骤如下:步骤一:获取微博文本数据;步骤二:采用分词软件进行分词,去除英文及标点符号;步骤三:采用依存句法分析软件,对已分词后的文本进行依存句法分析,每条微博会得到一个句法分析结果;步骤四:某人的微博列表中的每个文本利用步骤三的方法得到分析结果;采用Apriori算法计算某人微博的常用依存句法结构;步骤五:将需要判断是否为马甲关系的两个账号分别按照步骤一至四的结果进行对比,相同即为马甲关系,反之,则为非马甲关系。本发明方法可以用在社交网站对于网络安全的管理以及政府关于网络犯罪的追查,能够快速,有效地识别马甲账号。
-
公开(公告)号:CN102799884B
公开(公告)日:2015-05-06
申请号:CN201210243656.7
申请日:2012-07-13
Applicant: 北京工商大学
IPC: G06K9/46
Abstract: 一种基于格式塔规则的图像目标轮廓提取方法,它有五大步骤:一、根据由Canny图像边缘检测算法,生成图像的边缘数据,得到目标轮廓的候选边缘集,用与图像像素点相同的二维矩阵储存;二、依据二维矩阵元素对应的像素点取3邻域的平均值,减去整个二维矩阵的元素平均值,得到边缘的特征串进行存储;三、根据边缘特征串投影到图像平面的强度,通过一个阈值选择10-15%的候选边缘作为轮廓提取数据集,作为轮廓提取的特征量用二维矩阵储存,此二维矩阵储存量最大可为约减前的1/100;四、对候选的边缘进行编组,形成目标轮廓:五、根据四的方法提取图像中的闭合轮廓的概率,选择其中闭合环概率大的环作为目标轮廓。
-
-
-
-
-
-
-
-
-