-
公开(公告)号:CN109948162A
公开(公告)日:2019-06-28
申请号:CN201910225744.6
申请日:2019-03-25
Applicant: 北京理工大学
Abstract: 本发明涉及融合序列语法标注框架的生成式文本摘要方法,属于自然语言处理领域。主要为了解决现有模型在产生摘要时没有考虑语法结构,因此生成的摘要存在不满足语法规则的问题。本发明首先利用开源句法分析器Berkeley Parser对句子进行成分句法分析,生成短语解析树;其次通过深度优先遍历算法,将短语解析树线性化成一个结构标签序列;然后使用word2vec工具对语法标注序列进行向量化;最后将源语法结构信息输入到编码器中,经过摘要生成模块编、解码,最终生成摘要。实验在CNN/Daily Mail数据集上进行,结果表明本发明不仅解决了超纲词、重复短语、主题不显著等问题,而且生成的摘要基本满足语法规则,可读性更强,与源文本语法更具有一致性,ROUGE得分比先进算法有一定提高。
-
公开(公告)号:CN105740238A
公开(公告)日:2016-07-06
申请号:CN201610124157.4
申请日:2016-03-04
Applicant: 北京理工大学
IPC: G06F17/27
CPC classification number: G06F17/2785 , G06F17/2745 , G06F17/2765
Abstract: 本发明涉及一种融合句义信息的事件关系强度图构建方法。首先基于汉语句义结构理论,提取句子语义信息,扩充事件的特征维度,并利用改进的TF?IDF方法完成事件向量表达,再结合上下文信息和核心事件信息优化事件向量,最后利用LDA方法获取事件之间关系强度,设定合适的关系强度阈值,构建事件关系强度图。本发明通过融合句义信息,提供了一种将孤立分散的事件以一种可度量形式关联起来的方法,并通过事件关系强度图直观展示事件间的关系,准确的定位核心事件,有力支撑后续基于事件关系的自动文摘、舆情预测等自然语言处理应用。
-
公开(公告)号:CN115118451A
公开(公告)日:2022-09-27
申请号:CN202210536021.X
申请日:2022-05-17
Applicant: 北京理工大学
Abstract: 本发明涉及结合图嵌入知识建模的网络入侵检测方法,属于计算机与信息科学技术领域。本发明首先对网络入侵流量数据包进行特征提取,定义特征节点与数据包节点类别,并根据节点之间的关系构造流量异构网络;然后基于元路径的游走方法生成节点上下文序列,训练图嵌入模型生成节点的特征向量表示;最后,根据模型生成测试集节点的特征向量表示,采用基于节点相似度计算的方法判别节点标签,实现对网络入侵流量的检测。优化了网络流量数据结构复杂情况下,当前深度学习网络入侵检测模型无法充分捕获节点之间拓扑结构关系和特征权重选择不当的问题。针对网络入侵流量本发明能达到较好的分类效果,进一步提升了网络入侵检测的正确率。
-
公开(公告)号:CN113221575B
公开(公告)日:2022-08-02
申请号:CN202110607269.6
申请日:2021-05-28
Applicant: 北京理工大学
IPC: G06F40/295 , G06N3/04 , G06N3/08 , G06K9/62
Abstract: 本发明涉及PU强化学习的远程监督命名实体识别方法,属于自然语言处理与机器学习领域。主要为了解决中文命名实体识别任务的远程监督样本存在噪声标记、模型学习样本特征效率低下问题和训练过程缺乏有效监测机制。本发明首先利用BLSTM模型对文本提取单条样本序列特征和多标签评分信息;然后,基于PU强化学习,训练样本选择器,从标记语料和远程监督语料中筛选出正样本和负样本。再将负样本送入去噪还原器得到还原样本。再引入无偏、一致地估计任务损失的损失函数,使用正样本和还原样本训练中文命名实体识别模型;最后重复上述模型训练,直到筛选标记语料趋于稳定。在ICT语料、EC语料和NEWS进行了实验,结果表明本发明能达到较好的去噪效果。
-
公开(公告)号:CN113222119A
公开(公告)日:2021-08-06
申请号:CN202110594279.0
申请日:2021-05-28
Applicant: 北京理工大学
IPC: G06N3/04 , G06N3/08 , G06F40/284 , G06F16/28
Abstract: 本发明涉及利用拓扑依存关系多视角图编码器的论元抽取方法,属于自然语言处理与机器学习领域。主要为了解决采用单类型特征建模提取论元时,造成多种角色的论元特征表示易受到与候选论元无语义关联信息的干扰,导致多角色论元的特征表示不准确的问题。本发明首先利用BERT预训练模型对数据集实现文本嵌入,得到文本嵌入向量,触发词类别嵌入向量和实体类别嵌入向量;然后对候选论元、实体类别和触发词之间的拓扑关系进项建模,构建多视角图信息网络;最后利用图卷积网络分别对多视角图编码,聚合得到候选论元多视角图嵌入向量,经过SoftMax全连接层从候选论元中分类抽取事件论元。在ACE2005英文语料上进行实验,结果表明本发明能达到较好的论元抽取效果。
-
公开(公告)号:CN113221872A
公开(公告)日:2021-08-06
申请号:CN202110607067.1
申请日:2021-05-28
Applicant: 北京理工大学
Abstract: 本发明涉及生成对抗网络与多模态融合的假新闻检测方法,属于机器学习领域。主要为了解决单模态假新闻检测特征不足,多模态假新闻检测中不同模态特征之间异质性较大且拼接方式简单,模型训练过程局限于单一数据集,导致假新闻检测准确率和模型泛化性低下的问题。本发明首先需要训练条件生成对抗网络,该网络可以根据输入图片输出描述图片的文本特征;然后提取新闻的文本特征和图片特征,使用条件生成对抗网络将新闻图片特征转化为文本特征,将新闻文本特征、描述新闻图片的文本特征和新闻的图片特征进行张量融合;最后,将融合的特征输入神经网络得到新闻真实性的分类结果。
-
公开(公告)号:CN113221575A
公开(公告)日:2021-08-06
申请号:CN202110607269.6
申请日:2021-05-28
Applicant: 北京理工大学
IPC: G06F40/295 , G06N3/04 , G06N3/08 , G06K9/62
Abstract: 本发明涉及PU强化学习的远程监督命名实体识别方法,属于自然语言处理与机器学习领域。主要为了解决中文命名实体识别任务的远程监督样本存在噪声标记、模型学习样本特征效率低下问题和训练过程缺乏有效监测机制。本发明首先利用BLSTM模型对文本提取单条样本序列特征和多标签评分信息;然后,基于PU强化学习,训练样本选择器,从标记语料和远程监督语料中筛选出正样本和负样本。再将负样本送入去噪还原器得到还原样本。再引入无偏、一致地估计任务损失的损失函数,使用正样本和还原样本训练中文命名实体识别模型;最后重复上述模型训练,直到筛选标记语料趋于稳定。在ICT语料、EC语料和NEWS进行了实验,结果表明本发明能达到较好的去噪效果。
-
公开(公告)号:CN111651993A
公开(公告)日:2020-09-11
申请号:CN202010394579.X
申请日:2020-05-11
Applicant: 北京理工大学
IPC: G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明涉及融合局部-全局字符级关联特征的中文命名实体识别方法,属于计算机与信息科学技术领域。本发明首先将一段非结构化中文文本转化为一个初始数值向量序列;其次提取其中的字符级序列特征和局部-全局字符级关联特征,形成特征向量序列;然后使用一个线性链式条件随机场对特征向量序列进行序列标注,得到标签序列;最后根据非结构化中文文本和标签序列,输出“实体&类别”对。本发明分别在Microsoft Research Asia和E-commerce中文命名实体识别语料上进行实验,结果表明通过引入字符级序列特征和局部-全局字符级关联特征,有效缓解了现有中文命名实体识别方法依赖词级别特征且非结构化中文文本缺少词边界的问题,提高了F1值。
-
-
公开(公告)号:CN105740238B
公开(公告)日:2019-02-01
申请号:CN201610124157.4
申请日:2016-03-04
Applicant: 北京理工大学
IPC: G06F17/27
Abstract: 本发明涉及一种融合句义信息的事件关系强度图构建方法。首先基于汉语句义结构理论,提取句子语义信息,扩充事件的特征维度,并利用改进的TF‑IDF方法完成事件向量表达,再结合上下文信息和核心事件信息优化事件向量,最后利用LDA方法获取事件之间关系强度,设定合适的关系强度阈值,构建事件关系强度图。本发明通过融合句义信息,提供了一种将孤立分散的事件以一种可度量形式关联起来的方法,并通过事件关系强度图直观展示事件间的关系,准确的定位核心事件,有力支撑后续基于事件关系的自动文摘、舆情预测等自然语言处理应用。
-
-
-
-
-
-
-
-
-