-
公开(公告)号:CN114707512A
公开(公告)日:2022-07-05
申请号:CN202210279479.1
申请日:2022-03-21
Applicant: 北京理工大学
Abstract: 本发明涉及一种基于语义分解的隐式篇章关系分析方法,属于自然语言处理应用技术领域。本方法通过设计分流的网络结构和完整的流程,来分别处理论元中不同的语义信息,包括利用语义迁移网络和语义分解网络实现论元语义的信息分解。将对隐式篇章关系分析有用的信息流入任务相关型网络,对隐式篇章关系分析没有实际用处的信息流入任务无关型网络。以此提升模型对语义信息的筛选和理解的能力,达到提升隐式篇章关系分析的技术效果。本方法能够有效实现语义的分解、信息分流,能够使用户快速、准确地获得隐式篇章关系的分析结果。
-
公开(公告)号:CN114691755A
公开(公告)日:2022-07-01
申请号:CN202210299549.X
申请日:2022-03-25
Applicant: 北京理工大学
IPC: G06F16/2458 , G06F40/242 , G06F40/295 , G06F16/35 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于BiLSTM‑CRF的工业信息安全指纹挖掘方法,涉及工业信息安全技术领域,其技术方案要点是:通过使用BiLSTM‑CRF模型,即长短期记忆神经网络和条件随机场模型对工业系统安全指纹进行有监督的训练及识别,具体包括以下步骤:S1、有监督数据标注:利用已有安全指纹特征库对网络数据进行标注,构建有监督的训练数据;S2、模型训练,根据步骤S1,对BiLSTM‑CRF模型进行训练,得到完成训练的模型;S3、根据步骤S2,对完成训练的模型进行接口封装,使其在使用阶段可直接通过接口进行访问和调用,并获得指纹识别的结果。本发明的方法中的BiLSTM‑CRF模型综合考虑字粒度和词粒度的序列标注算法,能够有效地抽取中文文本中的词边界信息,从而对命名实体达到更加准确的识别效果。
-
公开(公告)号:CN111061935B
公开(公告)日:2022-04-12
申请号:CN201911292337.3
申请日:2019-12-16
Applicant: 北京理工大学
IPC: G06F16/951 , G06F16/9035 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于自注意力机制的科技写作推荐方法,属于计算机自然语言处理以及社交媒体技术领域。所述科技写作推荐方法,首先利用已有的段落写作内容,挖掘作者写作主题与意图,并以此初步筛选候选段落;其次设计了基于自注意力机制的深度科技写作推荐模型,用于获取上下文语境的深度语义表示,以对候选段落进行排序;通过将预测排序结果与真实排序结果进行比较,获取召回率和归一化折损累积增益,以评价写作推荐方法的好坏。所述方法与传统的基于内容的引文推荐方法相比,在一个真实的科技论文写作推荐中进行推荐预测,取得最高的召回率和归一化折损累积增益。
-
公开(公告)号:CN113962228A
公开(公告)日:2022-01-21
申请号:CN202111246473.6
申请日:2021-10-26
Applicant: 北京理工大学
Abstract: 本发明涉及一种基于记忆网络语义融合的长文档检索方法,解决长文档检索中面临的如何在有限的输入中最大可能地保留并融合不同段落的语义表示的技术问题,属于信息检索技术领域。本方法利用预训练语言模型强大的上下文语义建模能力,丰富用户查询向量表示和候选文档向量表示的语义信息,更好地实现语义匹配。本方法使用记忆网络存储文档各分段的向量表示作为记忆单元,针对用户查询,利用注意力机制动态读取记忆单元,融合不同段落间的语义向量,能够有效从长文档中抽取相关信息,摆脱了序列模型的遗忘问题,提升了长文档任务下的用户检索质量。
-
公开(公告)号:CN113947074A
公开(公告)日:2022-01-18
申请号:CN202111188307.5
申请日:2021-10-12
Applicant: 北京理工大学
IPC: G06F40/247 , G06F16/35 , G06F16/9536 , G06F40/289 , G06N3/04 , G06N3/08 , G06Q50/00
Abstract: 本发明涉及一种深度协同交互的情感原因联合抽取方法,属于自然语言处理情感分析技术领域。本方法采用预训练的单词特征向量表示文本序列中的每个单词的向量化表示,使用双向长短时记忆网络对融合外部知识的单词表示进行句子层面的文本编码。通过注意力机制决定每个词语在表示学习过程中的重要性,从而得到浅层情感表示与候选原因表示。采用多层协同注意力网络堆叠建模情感表示和原因表示的关联,输出得到深层交互情感表示与原因表示。最后采用联合学习的方式同时计算情感概率向量与原因概率向量。本方法能够更好地捕获文本情感、原因特征,且能够同时应用于显式情感文本及隐式情感文本的情感原因抽取场景,实现情感及其原因的同步联合抽取。
-
公开(公告)号:CN111401053B
公开(公告)日:2021-12-24
申请号:CN202010178856.3
申请日:2020-03-15
Applicant: 北京理工大学
IPC: G06F40/284 , G06F40/216 , G06F40/30 , G06F16/35
Abstract: 本发明涉及一种基于词组的概念化主题建模方法,属于自然语言处理中的文本挖掘领域。包括1)挖掘文本语料中的词组;2)从概念知识库获取概念和实体关系;3)设置主题数、Dirichlet分布先验参数及最大迭代次数N;4)随机为每篇文档的每个词组中的词分配概念;5)随机地为每个词组的概念分配相同的主题;6)通过Gibbs采样方法迭代N次,更新概念和主题分配;7)计算文档‑主题分布θ和主题‑概念分布φ的估计值;8)得出每篇文档中不同主题的占比;9)得出每个主题中不同概念的占比,并结合概念知识库对挖掘出的主题进行解释。所述方法使主题模型在挖掘文本语料主题的过程中,深入理解文本的含义,增强了主题挖掘的语义完整性。
-
公开(公告)号:CN110781690B
公开(公告)日:2021-07-13
申请号:CN201911049943.2
申请日:2019-10-31
Applicant: 北京理工大学
Abstract: 本发明涉及一种多源神经机器翻译模型的融合和压缩方法,属于自然语言处理应用技术领域。首先,构建基于Transformer的多源机器翻译模型;其次,使用CNN融合多个源的编码信息;再次,使用门控机制使模型可以自主选择是否使用辅助源语言;最后,根据矩阵间的距离不同,对矩阵进行不同方式的量化压缩;其中,多源机器翻译模型又包括编码器和解码器,所述模型的压缩包括计算矩阵距离和量化压缩。本发明所述方法针对多源模型结构复杂、参数多带来的存储空间过大问题,又探究了对模型进行量化压缩的方法,获得了更大的压缩率和更高的精准度。
-
公开(公告)号:CN109460483B
公开(公告)日:2021-05-04
申请号:CN201811123947.6
申请日:2018-09-26
Applicant: 北京理工大学
IPC: G06F16/53 , G06F16/951 , G06K9/62 , G06N3/08
Abstract: 本发明涉及一种基于深度注意力机制的图片新闻封面自动选择方法,属于计算机应用技术领域。本方法通过对训练集中的图片进行特征提取,将输入的图片表示成向量,将其作为深度注意力模型的输入,输出为同一条新闻所有图片的注意力值的加权平均;用该加权平均的值和图片的向量表示作为输入,训练一个分类器,通过开发集调整模型的参数。与现有方法相比,本发明方法在不需要人工干预的情况下,可以为图片新闻自动选择封面,可以为工作人员节省很多时间和精力,也可以为传媒公司节约成本。此外,在训练集、开发集和测试集数据相同的情况下,本发明与基于随机算法的图片新闻封面选择方法和基于SVM的图片新闻封面选择方法相比,准确率评测指标有明显提升。
-
公开(公告)号:CN110765254A
公开(公告)日:2020-02-07
申请号:CN201911008817.2
申请日:2019-10-21
Applicant: 北京理工大学
IPC: G06F16/332 , G06F16/35
Abstract: 一种融合多视角答案重排序的多文档问答系统模型,属于计算机自然语言处理领域。具体操作步骤包含:①预处理文档数据并得出文档先验概率;②将问题文档对输入答案预测模型中得到候选答案及内在置信度;③训练分类器对候选答案计算外在置信度;④融合内在置信度、外在置信度以及文档先验概率三个视角对候选答案进行排序。本发明提出的融合多视角答案重排序的多文档问答系统模型与已有技术模型相比较,添加了从多视角进行答案重排序的模块,有效解决了传统管道式模型过度依赖文档检索从而容易产生错误累积的问题。实验表明,本发明提出的方法在文本召回率ROUGE-L和精确率BLEU-4的评测指标上有显著提升。
-
公开(公告)号:CN109460483A
公开(公告)日:2019-03-12
申请号:CN201811123947.6
申请日:2018-09-26
Applicant: 北京理工大学
IPC: G06F16/53 , G06F16/951 , G06K9/62 , G06N3/08
Abstract: 本发明涉及一种基于深度注意力机制的图片新闻封面自动选择方法,属于计算机应用技术领域。本方法通过对训练集中的图片进行特征提取,将输入的图片表示成向量,将其作为深度注意力模型的输入,输出为同一条新闻所有图片的注意力值的加权平均;用该加权平均的值和图片的向量表示作为输入,训练一个分类器,通过开发集调整模型的参数。与现有方法相比,本发明方法在不需要人工干预的情况下,可以为图片新闻自动选择封面,可以为工作人员节省很多时间和精力,也可以为传媒公司节约成本。此外,在训练集、开发集和测试集数据相同的情况下,本发明与基于随机算法的图片新闻封面选择方法和基于SVM的图片新闻封面选择方法相比,准确率评测指标有明显提升。
-
-
-
-
-
-
-
-
-