-
公开(公告)号:CN115118451B
公开(公告)日:2023-09-08
申请号:CN202210536021.X
申请日:2022-05-17
Applicant: 北京理工大学
Abstract: 本发明涉及结合图嵌入知识建模的网络入侵检测方法,属于计算机与信息科学技术领域。本发明首先对网络入侵流量数据包进行特征提取,定义特征节点与数据包节点类别,并根据节点之间的关系构造流量异构网络;然后基于元路径的游走方法生成节点上下文序列,训练图嵌入模型生成节点的特征向量表示;最后,根据模型生成测试集节点的特征向量表示,采用基于节点相似度计算的方法判别节点标签,实现对网络入侵流量的检测。优化了网络流量数据结构复杂情况下,当前深度学习网络入侵检测模型无法充分捕获节点之间拓扑结构关系和特征权重选择不当的问题。针对网络入侵流量本发明能达到较好的分类效果,进一步提升了网络入侵检测的正确率。
-
公开(公告)号:CN113240041B
公开(公告)日:2022-11-08
申请号:CN202110607066.7
申请日:2021-05-28
Applicant: 北京理工大学
Abstract: 本发明涉及融合影响因子的二进制函数相似性检测方法,属于网络安全技术领域。主要为了解决基于图嵌入的二进制函数相似性检测方法中由于忽略后继结点和邻居结点对于顶点的不同影响而导致的信息损失问题。本发明首先对两个二进制函数进行预处理,得到两个二进制函数的控制流程图(CFG1,CFG2);然后对CFG中的每个基本块进行特征提取,将其表示成特征向量,生成对应的属性控制流图(ACFG1,ACFG2);接下来将两个函数的属性控制流程图ACFG1,ACFG2输入到两个完全相同的图嵌入网络中,转换成对应的高维向量。通过最小化目标函数训练图嵌入网络中的参数,计算两个高维向量的余弦距离,输出两个二进制函数的相似度。提高了二进制函数相似性检测的准确率。
-
公开(公告)号:CN113221872B
公开(公告)日:2022-09-20
申请号:CN202110607067.1
申请日:2021-05-28
Applicant: 北京理工大学
Abstract: 本发明涉及生成对抗网络与多模态融合的假新闻检测方法,属于机器学习领域。主要为了解决单模态假新闻检测特征不足,多模态假新闻检测中不同模态特征之间异质性较大且拼接方式简单,模型训练过程局限于单一数据集,导致假新闻检测准确率和模型泛化性低下的问题。本发明首先需要训练条件生成对抗网络,该网络可以根据输入图片输出描述图片的文本特征;然后提取新闻的文本特征和图片特征,使用条件生成对抗网络将新闻图片特征转化为文本特征,将新闻文本特征、描述新闻图片的文本特征和新闻的图片特征进行张量融合;最后,将融合的特征输入神经网络得到新闻真实性的分类结果。
-
公开(公告)号:CN113222775A
公开(公告)日:2021-08-06
申请号:CN202110607064.8
申请日:2021-05-28
Applicant: 北京理工大学
Abstract: 本发明涉及融合多模态信息及权重张量的用户身份关联方法,属于机器学习领域。主要为了解决目前用户身份关联方法中使用的用户信息单一,忽略其他模态信息和需要大量的标注数据的问题。本发明收集用户多模态特征信息并进行预处理,构建社交网络用户数据集;然后,使用规则匹配方法获得初始用户匹配矩阵和候选集过滤器;最后通过Transformer编码器和改进的基于权重张量分解的张量融合方法得到用户多模态特征的联合嵌入,使用Triplet Network结构迭代更新Transformer编码器权值,根据两个用户的联合嵌入表示相似性和设定的阈值判断两个用户是否匹配,输出最终用户匹配矩阵。
-
公开(公告)号:CN112288495A
公开(公告)日:2021-01-29
申请号:CN202011238426.2
申请日:2020-11-09
Applicant: 北京理工大学
Abstract: 本发明涉及结合网络拓扑和商业属性的ICT供应链关键节点识别方法,属于自然语言处理与机器学习领域。主要为了解决ICT供应链网络节点关键性受到节点本身商业属性和在网络中的拓扑结构的双重影响的问题。本发明首先,利用doc2vec从句子嵌入得到ICT供应链网络供应商节点公司类型、登记状态、住所和经营范围的向量表示,并将注册资本进行归一化,将这四种商业属性的向量和注册资本归一化的数值拼接得到融合五种商业属性的句子向量S1;其次利用Deepwalk算法得到ICT供应链网络节点拓扑嵌入向量S2;最后向量S1和S2进行拼接,并通过线性分类实现ICT供应链网络关键节点识别。在ICT供应链网络的供应商节点信息数据集上实验,结果表明本发明能达到较好的分类效果,准确率达71.4%。
-
公开(公告)号:CN111651528A
公开(公告)日:2020-09-11
申请号:CN202010396741.1
申请日:2020-05-11
Applicant: 北京理工大学
IPC: G06F16/28 , G06F40/289 , G06N3/04 , G06N3/08
Abstract: 本发明涉及基于生成式对抗网络的开放式实体关系抽取方法,属于自然语言处理与机器学习领域。针对微博数据短小杂乱的特点,以及现有方法未考虑句子间语义相似性导致抽取的实体关系对准确率低且冗余的问题,提出一种基于生成式对抗网络的开放式实体关系抽取方法。该方法首先通过关系词和论元抽取规则得到实体三元组,通过语法分析树筛选三元组得到候选实体关系对。其次利用生成式对抗网络计算句子相似度,根据相似度阈值,划分相似句子组,并结合组内句子包含的实体关系对与其对应的置信度,合并组内实体关系对。本发明在NLP&&CC微博语料上进行实验,结果表明通过计算实体关系对置信度和划分相似句子组,合并组内实体关系对,提高了准确率和召回率,达到了去冗余的效果。
-
公开(公告)号:CN111597820A
公开(公告)日:2020-08-28
申请号:CN202010393829.8
申请日:2020-05-11
Applicant: 北京理工大学
Abstract: 本发明涉及ICT供应链招投标项目与企业产品实体匹配方法,属于自然语言处理与机器学习领域。主要为了解决ICT领域招投标项目和企业产品之间由于描述角度不同而造成的匹配困难问题。本发明首先根据维基百科预训练所得的词向量表,查表获得目标实体词嵌入向量表示;将由词嵌入向量序列表示的待匹配的实体对分别传递至LSTM孪生网络,由模型最终隐藏状态编码得到实体对最终语义向量表示;后使用基于曼哈顿距离的度量函数计算待匹配实体对的空间相似度,根据阈值得到匹配结果。在ICT招投标项目知识库与企业官网产品知识库构建的数据集上对本技术方案及经典方案进行对比实验,结果表明该方法进一步提升了正确率和F1值,获得了更好的实体匹配效果。
-
公开(公告)号:CN111489066A
公开(公告)日:2020-08-04
申请号:CN202010227387.X
申请日:2020-03-27
Applicant: 北京理工大学
Abstract: 本发明涉及融合市场布局特征的ICT供应链网络节点可用性评估方法,属于计算机与信息科学技术领域。主要针对目前ICT供应链网络节点可用性评估指标体系不完善以及评估方法不完备的问题。本发明首先通过量化企业类型、注册资本、成立日期、登记状态、企业住所、分支机构等信息,获取供应商节点商业特征,通过doc2vec算法将企业经营范围的文本描述表征为文本向量,获取供应商节点产品特征,通过量化其个体影响边际、产品布局和行业布局,获取其市场布局特征;最后通过融合这三类特征并构建blending集成学习的供应链节点可用性量化评估模型,输出节点可用性评级(3级:强、较强、一般)。在项目获取的ICT招投标项目数据集上实验,供应商可用性评级任务准确率达77.07%。
-
公开(公告)号:CN110032634A
公开(公告)日:2019-07-19
申请号:CN201910310766.2
申请日:2019-04-17
Applicant: 北京理工大学
IPC: G06F16/332 , G06F16/36 , G06N3/04
Abstract: 本发明涉及一种基于多类型深度特征的中文命名实体识别方法,属于计算机与信息科学技术领域。本发明首先依据公开且已训练好的字符向量表,将非结构化文本中的字符替换为数值向量;其次分别提取字符级数值向量序列中的文本序列特征、字符重要度特征和上下文重要度特征;然后将每个字符对应的三个特征向量串联成一个特征向量,用线性链式条件随机场对其进行标注;最后将非结构化文本和标签序列对齐,使字符和标签按顺序一一对应,根据标签获得命名实体,表示为“实体——类别”对。本发明在Microsoft Research Asia中文命名实体识别语料上进行实验,结果表明通过引入软注意力模型和上下文注意力模型,实现了对字符重要度特征和上下文重要度特征的利用,提高了F1值。
-
公开(公告)号:CN109992774A
公开(公告)日:2019-07-09
申请号:CN201910225532.8
申请日:2019-03-25
Applicant: 北京理工大学
Abstract: 本发明涉及基于词属性注意力机制的关键短语识别方法,属于自然语言处理与机器学习领域。主要为了解决现有关键短语识别方法无法识别文本中未出现的关键短语的问题。本发明首先利用词嵌入学习将输入文本的词和词性标签转化为向量;其次利用RNN编码器对单词序列和词性标签序列进行编码,获得单词序列和词性标签序列的隐藏状态;然后基于词属性注意力机制对单词序列的隐藏状态进行权值分配,并计算上下文向量;随后通过RNN解码器解码上下文向量并逐字生成可变长度序列;最后通过beam search算法生成关键短语。在567,830篇科研文章和新闻刊物上进行实验,结果表明本发明能达到较好的关键短语识别效果,进一步提升了识别的正确率。
-
-
-
-
-
-
-
-
-