-
公开(公告)号:CN113221575B
公开(公告)日:2022-08-02
申请号:CN202110607269.6
申请日:2021-05-28
Applicant: 北京理工大学
IPC: G06F40/295 , G06N3/04 , G06N3/08 , G06K9/62
Abstract: 本发明涉及PU强化学习的远程监督命名实体识别方法,属于自然语言处理与机器学习领域。主要为了解决中文命名实体识别任务的远程监督样本存在噪声标记、模型学习样本特征效率低下问题和训练过程缺乏有效监测机制。本发明首先利用BLSTM模型对文本提取单条样本序列特征和多标签评分信息;然后,基于PU强化学习,训练样本选择器,从标记语料和远程监督语料中筛选出正样本和负样本。再将负样本送入去噪还原器得到还原样本。再引入无偏、一致地估计任务损失的损失函数,使用正样本和还原样本训练中文命名实体识别模型;最后重复上述模型训练,直到筛选标记语料趋于稳定。在ICT语料、EC语料和NEWS进行了实验,结果表明本发明能达到较好的去噪效果。
-
公开(公告)号:CN114547670A
公开(公告)日:2022-05-27
申请号:CN202210039857.9
申请日:2022-01-14
Applicant: 北京理工大学
IPC: G06F21/62
Abstract: 本发明涉及利用差分隐私词嵌入扰动的敏感文本脱敏方法,属于差分隐私保护技术领域。本发明首先利用命名实体识别技术识别文本中的敏感单词,并随机抽样语料库中的非敏感单词;其次给敏感单词的词嵌入向量加上差分隐私噪声,生成新的扰动词嵌入向量;然后度量扰动词嵌入向量和非敏感单词的词嵌入向量之间的欧几里得距离,依据最近邻公式取得候选词集合;最后依据多单位拍卖概率公式用候选词集合中的单词替换文本中所有的敏感单词后输出脱敏文本。本发明在多个语料上实验,结果表明其在多种文本上都能达到较好的脱敏效果,具有良好的通用性和可迁移性。
-
公开(公告)号:CN109271788B
公开(公告)日:2021-10-12
申请号:CN201810963774.2
申请日:2018-08-23
Applicant: 北京理工大学
Abstract: 本发明涉及一种基于深度学习的Android恶意软件检测方法,属于计算机与信息科学技术领域。本发明首先对Android应用软件进行特征提取,然后通过对Android应用文件进行解压缩和反编译等操作提取相关的安全特征。提取的特征包括3个方面:文件结构特征、安全经验特征和Dalvik指令集构成的N‑gram统计特征。然后对提取的特征进行数值化处理,构建特征向量。最后基于上述提取的相关特征构建DNN(Deep Neural Network)模型。通过构建的模型对新来的Android软件进行分类和识别。该方法融合了指令集的分析,具有对抗恶意软件混淆的作用,同时基于深度模型的恶意软件检测能够增强特征学习,能够很好地表达大数据的丰富内在信息,更加容易适应不断进化的恶意软件。
-
公开(公告)号:CN113238957A
公开(公告)日:2021-08-10
申请号:CN202110607268.1
申请日:2021-05-28
Applicant: 北京理工大学
Abstract: 本发明涉及智能化场景下流量监测系统的测试样本生成方法,属于计算机与信息科学技术领域。主要是为了解决现有的智能化场景下流量监测系统的测试样本生成方法存在未考虑神经元组合作用影响和生成条件严苛难以应用于实际测试的问题。本发明首先,构造一组种子测试集和三种变异模型,同时初始化组合覆盖列表;其次,对随机选择的一个种子测试,最大化原模型和变异模型结果置信度的差异性;接着,选择未达成组合覆盖条件的三元组,最小化使下层神经元发生状态转换的两个上层神经元的变动距离;最后,对以上两步进行联合优化,使用梯度上升算法求解,构造测试数据,并通过模型差异检测判断是否保留。重复执行如上步骤,直到种子数据集为空。
-
公开(公告)号:CN113222056A
公开(公告)日:2021-08-06
申请号:CN202110592135.1
申请日:2021-05-28
Applicant: 北京理工大学
Abstract: 本发明涉及一种基于深度神经网络隐藏层代表性特征最近邻搜索的图像分类系统对抗样本检测方法,属于人工智能对抗领域。主要为了解决对抗样本数量、种类较少难以用于训练和仅使用良性样本训练时深度神经网络隐藏层特征数量较多、相似特征计算量大的问题。本发明首先将只包含良性样本的训练集输入到被攻击图像分类系统中,提取系统隐藏层特征构建隐藏层特征池;并将其按照标签分别进行聚类,将每个簇中心作为该标签代表性特征向量,构建代表性特征池;对于测试样本,先进行图像去噪,再输入到系统中提取隐藏层特征,计算该特征在所有代表性特征中的K近邻,将其中出现频率最高的标签与直接将样本输入系统得到的标签比较,如果不同则为对抗样本。
-
公开(公告)号:CN113221872A
公开(公告)日:2021-08-06
申请号:CN202110607067.1
申请日:2021-05-28
Applicant: 北京理工大学
Abstract: 本发明涉及生成对抗网络与多模态融合的假新闻检测方法,属于机器学习领域。主要为了解决单模态假新闻检测特征不足,多模态假新闻检测中不同模态特征之间异质性较大且拼接方式简单,模型训练过程局限于单一数据集,导致假新闻检测准确率和模型泛化性低下的问题。本发明首先需要训练条件生成对抗网络,该网络可以根据输入图片输出描述图片的文本特征;然后提取新闻的文本特征和图片特征,使用条件生成对抗网络将新闻图片特征转化为文本特征,将新闻文本特征、描述新闻图片的文本特征和新闻的图片特征进行张量融合;最后,将融合的特征输入神经网络得到新闻真实性的分类结果。
-
公开(公告)号:CN113221575A
公开(公告)日:2021-08-06
申请号:CN202110607269.6
申请日:2021-05-28
Applicant: 北京理工大学
IPC: G06F40/295 , G06N3/04 , G06N3/08 , G06K9/62
Abstract: 本发明涉及PU强化学习的远程监督命名实体识别方法,属于自然语言处理与机器学习领域。主要为了解决中文命名实体识别任务的远程监督样本存在噪声标记、模型学习样本特征效率低下问题和训练过程缺乏有效监测机制。本发明首先利用BLSTM模型对文本提取单条样本序列特征和多标签评分信息;然后,基于PU强化学习,训练样本选择器,从标记语料和远程监督语料中筛选出正样本和负样本。再将负样本送入去噪还原器得到还原样本。再引入无偏、一致地估计任务损失的损失函数,使用正样本和还原样本训练中文命名实体识别模型;最后重复上述模型训练,直到筛选标记语料趋于稳定。在ICT语料、EC语料和NEWS进行了实验,结果表明本发明能达到较好的去噪效果。
-
公开(公告)号:CN112422505A
公开(公告)日:2021-02-26
申请号:CN202011090699.7
申请日:2020-10-13
Applicant: 北京理工大学
IPC: H04L29/06
Abstract: 本发明涉及基于高维扩展关键特征向量的网络恶意流量识别方法,属于计算机与信息科学技术领域。本发明首先对网络流量数据进行数据清洗和特征优化表达,采用特征分割与融合的方法从关键字、时段节点、行为组合三个方面构建特征,并进行归一化和标准化处理,获得关键词特征向量、时段特征向量、行为特征向量,顺序拼接获得高维扩展特征向量;然后结合专家调查法和因子分析法,进行关键影响因素分析,得到特征权重集,剔除冗余特征和混淆特征,提取关键特征向量;最后,对训练好的决策树进行AUC值计算和相似度计算,保留效果最好的决策树构建随机森林模型,实现对网络恶意流量的自动化识别和检测。
-
公开(公告)号:CN111651993A
公开(公告)日:2020-09-11
申请号:CN202010394579.X
申请日:2020-05-11
Applicant: 北京理工大学
IPC: G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明涉及融合局部-全局字符级关联特征的中文命名实体识别方法,属于计算机与信息科学技术领域。本发明首先将一段非结构化中文文本转化为一个初始数值向量序列;其次提取其中的字符级序列特征和局部-全局字符级关联特征,形成特征向量序列;然后使用一个线性链式条件随机场对特征向量序列进行序列标注,得到标签序列;最后根据非结构化中文文本和标签序列,输出“实体&类别”对。本发明分别在Microsoft Research Asia和E-commerce中文命名实体识别语料上进行实验,结果表明通过引入字符级序列特征和局部-全局字符级关联特征,有效缓解了现有中文命名实体识别方法依赖词级别特征且非结构化中文文本缺少词边界的问题,提高了F1值。
-
公开(公告)号:CN108462717B
公开(公告)日:2020-07-28
申请号:CN201810249326.6
申请日:2018-03-21
Applicant: 北京理工大学
IPC: H04L29/06
Abstract: 本发明涉及基于规则匹配命中率和分布方差的防火墙规则集优化方法,属于计算机与信息科学技术领域。本发明首先对防火墙初始化规则集进行预处理,预处理的内容包括规则集异常检测、异常处理及规则合并,预处理之后得到不存在异常规则的最简防火墙规则集。然后实时收集一段时间防火墙日志,根据防火墙日志信息计算规则权重,规则权重计算分为三个部分,分别是规则匹配命中频率统计、规则命中时间分布统计和根据这两项统计数据计算的规则权重值。最后根据计算出来的规则权重值,对防火墙规则集进行重排序,将权重值较高的规则放在优先级更高的位置。本发明相较于常规的防火墙规则集优化算法,有更好的优化效果,能够使防火墙保持较高的数据包过滤率,并且具备较好的灵活性和可移植性。
-
-
-
-
-
-
-
-
-