-
公开(公告)号:CN103150381B
公开(公告)日:2016-03-02
申请号:CN201310080760.3
申请日:2013-03-14
Applicant: 北京理工大学
Abstract: 本发明涉及一种基于规则和统计相结合的谓词识别方法,属于自然语言处理与机器学习领域,目的是为解决谓词高精度高效率识别问题。本发明采用分步识别方法,从已进行词法和句法标注的句子中识别谓词,首先对待测句子进行词法分析,得到可疑谓词及其个数;接着利用初步识别判定条件进行谓词初步识别;对不满足初步识别判定条件的可疑谓词提取相关词法和句法特征并利用C4.5训练得到的决策树判定模型对其进行判定;最终汇总两步识别结果给出每个待测句子中的谓词。本发明具有准确率高、识别速度快、对非动词性谓词识别率高等特点,适用于要求高精度的汉语谓词识别领域,对句义分析的发展具有很大的推动作用,具有很好的应用价值和推广价值。
-
公开(公告)号:CN103176963A
公开(公告)日:2013-06-26
申请号:CN201310074933.0
申请日:2013-03-08
Applicant: 北京理工大学
Abstract: 本发明涉及一种基于CRF++的汉语句义结构模型自动标注方法,属于计算机科学与自然语言处理语义分析技术领域。本发明首先使用BFS-CTC汉语标注语料库语料,训练得到谓词识别模型、词关系识别模型和语义格类型识别模型;进而使用上述三种识别模型,对原始句子进行识别,得到句子中谓词信息、词关系信息和语义格类型信息;最终根据谓词、词关系和语义格类型的搭配规则得到汉语句义结构模型。本发明为语义分析领域,提供了更多的更全面的语义特征,为使用计算机对句子进行句义结构模型分析奠定了基础。同时为BFS-CTC汉语标注语料库的自动标注,提供了一定的可能,语料数据无论是研究还是实际应用,都是极其重要的,将对BFS-CTC汉语标注语料库的扩充,起到极大的推动作用。
-
公开(公告)号:CN103150371A
公开(公告)日:2013-06-12
申请号:CN201310074209.8
申请日:2013-03-08
Applicant: 北京理工大学
IPC: G06F17/30
Abstract: 本发明涉及一种基于正反向训练的去混淆文本检索方法,属于计算机科学与信息检索技术领域。本发明首先对符合检索意愿和违背检索意愿的文本进行语言特征提取,训练得到检索模板;进而利用该检索模板,对待检索文本提取的语言特征库进行检索,得到检出文本,并按照与检索模板相似度由高到低对检出文本进行排序;最终在检出文本中,使用符合检索意愿和违背检索意愿的文本,反馈式更新检索模板,重新检索,得到优化检索结果。与现有技术相比,本发明采用的正、反向训练文本检索方法具有检索准确率高、检索速度快、去混淆明显等特点。
-
公开(公告)号:CN102831447A
公开(公告)日:2012-12-19
申请号:CN201210314435.4
申请日:2012-08-30
Applicant: 北京理工大学
IPC: G06K9/66
Abstract: 本发明涉及一种基于Haar-like特征的多类别面部表情高精度识别方法,属于计算机科学与图形图像处理技术领域。本发明首先使用Haar-like特征和串联人脸检测分类器实现高准确性的人脸检测;进而利用AdaBoost.MH算法对高维Haar-like特征进行特征筛选;最终使用随机森林算法进行表情分类器训练,以完成表情识别。与现有技术相比,本发明在进一步提升多种类别表情识别率的同时,大大减少训练和识别的时间开销,并可方便地实现并行化,以进一步提高识别效率、满足实时处理及移动计算的需求。本发明可对静态图像和动态视频进行高精度识别;不仅适用于桌面计算机,也适用于手机、平板电脑等移动计算平台。
-
公开(公告)号:CN118468332A
公开(公告)日:2024-08-09
申请号:CN202410489308.0
申请日:2024-04-23
Applicant: 北京理工大学 , 绿盟科技集团股份有限公司
IPC: G06F21/62 , G06F16/35 , G06F40/151 , G06N3/0455 , G06N3/08
Abstract: 本发明涉及利用双向梯度引导的扩散模型生成脱敏文本方法,属于计算机应用技术领域。本发明基于文本数据生成词嵌入向量,运用差分隐私随机梯度方法训练目标模型和攻击模型,记录二者的梯度方向;对词嵌入向量添加高斯噪声生成加噪数据;利用扩散模型对加噪数据进行逆扩散采样以生成预测词嵌入向量,联合目标模型和攻击模型的梯度方向指导扩散模型参数更新;用BERT模型将预测词嵌入向量转换为脱敏文本数据。本发明针对现有方法忽略敏感词的上下文语义及语义关联问题,提出利用双向梯度引导的扩散模型生成脱敏文本方法,利用逆扩散过程捕获原始语义,通过梯度方向引导扩散模型减弱文本中敏感信息的影响,有效提升脱敏文本数据的可用性和隐私保护效果。
-
公开(公告)号:CN117437452A
公开(公告)日:2024-01-23
申请号:CN202311675086.3
申请日:2023-12-07
Applicant: 北京理工大学
IPC: G06V10/762 , G06V10/42 , G06V10/44 , G06V10/82 , G06F18/23213 , G06N3/045 , G06N3/0455 , G06N3/0464 , G06N3/084 , G06N3/0895
Abstract: 本发明涉及整合两种约束的多视图深度半监督图像聚类方法,属于计算机与信息科学技术领域。本发明首先使用卷积神经网络和残差神经网络提取原始图像的空间特征,得到图像的局部形状特征视图和全局结构特征视图;其次将原始图像视图和上述两个视图通过自编码器网络构建多视图特征空间并初始化其聚类中心;然后将数据中的标签约束和成对约束整合为成对关系矩阵;最后使用初始聚类中心和成对关系矩阵组成损失函数,迭代更新聚类中心并得到聚类结果。本发明针对现有方法忽略了不同约束条件的关联性,在含噪约束条件下,聚类结果易受错误约束条件影响的问题,提出整合两种约束的多视图深度半监督图像聚类方法,提高聚类准确率。
-
公开(公告)号:CN115118451B
公开(公告)日:2023-09-08
申请号:CN202210536021.X
申请日:2022-05-17
Applicant: 北京理工大学
Abstract: 本发明涉及结合图嵌入知识建模的网络入侵检测方法,属于计算机与信息科学技术领域。本发明首先对网络入侵流量数据包进行特征提取,定义特征节点与数据包节点类别,并根据节点之间的关系构造流量异构网络;然后基于元路径的游走方法生成节点上下文序列,训练图嵌入模型生成节点的特征向量表示;最后,根据模型生成测试集节点的特征向量表示,采用基于节点相似度计算的方法判别节点标签,实现对网络入侵流量的检测。优化了网络流量数据结构复杂情况下,当前深度学习网络入侵检测模型无法充分捕获节点之间拓扑结构关系和特征权重选择不当的问题。针对网络入侵流量本发明能达到较好的分类效果,进一步提升了网络入侵检测的正确率。
-
公开(公告)号:CN116318877A
公开(公告)日:2023-06-23
申请号:CN202310123302.7
申请日:2023-02-16
Applicant: 北京理工大学
IPC: H04L9/40 , H04L41/14 , G06F18/2415 , G06F18/22 , G06F18/23
Abstract: 本发明涉及利用多种特征流形向量的入侵检测系统对抗样本防御方法,属于计算机与信息科学领域。本发明首先对网络流量样本提取多种特征:利用径向神经网络计算样本类别预测概率,基于注意力机制计算样本特征权重并提取高权重特征,计算样本特征间相关度并提出随机递归式特征消除算法选择高相关度特征;其次,将多种特征映射为低维流形向量,并分别与良性、恶意流量样本流形向量计算相似度;最后,依据流形相似度利用降噪自编码器生成重构特征后的流量样本,再通过入侵检测系统进行判别。本发明基于多种特征流形相似度对样本特征进行重构,降低了特征中对抗性扰动对检测精度的影响,提升了入侵检测系统对对抗样本的防御能力。
-
公开(公告)号:CN115757714A
公开(公告)日:2023-03-07
申请号:CN202211331155.4
申请日:2022-10-28
Applicant: 北京理工大学
IPC: G06F16/332 , G06F16/33 , G06F16/35 , G06F17/10 , G06F18/214 , G06F18/22 , G06N3/0464
Abstract: 本发明涉及一种强化关联度计算的小样本用户多意图识别方法,属于自然语言处理领域。本发明旨在为用户对话样本标定多个意图标签,首先,利用BERT提取用户对话样本及其对应标签的嵌入表示;其次,计算支持集中标签与样本的关联度以增强标签原型表示,利用标签原型和查询样本构建原型网络;然后,计算多个领域的通用阈值和小样本领域的特定阈值,并以其他领域样本与查询样本的关联度均值为系数计算原型网络阈值;最后,根据原型网络阈值筛选出查询样本对应的多个意图标签。本发明提出强化关联度计算方法,同时考虑嵌入表示的特征值差异和特征维度差异,进一步降低标签间的干扰,并改进原型网络阈值计算方法,有效提升多意图识别任务的准确率。
-
公开(公告)号:CN110334904B
公开(公告)日:2023-03-03
申请号:CN201910459822.9
申请日:2019-05-30
Applicant: 北京理工大学
IPC: G06F16/84
Abstract: 本发明涉及基于LightGBM的关键信息基础设施类型单位归属判定方法,属于网络空间安全与机器学习领域。主要为了解决传统的依赖人力对关键信息基础设施类型进行标注的效率低、可扩展性差的问题。本发明提出一种基于机器学习算法,结合多类型、多截面数据采集及特征表达的关键信息基础设施资产特征优化表达与多目标分类技术研究方法,在此基础上构建关键信息基础设施类型归属判别应用系统,根据设施资产数据判定其属于哪一类的关键信息基础设施(如政府机关、国防科工、广播电台、运营商等等),实现对关键信息基础设施类型归属的识别认定。实验结果表明,本发明提出的算法的准确率和查全率较好,与规则匹配方法相比,具有很好的判定效果。
-
-
-
-
-
-
-
-
-