一种基于注意力机制优化的网络数据命名实体识别方法

    公开(公告)号:CN119272770A

    公开(公告)日:2025-01-07

    申请号:CN202411190943.5

    申请日:2024-08-28

    Abstract: 本发明公开了一种基于注意力机制优化的网络数据命名实体识别方法,属于命名实体识别的预训练模型优化技术领域。解决了现有技术中传统的网络数据命名实体识别方法因未考虑网络安全数据特点导致的识别结果精度较低的问题;本发明给定输入序列,将其输入BERT模型,生成三种嵌入并进行相加,得到词的最终输入,输入到引入BERT模型的Transformer‑XL模型,设置基础矩阵,引入内容嵌入矩阵和位置嵌入矩阵,得到内容嵌入基础矩阵和位置嵌入基础矩阵;获得句子中任意两个单词之间的注意力机制分数,对所有注意力机制分数的加和进行归一化,得到归一化后的注意力机制分数。本发明有效提升了命名实体识别的精度,可以应用于实体识别。

    一种法律文本知识提取方法

    公开(公告)号:CN118734846A

    公开(公告)日:2024-10-01

    申请号:CN202410745744.X

    申请日:2024-06-11

    Abstract: 本发明提出一种法律文本知识提取方法,属于法律文本知识提取技术领域。包括:对待提取文本进行分词操作,将每个类别中的所有文档聚合成一个长文本,过滤法律停用词,生成每个类别关键词集合;搜索每个类别中与原类别共有关键词最多的相似类别加入关键词集合中;筛选每个类别和其相似类别中的独有关键词和共有关键词加入关键词集合中,以及筛选独有关键词和共有关键词中的偏置词加入关键词集合中。为了解决缺少法律领域的知识提取法方法的问题,本发明分别给出了基于人工干涉的知识提取方案以及无需人工干涉的自动化知识提取方案,对准确性和效率需求不同的场景提供个性化解决方案。

    一种基于可解释扰动策略的中文法律对抗文本生成方法

    公开(公告)号:CN118733767A

    公开(公告)日:2024-10-01

    申请号:CN202410745742.0

    申请日:2024-06-11

    Abstract: 本发明提出一种基于可解释扰动策略的中文法律对抗文本生成方法,属于对抗文本生成技术领域。包括:对法律文本进行法律知识提取;基于法律知识为文本中每个词语的重要性进行打分并排序;为待添加扰动的文本选择需要执行的扰动策略;执行扰动策略生成法律对抗文本。本发明解决了现有技术中存在缺少面向法律罪名分类任务的对抗文本生成方法的技术问题。本发明首先提取每类罪名的主要特征作为先验知识,然后将先验知识与强化相似标签和弱化原标签两种扰动策略结合,通过强化与原标签相似的标签的独有特征或弱化原标签自身的独有特征来生成对抗文本,这使得对抗文本的生成过程具有可解释性。

    基于ORS面向软标签输出深度学习模型鲁棒性评估方法

    公开(公告)号:CN118585779A

    公开(公告)日:2024-09-03

    申请号:CN202410688597.7

    申请日:2024-05-30

    Abstract: 本发明提出基于ORS面向软标签输出深度学习模型鲁棒性评估方法,属于鲁棒性评估技术领域。包括生成对抗文本,并使用对抗文本攻击目标模型,基于ORS计算目标模型的鲁棒性分数,评估鲁棒性。对抗文本基于词语重要性框架生成,词语重要性框架包括排序阶段和扰动阶段。利用文本对应的真值标签上的置信度计算重要性分数,若重要性分数大于0,则说明文本中的词语对真值标签有正向影响,即词语为文本中重要词语,反之词语为文本中非重要词语;为输出为软标签的目标模型的鲁棒性评估提供了一种可行的解决方案,解决了当前鲁棒性评估方法中评价指标不全面的问题,并量化了输出为软标签的深度学习模型的鲁棒性评估标准。

    一种基于时空信息提取的轨迹表征挖掘方法

    公开(公告)号:CN117216614A

    公开(公告)日:2023-12-12

    申请号:CN202311237696.5

    申请日:2023-09-22

    Abstract: 本发明提出一种基于时空信息提取的轨迹表征挖掘方法,属于数据挖掘技术领域。包括:S1.获取时空轨迹数据,并对数据进行预处理;S2.将时空轨迹数据映射到对应的城市区域;S3.根据区域分布的属性和用户对每个区域的访问时间点,进行初始时空特征编码;S4.将地理编码和关联访问区域编码的时间编码拼接构成轨迹的时空特征编码,并映射为向量表示;S5.将向量输入至LSTM网络中训练,捕捉上下文信息;S6.根据上下文信息计算每个区域对于轨迹经过其他区域的动态功能权重;S7.使用注意力权重对BiLSTM的输出进行加权,生成加权的上下文表示聚合每个区域在不同时段内的特征信息。解决缺少挖掘轨迹的动态功能表征方法的问题。

    一种区分网络安全数据命名实体识别难易度的方法

    公开(公告)号:CN119150869B

    公开(公告)日:2025-04-15

    申请号:CN202411190952.4

    申请日:2024-08-28

    Abstract: 本发明公开了一种区分网络安全数据命名实体识别难易度的方法,属于网络数据安全技术领域。解决了现有技术中传统的命名实体识别方法难以有效区分数据难易度的问题;本发明包括以下步骤:S1.构建基于规则的判别器,输入数据集,通过难度指标评估句子中实体的复杂性,得到总难度分数,对数据集中的数据进行分类,得到分类结果;S2.构建预训练模型,设置基于预训练模型的数据判别器对分类结果进行验证,得到最终的命名实体识别分类结果。本发明有效提升了识别数据集中具有挑战性的实例的整体准确性,能够区分数据难易度,增强了数据分类结果的鲁棒性,减轻了预训练模型特定的偏差,可以应用于网络安全数据处理。

    一种基于预训练模型的网络安全命名实体识别数据增广方法

    公开(公告)号:CN119204011A

    公开(公告)日:2024-12-27

    申请号:CN202411190945.4

    申请日:2024-08-28

    Abstract: 本发明公开了一种基于预训练模型的网络安全命名实体识别数据增广方法,属于网络数据安全技术领域。解决了现有技术中传统的网络安全命名实体识别数据增广方法易导致识别文本语义错误的问题;本发明给定标注集合和输入序列,根据标注规则生成标注序列,对输入序列进行分句处理;对输入序列的文本片段的长度进行替换,得到片段集合;根据标注集合,对片段集合进行掩码操作,得到新片段集合,利用BERT模型对新片段集合进行预测,得到增广后的数据集;使用BERT模型计算得到连续概率并搜索相邻句子概率矩阵打乱句子顺序,得到最终增广后的数据集。本发明有效提升了所生成增广数据的质量,减少了过拟合现象,可以应用于数据增广。

    一种基于RetroWrite框架的静态符号执行插桩方法

    公开(公告)号:CN116775127A

    公开(公告)日:2023-09-19

    申请号:CN202310598471.6

    申请日:2023-05-25

    Abstract: 本发明公开了一种基于RetroWrite框架的静态符号执行插桩方法,属于计算机技术领域。解决了现有技术中符号执行插桩方法在闭源程序运行时开销较大的问题;本发明包括以下步骤:S1.访问闭源的C/C++程序中的各个用户自定义函数;S2.访问函数中的各个基本块;S3.顺序访问指令;S4.进行指令级插桩,为赋值、调用、运算和条件类指令进行功能插桩;S5.进行基本块插桩,在基本块的出口进行辅助插桩;S6.进行函数级插桩,在函数的入口和出口进行辅助插桩。本发明面向闭源程序通用高效,有效降低了运行时非求解开销,在扩展使用范围的同时,提高了混合模糊测试的速度,可以应用于软件测试。

    基于提示学习思想的网络安全命名实体识别模型构建方法、电子设备及存储介质

    公开(公告)号:CN119167935B

    公开(公告)日:2025-05-06

    申请号:CN202411190954.3

    申请日:2024-08-28

    Abstract: 基于提示学习思想的网络安全命名实体识别模型构建方法、电子设备及存储介质,属于网络安全命名实体识别技术领域。为解决提取信息在面对具体的网络安全实体识别任务时直接应用的问题,本发明采集网络安全数据,得到网络空间安全数据序列,基于标注规则设置标注集合、生成标注序列,所述标注规则包括被标注数据的实体类型及被标注数据不属于任何实体;基于标注规则,对网络空间安全数据序列进行分割处理,然后对应生成标注子序列,得到处理后的网络空间安全数据;定义数据增广规则,对处理后的网络空间安全数据进行数据增广,得到数据增广的网络空间安全数据集;对预训练模型中进行继续预训练和微调操作,得到网络安全命名实体识别数据提取模型。

Patent Agency Ranking