Patent search ap:("中国科学院计算技术研究所" OR "国家计算机网络与信息安全管理中心") AND inv:"付培国" Page 5

41.

发明公开
不同数据源的数据抽取方法、装置、设备及存储介质无效

公开(公告)号：CN111858728A

公开(公告)日：2020-10-30

申请号：CN202010605313.5

申请日：2020-06-29

Applicant: 国家计算机网络与信息安全管理中心

Inventor： 李欣 , 赵志云 , 葛自发 , 孙小宁 , 张冰 , 万欣欣 , 袁钟怡 , 赵忠华 , 孙立远 , 付培国 , 王禄恒 , 王晴

IPC: G06F16/25

Abstract: 本发明公开了不同数据源的数据抽取方法，包括：获取数据源和数据源属性名，计算数据源属性名与预设属性名的相似度，若所述相似度大于预设阈值，则建立所述数据源属性名与所述预设属性名的映射关系，构建属性名映射表；根据所述属性名映射表，获取与所述预设属性名对应的不同数据源，根据数据源的优先级，按照设定的抽取规则抽取数据入库；以及，不同数据源的数据抽取装置，设备和存储介质。本发明通过自动化创建属性名映射表，可以对不同数据源的数据进行自动抽取，高效地构建不同领域的知识库并自动化更新，成本低。

42.

发明公开
基于BERT模型和K近邻的敏感信息识别方法及系统有权

公开(公告)号：CN111581956A

公开(公告)日：2020-08-25

申请号：CN202010269087.8

申请日：2020-04-08

Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学

Inventor： 赵忠华 , 吴俊杰 , 赵志云 , 葛自发 , 孙小宁 , 张冰 , 王欣欣 , 李欣 , 袁钟怡 , 孙立远 , 付培国 , 王禄恒 , 左源 , 李丰志 , 李英汉 , 户中方

IPC: G06F40/279 , G06F40/216 , G06F40/242 , G06F40/126 , G06F16/335 , G06F16/35 , G06K9/62

Abstract: 本发明公开了一种基于BERT模型和K近邻的敏感信息识别方法，包括：步骤一、对文本进行预处理；步骤二、标注多条预处理文本为敏感信息和非敏感信息，步骤三、表征得到敏感信息的向量表征和非敏感信息的向量表征；步骤四、以敏感信息的向量表征为正类数据、以非敏感信息的向量表征为负类数据，构建近似最邻近搜索图；步骤五、将待测文本的向量表征输入至近似最邻近搜索图，搜索得到近似最近邻的K个节点，判断节点属性及根据该条待测文本的敏感度权重，修正其敏感度值后，判断是否为敏感信息。本发明公开了一种基于BERT模型和K近邻的敏感信息识别系统。本发明具有提升文本质量，提升敏感信息识别的速度和精度的有益效果。

43.

发明公开
一种数据集构建和相关信息获取方法及其装置有权

公开(公告)号：CN111353300A

公开(公告)日：2020-06-30

申请号：CN202010093817.3

申请日：2020-02-14

Applicant: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心

Inventor： 王立成 , 刘贺鹏 , 李欣 , 赵忠华 , 付培国 , 王禄恒 , 万欣欣 , 孙立远 , 张冰 , 杜漫 , 余智华

IPC: G06F40/284 , G06F40/289 , G06K9/62

Abstract: 本发明提供了一种数据集构建方法及装置，包括步骤：数据采集，获取来自互联网数据源的第一数据，所述第一数据包括自然语言，所述第一数据经过预处理后，生成第二数据；数据特征分析，所述第二数据包括子数据，所述子数据包括第一特征数据，分析所述第一特征数据，得出所述第一特征数据的特征度；数据标签建立，根据所述第一特征数据的特征度确定所述子数据标签；数据分类存储，根据所述子数据标签将所述子数据分类保存，保存为数据集。实时采集互联网中的数据；根据特征数据和特征度提取对应的标签；通过所述子数据标签将所述子数据进行分类提高提取速度，提高工作效率。本发明提供了一种相关信息获取方法及装置，提高准确性，提高工作效率。

Patent Agency Ranking