-
公开(公告)号:CN115114427A
公开(公告)日:2022-09-27
申请号:CN202210279929.7
申请日:2022-03-21
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
Abstract: 本发明公开一种基于预训练和多任务学习的文本摘要和关键词抽取方法,属于文本信息抽取领域,基于预训练语言模型在抽取任务上进行针对性的进一步微调,并在关键词抽取任务与摘要抽取任务的协作下用于抽取关键词和摘要。本发明能够解决现有文本关键词抽取和摘要抽取技术存在的准确率和召回率低的问题。
-
公开(公告)号:CN115269833B
公开(公告)日:2024-08-16
申请号:CN202210760202.0
申请日:2022-06-29
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/35 , G06F40/194 , G06F18/23213 , G06F18/24 , G06F18/25
Abstract: 本发明公开一种基于深度语义和多任务学习的事件信息抽取方法及系统,属于文本信息抽取领域。为克服现有事件信息抽取技术准确率、召回率低等不足,本发明主要利用预训练语言模型通过对文章在篇章级、语段级、语句级、词语级等粒度上分别进行向量表示,通过依次进行事件分类、事件论元抽取、关键词抽取获得事件的主要信息。本发明在事件分类、事件论元抽取、关键词抽取三方面达到了非常高的准确率。
-
公开(公告)号:CN115410207A
公开(公告)日:2022-11-29
申请号:CN202110588830.0
申请日:2021-05-28
Applicant: 国家计算机网络与信息安全管理中心天津分中心 , 中国科学院信息工程研究所
IPC: G06V30/148 , G06F40/289 , G06F40/216
Abstract: 本发明公开一种针对竖排文本的检测方法及装置,包括扫描待检测文本,确定换行符的位置,得到一个位置列表,并基于该位置列表,计算每行文字长度;截取连续t行中每行文字长度一致的文本,保留截取文本中的有效字符,得到保留文本;对保留文本进行分词,并根据得到第一分词结果,获取截取文本的初步检测结果;若初步检测结果判断截取文本为竖排文本,则将截取文本转换为二维的字符矩阵,并删除换行符,对该字符矩阵作转置,得到转置文本;对转置文本进行分词,并根据得到第二分词结果,获取截取文本的检测结果。本发明可确定竖排文字的区域,去除竖排文本中的干扰字符,并恢复成一般的横向文本,同时处理竖排文本中普遍存在的错别字现象。
-
公开(公告)号:CN115410207B
公开(公告)日:2023-08-29
申请号:CN202110588830.0
申请日:2021-05-28
Applicant: 国家计算机网络与信息安全管理中心天津分中心 , 中国科学院信息工程研究所
IPC: G06V30/148 , G06F40/289 , G06F40/216
Abstract: 本发明公开一种针对竖排文本的检测方法及装置,包括扫描待检测文本,确定换行符的位置,得到一个位置列表,并基于该位置列表,计算每行文字长度;截取连续t行中每行文字长度一致的文本,保留截取文本中的有效字符,得到保留文本;对保留文本进行分词,并根据得到第一分词结果,获取截取文本的初步检测结果;若初步检测结果判断截取文本为竖排文本,则将截取文本转换为二维的字符矩阵,并删除换行符,对该字符矩阵作转置,得到转置文本;对转置文本进行分词,并根据得到第二分词结果,获取截取文本的检测结果。本发明可确定竖排文字的区域,去除竖排文本中的干扰字符,并恢复成一般的横向文本,同时处理竖排文本中普遍存在的错别字现象。
-
公开(公告)号:CN115269833A
公开(公告)日:2022-11-01
申请号:CN202210760202.0
申请日:2022-06-29
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/35 , G06F40/194 , G06K9/62
Abstract: 本发明公开一种基于深度语义和多任务学习的事件信息抽取方法及系统,属于文本信息抽取领域。为克服现有事件信息抽取技术准确率、召回率低等不足,本发明主要利用预训练语言模型通过对文章在篇章级、语段级、语句级、词语级等粒度上分别进行向量表示,通过依次进行事件分类、事件论元抽取、关键词抽取获得事件的主要信息。本发明在事件分类、事件论元抽取、关键词抽取三方面达到了非常高的准确率。
-
公开(公告)号:CN117574412A
公开(公告)日:2024-02-20
申请号:CN202410060420.2
申请日:2024-01-16
Applicant: 国家计算机网络与信息安全管理中心天津分中心 , 国家计算机网络与信息安全管理中心
Inventor: 贾云刚 , 王建礼 , 刘铭 , 许光全 , 李鹏霄 , 崔婧怡 , 刘健 , 段东圣 , 井雅琪 , 赵曦滨 , 赵志云 , 赵淳璐 , 贺欣 , 马宏远 , 张震 , 高一骄 , 武南南 , 孙捷 , 孙海亮 , 刘秀龙
Abstract: 本申请实施例提供一种多方隐私求交方法、装置和电子设备,涉及数据处理技术领域,应用于目标参与方,多个参与方包括目标参与方和其他参与方,该方法包括:依次接收其他参与方发送的多个隐私信息,各隐私信息包括其他参与方的签名信息和第一哈希表数据片段;基于多个隐私信息中的签名信息,对其他参与方的身份进行验证;在其他参与方的身份验证通过的情况下,基于多个第一哈希表数据片段和目标参与方的哈希表数据,确定其他参与方和目标参与方之间的隐私求交结果。这样在计算多个参与方的隐私求交结果时,可以有效地实现隐私求交结果的计算效率和参与方之间的通信效率的平衡。
-
公开(公告)号:CN117574412B
公开(公告)日:2024-04-02
申请号:CN202410060420.2
申请日:2024-01-16
Applicant: 国家计算机网络与信息安全管理中心天津分中心 , 国家计算机网络与信息安全管理中心
Inventor: 贾云刚 , 王建礼 , 刘铭 , 许光全 , 李鹏霄 , 崔婧怡 , 刘健 , 段东圣 , 井雅琪 , 赵曦滨 , 赵志云 , 赵淳璐 , 贺欣 , 马宏远 , 张震 , 高一骄 , 武南南 , 孙捷 , 孙海亮 , 刘秀龙
Abstract: 本申请实施例提供一种多方隐私求交方法、装置和电子设备,涉及数据处理技术领域,应用于目标参与方,多个参与方包括目标参与方和其他参与方,该方法包括:依次接收其他参与方发送的多个隐私信息,各隐私信息包括其他参与方的签名信息和第一哈希表数据片段;基于多个隐私信息中的签名信息,对其他参与方的身份进行验证;在其他参与方的身份验证通过的情况下,基于多个第一哈希表数据片段和目标参与方的哈希表数据,确定其他参与方和目标参与方之间的隐私求交结果。这样在计算多个参与方的隐私求交结果时,可以有效地实现隐私求交结果的计算效率和参与方之间的通信效率的平衡。
-
公开(公告)号:CN117391072A
公开(公告)日:2024-01-12
申请号:CN202311173762.7
申请日:2023-09-12
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/279 , G06F40/216 , G06F16/35 , G06N3/0464 , G06N3/09
Abstract: 本发明提供了一种基于遮挡语言模型的文本纠错方法、系统、设备及介质,能够通过无监督学习大量语料文本的方式,完成对文本的智能纠错,不需要人工标记的大量语料。本发明在不需要准备专门的平行语料的情况下完成中文文本纠错的任务,只需要提供大量中文语言的文本给语言模型自动进行训练即可,采用无监督学习大量语言文本的方式拓展了平行语料范围有限造成的局限性,不需要人工标记的大量语料。本发明采用遮挡语言模型的方式进行文本纠错,其过程中通过无监督学习大量语料文本的方式,完成对文本的智能纠错,应用于针对中文文本纠错的系统中,发现并纠错文本中在输入等过程中产生的错误。
-
公开(公告)号:CN110717108B
公开(公告)日:2022-08-30
申请号:CN201910921218.3
申请日:2019-09-27
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9536 , G06K9/62
Abstract: 本发明公开了一种基于特征工程的相似移动应用计算方法及装置,所述方法包括:将移动应用的数据集进行离散化;根据预先设置的特征从离散化的数据集中抽取有效特征,通过信息熵的方式从离散化的数据集中过滤无效特征;计算两个移动应用的每一组有效特征的相似度,并进行加权求和,得到当前移动应用的相似候选集;从所述相似候选集中获取相似移动应用。
-
公开(公告)号:CN110889115A
公开(公告)日:2020-03-17
申请号:CN201911081426.3
申请日:2019-11-07
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F21/56
Abstract: 本发明公开了一种恶意推送行为检测方法及装置,所述方法包括:对应用程序进行过滤,筛选出带有系统通知栏推送的应用程序;对筛选出的应用程序分别进行动态分析和静态分析,获取动态分析结果和静态分析结果;对所述动态分析结果和所述静态分析结果进行研判,确定具有恶意推送行为的应用程序。
-
-
-
-
-
-
-
-
-