-
公开(公告)号:CN113239663A
公开(公告)日:2021-08-10
申请号:CN202110309085.1
申请日:2021-03-23
申请人: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC分类号: G06F40/126 , G06F40/216 , G06F40/242 , G06F40/284 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
摘要: 本发明公开了一种基于知网的多义词中文实体关系识别方法,其步骤包括:1)对中文网事数据中的每一条语料样本基于知网进行字颗粒度的向量化,得到每一个字对的字颗粒度向量;然后对每一字颗粒度向量所在的位置信息进行编码,得到语料中每个字与预标注的待识别实体关系对的相对位置编码;2)根据步骤1)所得结果生成每一语料样本的字颗粒度语义向量集合;3)基于知网生成每一语料的词颗粒度语义向量集合;4)利用各语义向量及其对应位置编码训练深度自注意力神经网络,得到深度自注意力神经网络编码器;5)生成待处理语料中字和词汇的语义向量及其对应位置编码输入深度自注意力神经网络编码器,得到该待处理语料中的实体关系。
-
公开(公告)号:CN112069312A
公开(公告)日:2020-12-11
申请号:CN202010806716.6
申请日:2020-08-12
申请人: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/35 , G06F40/295 , G06F40/30 , G06F16/9535
摘要: 本发明提供一种基于实体识别的文本分类方法,包括:对待检测文本进行切词,得到情感词与实体词,并通过一实体及情感类别已标注数据集判断实体词的情感类别;对待检测文本进行断句,通过情感词与标注情感类别的实体词在每一句子中的词性、否定词及标点符号内容,获取各句子的情感类别;依据各句子的情感类别,得到待检测文本的情感类别。本发明利用半监督学习的方式,通过协同训练加主动学习的方式,结合学习加情感规则的方式,确定指向性实体集;通过识别指定方向实体,结合情感词进行倾向性判断;生成指定类别实体集,结合情感规则,实现对文本更深层次的分析。
-
公开(公告)号:CN113761919A
公开(公告)日:2021-12-07
申请号:CN202010500426.9
申请日:2020-06-04
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06F40/295 , G06F40/211
摘要: 本发明提供一种口语化短文本的实体属性提取方法及电子装置,包括对口语化短文本切词及词性标注,并对各标注词性的词语进行命名主体识别,得到实体词语;将口语化短文本映射为主谓宾三元组,获取主谓宾三元组中各词语的依存关系,并使用实体词语对主谓宾三元组中各词语进行实体识别;当主谓宾三元组中的主谓宾满足一触发规则时,提取宾语词组作为实体属性。本发明采用词性标注、依存句法分析、实体识别以及结合触发词词性规则的综合方法,更加有针对性的提取了口语化短数据的实体属性信息,丰富了口语化短文本领域的结构化信息抽取方法。
-
公开(公告)号:CN113239663B
公开(公告)日:2022-07-12
申请号:CN202110309085.1
申请日:2021-03-23
申请人: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC分类号: G06F40/126 , G06F40/216 , G06F40/242 , G06F40/284 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
摘要: 本发明公开了一种基于知网的多义词中文实体关系识别方法,其步骤包括:1)对中文网事数据中的每一条语料样本基于知网进行字颗粒度的向量化,得到每一个字对的字颗粒度向量;然后对每一字颗粒度向量所在的位置信息进行编码,得到语料中每个字与预标注的待识别实体关系对的相对位置编码;2)根据步骤1)所得结果生成每一语料样本的字颗粒度语义向量集合;3)基于知网生成每一语料的词颗粒度语义向量集合;4)利用各语义向量及其对应位置编码训练深度自注意力神经网络,得到深度自注意力神经网络编码器;5)生成待处理语料中字和词汇的语义向量及其对应位置编码输入深度自注意力神经网络编码器,得到该待处理语料中的实体关系。
-
公开(公告)号:CN112383479B
公开(公告)日:2022-03-22
申请号:CN202011104222.X
申请日:2020-10-15
申请人: 国家计算机网络与信息安全管理中心 , 曙光网络科技有限公司
IPC分类号: H04L45/745
摘要: 本申请涉及一种规则查询方法、装置、计算机设备和存储介质。该方法包括:计算机设备通过获取请求报文的五元组信息中的互联网协议IP地址,从预设的多个五元组规则表中,确定与该IP地址对应的目标五元组规则表,根据五元组信息查询目标五元组规则表,确定与五元组信息对应的目标五元组规则。本方法中,五元组规则表中包括五元组信息和五元组规则的对应关系,计算机设备在根据请求报文的五元组信息中的IP确定与其对应的目标五元组规则表之后,根据目标五元组规则表进行目标五元组规则的查询,避免了遍历所有五元组规则表的情况,减少了五元组规则的查询次数,节省了五元组规则的查询资源,进一步地,降低了FPGA的输入输出单元的消耗情况。
-
公开(公告)号:CN112383479A
公开(公告)日:2021-02-19
申请号:CN202011104222.X
申请日:2020-10-15
申请人: 国家计算机网络与信息安全管理中心 , 曙光网络科技有限公司
IPC分类号: H04L12/741
摘要: 本申请涉及一种规则查询方法、装置、计算机设备和存储介质。该方法包括:计算机设备通过获取请求报文的五元组信息中的互联网协议IP地址,从预设的多个五元组规则表中,确定与该IP地址对应的目标五元组规则表,根据五元组信息查询目标五元组规则表,确定与五元组信息对应的目标五元组规则。本方法中,五元组规则表中包括五元组信息和五元组规则的对应关系,计算机设备在根据请求报文的五元组信息中的IP确定与其对应的目标五元组规则表之后,根据目标五元组规则表进行目标五元组规则的查询,避免了遍历所有五元组规则表的情况,减少了五元组规则的查询次数,节省了五元组规则的查询资源,进一步地,降低了FPGA的输入输出单元的消耗情况。
-
公开(公告)号:CN114077838A
公开(公告)日:2022-02-22
申请号:CN202010825717.5
申请日:2020-08-17
申请人: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC分类号: G06F40/295 , G06F40/284
摘要: 本发明提供一种基于词表示特征的命名实体识别方法及电子装置,包括:对待检测文本进行分词,获取各词语的基础特征;将各词语组成一词语序列,并对每一词语进行编码,提取编码结果的词嵌入特征;根据词语序列的设定权重与设定主题,生成一词向量序列,提取词向量序列的词表示特征;将基础特征、词嵌入特征及词表示特征输入一实体识别模型,获取待检测文本中的命名实体。本发明采用了word2vec训练的词嵌入及LSTM训练的词表示,捕获了语句的长期依赖性,充分的利用了长距离上下文信息对命名实体进行识别,相对于传统模型有较好的改进,提高了微博命名实体的识别的准确率。
-
公开(公告)号:CN112069312B
公开(公告)日:2023-06-20
申请号:CN202010806716.6
申请日:2020-08-12
申请人: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/35 , G06F40/295 , G06F40/30 , G06F16/9535
摘要: 本发明提供一种基于实体识别的文本分类方法,包括:对待检测文本进行切词,得到情感词与实体词,并通过一实体及情感类别已标注数据集判断实体词的情感类别;对待检测文本进行断句,通过情感词与标注情感类别的实体词在每一句子中的词性、否定词及标点符号内容,获取各句子的情感类别;依据各句子的情感类别,得到待检测文本的情感类别。本发明利用半监督学习的方式,通过协同训练加主动学习的方式,结合学习加情感规则的方式,确定指向性实体集;通过识别指定方向实体,结合情感词进行倾向性判断;生成指定类别实体集,结合情感规则,实现对文本更深层次的分析。
-
-
-
-
-
-
-