基于实体森林的实体语义关系联合抽取方法及系统

    公开(公告)号:CN115934953A

    公开(公告)日:2023-04-07

    申请号:CN202211199328.1

    申请日:2022-09-29

    Abstract: 本发明提出一种基于实体森林的实体语义关系联合抽取方法和系统,包括:获取待识别实体语义关系的语料;得到句子及其对应的词序列,对句子的词序列进行编码,得到训练语料中句子的分布式表示;句子的分布式表示进行序列标注,得到实体头部,作为实体树的根节点,以根节点为循环神经网络模型的初始状态,依次输入句子中子词至循环神经网络模型,以森林的形式识别嵌套实体,得到多棵嵌套实体树;将嵌套实体树的实体表示输入Transformer Decoder模块,通过多头注意力机制,得到嵌套实体树中包含实体树间交互信息、实体和输入文本之间的交互信息的隐层向量;将隐层向量和实体表示输入由多棵嵌套实体树构成的分层三元组森林,获得语料的实体语义关系三元组。

    一种复杂实体抽取方法、装置、介质及系统

    公开(公告)号:CN110502742B

    公开(公告)日:2021-11-05

    申请号:CN201910625736.0

    申请日:2019-07-11

    Abstract: 本发明涉及一种复杂实体抽取方法,用于迭层膨胀卷积神经网络,该神经网络包括字级别迭层膨胀卷积神经网络层和词级别迭层膨胀卷积神经网络层,该方法包括:语料生成步骤,用于构建实体语料集,以采集语料,并对该语料进行自定义格式标注,形成训练集、测试集和/或验证集;字级别向量生成步骤,用于对该语料进行预训练,生成字向量,并将该字向量输入该字级别迭层膨胀卷积神经网络层,得到字级别向量;自定义特征提取步骤,用于从自由文本中提取所述自定义格式标注的特征;实体抽取步骤,将所述字级别向量进行拼接后,与所述词级别特征输入该词级别迭层膨胀卷积神经网络层,对所述自由文本进行复杂实体的抽取。该方法提高了实体抽取的精度和效率。

    一种获取KAD网络上热门检索资源的方法和系统

    公开(公告)号:CN103605789A

    公开(公告)日:2014-02-26

    申请号:CN201310645868.2

    申请日:2013-12-04

    CPC classification number: G06F17/3089

    Abstract: 本发明提供一种获取KAD网络上热门检索资源的方法及系统。所述方法包括:构造模拟节点并加入KAD网络,使得所述模拟节点在KAD网络空间中均匀分布;由所述模拟节点监听所述KAD网路中其他节点的请求消息。所述方法还包括由所述模拟节点将从资源检索请求消息中获取的资源ID发送至热门资源统计服务器进行统计。本发明能够比较全面、准确地获得KAD网络中的热门检索资源,能够为网络信息挖掘及网络信息安全等工作提供帮助。

    一种小样本命名实体识别模型训练方法及识别方法

    公开(公告)号:CN115759103A

    公开(公告)日:2023-03-07

    申请号:CN202211527749.2

    申请日:2022-11-30

    Abstract: 本发明提供一种小样本命名实体识别模型训练方法,包括:S1、获取训练集、训练集类型描述集合以及支持集、支持集类型描述集合;S2、分别在训练集和支持集上挖掘每个样本中的线索词并进行线索词标注以分别获得包含命名实体标签和线索词标签的训练集和支持集;S3、采用经步骤S2处理后的训练集和训练集类型描述集合对基础命名实体识别模型进行多轮迭代训练至收敛;S4、采用经步骤S2处理后的支持集和支持集类型描述集合对经步骤S3训练后的基础命名实体识别模型进行迁移训练直至收敛,获得由编码器和最近邻分类器组成的小样本命名实体识别模型。

    一种复杂实体抽取方法、装置、介质及系统

    公开(公告)号:CN110502742A

    公开(公告)日:2019-11-26

    申请号:CN201910625736.0

    申请日:2019-07-11

    Abstract: 本发明涉及一种复杂实体抽取方法,用于迭层膨胀卷积神经网络,该神经网络包括字级别迭层膨胀卷积神经网络层和词级别迭层膨胀卷积神经网络层,该方法包括:语料生成步骤,用于构建实体语料集,以采集语料,并对该语料进行自定义格式标注,形成训练集、测试集和/或验证集;字级别向量生成步骤,用于对该语料进行预训练,生成字向量,并将该字向量输入该字级别迭层膨胀卷积神经网络层,得到字级别向量;自定义特征提取步骤,用于从自由文本中提取所述自定义格式标注的特征;实体抽取步骤,将所述字级别向量进行拼接后,与所述词级别特征输入该词级别迭层膨胀卷积神经网络层,对所述自由文本进行复杂实体的抽取。该方法提高了实体抽取的精度和效率。

    一种BT网络中热门种子文件获取方法

    公开(公告)号:CN103533048B

    公开(公告)日:2018-01-26

    申请号:CN201310475961.3

    申请日:2013-10-12

    Abstract: 本发明提供一种BT网络中热门种子文件获取方法,包括下列步骤:1)构造多个虚拟BT客户端,所述多个虚拟BT客户端的ID均匀分布在BT网络ID逻辑空间;2)各虚拟BT客户端监听BT网络中的get_peers消息,统计所收到的对应于每个infohash的get_peer消息的数目;3)定期统计所有虚拟BT客户端所接收到的对应于每个infohash的get_peer消息的数目,并根据get_peer消息的数目确定相应的infohash是否为热门infohash。本发明能够全面准确地获取整个BT网络范围内的热门种子文件。

    基于三元组森林的实体关系联合抽取方法及系统

    公开(公告)号:CN115687638A

    公开(公告)日:2023-02-03

    申请号:CN202211199819.6

    申请日:2022-09-29

    Abstract: 本发明提出一种基于三元组森林的实体关系联合抽取方法和系统,包括:获取待实体关系抽取的语料,得到句子及其对应的词序列;将词序列输入BERT模型,BERT模型对词序列进行分词,得到子词序列,使用BERT模型对子词序列进行编码,得到句子的分布式表示;将分布式表示输入CRF模型,标注句子中实体,得到实体的向量表示;将实体向量输入,通过TransformerDecoder模块中多头注意力机制获得实体向量中包含的实体间交互信息、实体和输入句子间交互信息的隐层向量;将隐层向量作为Tree‑RNN的初始状态和初始隐层单元,输入实体表示至Tree‑RNN,从Tree‑RNN的根节点的头实体生成其所参与的关系,根据头实体及其对应的关系,选择其尾实体,从而生成重叠的三元组树,再进一步解码得到实体关系三元组。

Patent Agency Ranking