一种基于细粒度悬浮标记和嵌套实体图的实体识别方法

    公开(公告)号:CN116861908A

    公开(公告)日:2023-10-10

    申请号:CN202310773105.X

    申请日:2023-06-27

    Abstract: 本发明公开了一种基于细粒度悬浮标记和嵌套实体图的实体识别方法,属于自然语言处理和信息抽取技术领域。包括:首先,语段预处理,即在非结构化文本中插入细粒度悬浮标记,构建规则筛选候选实体的语段,其中,细粒度悬浮标记包括语段位置信息和实体属性信息。其次,构建语段的序列特征,生成语段的序列特征表示。然后,构建嵌套实体图,引入实体与嵌套实体的包含关系,生成语段的结构特征表示。最后,输出实体识别结果。通过利用细粒度悬浮标记增强模型生成文本的语段序列特征表示,增强标记表达能力;通过嵌套实体生成图生成文本的语段依赖特征表示,捕获提取结构语义特征,从而提高实体识别性能。

    一种基于多粒度文本嵌入的医学实体识别方法

    公开(公告)号:CN113779993A

    公开(公告)日:2021-12-10

    申请号:CN202110890112.9

    申请日:2021-08-04

    Abstract: 本发明涉及一种基于多粒度文本嵌入的医学实体识别方法,属于信息抽取和知识图谱构建技术领域。所述医学实体识别方法,包括:构建多粒度文本嵌入:通过预训练语言模型,构建多粒度文本嵌入,多粒度文本嵌入包括字符嵌入、词嵌入、词性嵌入、子串嵌入及短语嵌入;生成模式权重:根据医学术语构成模式,生成中文句子中所有字符的模式权重;结点嵌入表示学习:使用图注意力网络和模式强化注意力机制,进行结点嵌入表示学习;输出医学文本实体识别结果:采用条件随机场生成医学文本的实体类别标签,输出医学实体识别结果。所述方法解决了医学实体识别中图表示信息利用不足、文本分布式表示的嵌入粒度单一的问题,提高了医学实体识别的性能。

    一种基于多视角规则增强的知识抽取方法

    公开(公告)号:CN116303880A

    公开(公告)日:2023-06-23

    申请号:CN202211543842.2

    申请日:2022-11-30

    Abstract: 本发明涉及一种基于多视角规则增强的知识抽取方法,属于人工智能信息抽取技术领域。本方法从语义角色标注、开放式信息抽取和实体识别多个视角,将神经网络和规则相结合,在基于神经网络的知识抽取基础上进行规则增强,从而更加准确地进行中英文知识抽取。本方法首先加载知识抽取模型,根据输入文本的语言类型使用不同的视角和增强规则进行知识抽取。对于中文输入,从语义角色标注视角进行规则增强,对于英文输入,从实体识别和开放式信息抽取视角进行规则增强。最后,使用文本和图数据库两种形式分别对知识三元组进行存储。本方法可以补全知识三元组抽取结果中的缺失内容,去除冗余三元组,解决知识抽取中知识缺失和冗余的问题。

    一种基于多粒度文本嵌入的医学实体识别方法

    公开(公告)号:CN113779993B

    公开(公告)日:2023-02-28

    申请号:CN202110890112.9

    申请日:2021-08-04

    Abstract: 本发明涉及一种基于多粒度文本嵌入的医学实体识别方法,属于信息抽取和知识图谱构建技术领域。所述医学实体识别方法,包括:构建多粒度文本嵌入:通过预训练语言模型,构建多粒度文本嵌入,多粒度文本嵌入包括字符嵌入、词嵌入、词性嵌入、子串嵌入及短语嵌入;生成模式权重:根据医学术语构成模式,生成中文句子中所有字符的模式权重;结点嵌入表示学习:使用图注意力网络和模式强化注意力机制,进行结点嵌入表示学习;输出医学文本实体识别结果:采用条件随机场生成医学文本的实体类别标签,输出医学实体识别结果。所述方法解决了医学实体识别中图表示信息利用不足、文本分布式表示的嵌入粒度单一的问题,提高了医学实体识别的性能。

    一种基于细粒度提示学习和双向图卷积的关系抽取方法

    公开(公告)号:CN118747214A

    公开(公告)日:2024-10-08

    申请号:CN202310765924.X

    申请日:2023-06-27

    Abstract: 本发明公开了一种基于细粒度提示学习和双向图卷积的关系抽取方法,属于自然语言处理和信息抽取技术领域。本发明首先进行文本预处理,即在非结构化文本中插入实体多粒度标记符和提示学习模板;构建句子序列特征,生成句子序列特征表示;构建句子的依赖特征,生成句子的依赖特征表示;构建句子的混合嵌入表示,输出关系抽取结果。本发明引入了实体类型、实体词语的词法和上位词语义信息,增强了提示学习模板的词法和语义信息以及上下文语义表达能力;捕获了句子隐含的序列特征和依赖特征,挖掘了文本的多维度词法和语义特征,提高了关系抽取性能。

Patent Agency Ranking