-
公开(公告)号:CN117473386A
公开(公告)日:2024-01-30
申请号:CN202311437250.7
申请日:2023-10-31
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
IPC: G06F18/241 , G06F18/213 , G06N3/0464 , G06N3/08 , G06F18/27
Abstract: 本发明提出了一种基于差异化提示字符的分层级文本分类方法及系统,涉及文本分类技术领域,设计一个预置多个占位符的分层级预测提示模版;分别对第一层级的类别集合和第二层级的类别集合进行语义特征提取与聚合,得到第一层级和第二层级的差异化提示字符;将待分类文本、第一层级和第二层级的差异化提示字符填充到分层级预测提示模版的相应占位符中,得到待预测序列;将待预测序列输入到预训练语言模型中,对第一层级类别掩码和第二层级类别掩码进行预测,得到最终的预测结果。本发明基于设计的分层级预测提示模版,使用提示学习,在小样本背景下,将文本分类的问题转化为完形填空问题,基于对预训练语言模型的知识挖掘,实现分层级的文本分类任务。
-
公开(公告)号:CN113191118B
公开(公告)日:2023-07-18
申请号:CN202110501103.6
申请日:2021-05-08
Applicant: 山东省计算中心(国家超级计算济南中心)
IPC: G06F40/117 , G06F40/211 , G06F40/242 , G06F18/214 , G06N3/04 , G06N3/084
Abstract: 本发明涉及数据处理技术领域,具体地涉及一种基于序列标注的文本关系抽取方法,包括构建与预测数据相近的训练数据集,预设所有可能的双向实体关系以及三种固定的依存关系;将输入语句切分为单词序列,并输入到预训练模型中,得到每个句中单词的表示向量;对单词向量序列使用类似握手的方式组成唯一单词对序列;将得到的向量对序列输入到神经网络分类层中;计算损失并进行反向传播;即判断每个单词对的类别,判断单词对是否有该位置对应的关系;根据该对应关系使用附图中展示的伪代码来解码最终结果,最终得到抽取到的所有三元组。本发明能够同时完成两个任务:实体识别和关系分类。在抽取的准确率和召回率方面均有显著提高,具有较大提升。
-
公开(公告)号:CN115640508A
公开(公告)日:2023-01-24
申请号:CN202211102340.6
申请日:2022-09-09
Applicant: 山东省计算中心(国家超级计算济南中心)
IPC: G06F18/211 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及实体链接技术领域,提供了基于多实体主题一致性抽取的实体链接方法及系统,包括:获取文档,将文档的所有提及划分到若干个稀疏图,每个稀疏图对应一个主题,对每个主题构建一个提及实体关联图,并计算每个提及实体关联图的整图表示;基于每个提及实体关联图的整图表示,并结合每个提及的候选实体集合,得到每个主题的全局一致性特征;基于每个主题的全局一致性特征,计算每个提及与其候选实体的分数,并将提及链接到分数最大的候选实体。提高了实体链接的准确性。
-
公开(公告)号:CN115374767A
公开(公告)日:2022-11-22
申请号:CN202211070999.8
申请日:2022-09-02
Applicant: 山东省计算中心(国家超级计算济南中心)
IPC: G06F40/211 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明属于数据挖掘技术领域,提供了一种基于交互式双仿射机制的实体关系联合抽取方法及系统,本发明将文本数据的实体关系联合抽取任务分解为主体实体识别、客体实体识别和主体‑客体对关系分类三个可以联合学习的子任务,在实体识别和关系分类阶段,通过预设的双仿射机制模型,可以将主体、客体和主体‑客体对关系分别映射到主体实体表、客体实体表和主体‑客体对关系分类表中,主体实体识别、客体实体识别和主体‑客体对关系分类能够在子任务层面上进一步地进行双向交互,提高了实体关系抽取效果,同时解决了识别分类过程中容易产生错误传播、实体冗余和子任务之间信息交互不足等问题。
-
公开(公告)号:CN113191118A
公开(公告)日:2021-07-30
申请号:CN202110501103.6
申请日:2021-05-08
Applicant: 山东省计算中心(国家超级计算济南中心)
IPC: G06F40/117 , G06F40/211 , G06F40/242 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明涉及数据处理技术领域,具体地涉及一种基于序列标注的文本关系抽取方法,包括构建与预测数据相近的训练数据集,预设所有可能的双向实体关系以及三种固定的依存关系;将输入语句切分为单词序列,并输入到预训练模型中,得到每个句中单词的表示向量;对单词向量序列使用类似握手的方式组成唯一单词对序列;将得到的向量对序列输入到神经网络分类层中;计算损失并进行反向传播;即判断每个单词对的类别,判断单词对是否有该位置对应的关系;根据该对应关系使用附图中展示的伪代码来解码最终结果,最终得到抽取到的所有三元组。本发明能够同时完成两个任务:实体识别和关系分类。在抽取的准确率和召回率方面均有显著提高,具有较大提升。
-
公开(公告)号:CN117009525A
公开(公告)日:2023-11-07
申请号:CN202310994477.5
申请日:2023-08-08
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
IPC: G06F16/35 , G06F40/30 , G06F18/2415 , G06F18/22 , G06F18/27 , G06N3/0464 , G06N3/084 , G06N3/042 , G06N5/04
Abstract: 本发明属于文本分类技术领域,提供了基于提示学习的虚拟类表示的小样本文本分类方法及系统,其方案为:将原始文本序列和提示模板整合,将文本分类任务转化为完形填空任务,得到整合后的带有MASK的输入序列;基于整合后的带有MASK的输入序列和预训练语言模型,得到MASK位置的最后一层隐藏层的回归值;为每一类设计一个相同长度的随机数字作为类的虚拟表示,随机初始化一个嵌入机制,并将虚拟类表示放入随机初始化嵌入机制得到类的初始表示;基于类的初始表示进行多维度特征提取得到每一个类表示向量;将MASK位置的最后一层隐藏层的回归值和每一个类表示向量求余弦相似度,将求得的相似度向量最大值的索引作为最终的分类预测结果。
-
公开(公告)号:CN115392463A
公开(公告)日:2022-11-25
申请号:CN202211054245.3
申请日:2022-08-30
Applicant: 山东省计算中心(国家超级计算济南中心)
IPC: G06N5/02 , G06F40/295 , G06F40/216 , G06N3/04
Abstract: 本发明提供一种基于动态时间步的实体链接方法及系统,涉及自然语言处理技术领域,该方法包括:获取待分析文档中关联主题的多个实体提及;从知识库中获取各实体提及的候选实体,采用动态时间步的方法构建映射实体关联图,并从映射实体关联图中抽取全局主题一致性特征;根据全局主题一致性特征从所述候选实体中获取各实体提及的目标实体,将各实体提及与对应的目标实体关联。这样,通过采用动态时间步的方法构建映射实体关联图,在每一个时间步中,选择与主题相关的候选实体作为映射实体关联图的映射实体,以从映射实体关联图中抽取出正确的全局主题一致性特征,从而提高实体链接的精度。
-
-
-
-
-
-