-
公开(公告)号:CN117473386A
公开(公告)日:2024-01-30
申请号:CN202311437250.7
申请日:2023-10-31
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
IPC: G06F18/241 , G06F18/213 , G06N3/0464 , G06N3/08 , G06F18/27
Abstract: 本发明提出了一种基于差异化提示字符的分层级文本分类方法及系统,涉及文本分类技术领域,设计一个预置多个占位符的分层级预测提示模版;分别对第一层级的类别集合和第二层级的类别集合进行语义特征提取与聚合,得到第一层级和第二层级的差异化提示字符;将待分类文本、第一层级和第二层级的差异化提示字符填充到分层级预测提示模版的相应占位符中,得到待预测序列;将待预测序列输入到预训练语言模型中,对第一层级类别掩码和第二层级类别掩码进行预测,得到最终的预测结果。本发明基于设计的分层级预测提示模版,使用提示学习,在小样本背景下,将文本分类的问题转化为完形填空问题,基于对预训练语言模型的知识挖掘,实现分层级的文本分类任务。
-
公开(公告)号:CN113191118B
公开(公告)日:2023-07-18
申请号:CN202110501103.6
申请日:2021-05-08
Applicant: 山东省计算中心(国家超级计算济南中心)
IPC: G06F40/117 , G06F40/211 , G06F40/242 , G06F18/214 , G06N3/04 , G06N3/084
Abstract: 本发明涉及数据处理技术领域,具体地涉及一种基于序列标注的文本关系抽取方法,包括构建与预测数据相近的训练数据集,预设所有可能的双向实体关系以及三种固定的依存关系;将输入语句切分为单词序列,并输入到预训练模型中,得到每个句中单词的表示向量;对单词向量序列使用类似握手的方式组成唯一单词对序列;将得到的向量对序列输入到神经网络分类层中;计算损失并进行反向传播;即判断每个单词对的类别,判断单词对是否有该位置对应的关系;根据该对应关系使用附图中展示的伪代码来解码最终结果,最终得到抽取到的所有三元组。本发明能够同时完成两个任务:实体识别和关系分类。在抽取的准确率和召回率方面均有显著提高,具有较大提升。
-
公开(公告)号:CN115391513A
公开(公告)日:2022-11-25
申请号:CN202211063932.1
申请日:2022-08-31
Applicant: 山东省计算中心(国家超级计算济南中心)
IPC: G06F16/332 , G06F16/33 , G06N3/04 , G06N3/08
Abstract: 本发明属于问答匹配技术领域,提供了一种基于问题对匹配和问答对匹配的问答匹配方法及系统,在获取问题后,先通过预设的问句‑问句匹配模型,得到问题中的问句向量表示和预设问答库中问句的向量表示,在此基础上计算问题中的问句和预设问答库中问句之间的相似度,对问答库进行初步筛选;然后,再通过预设的问句‑答案匹配模型,得到问题中的问句向量表示和筛选后问答库中答案的向量表示,在此基础上,计算问题中的问句和筛选后问答库中答案之间的相似度,并将相似度得分最高的问答对作为获取问题最终匹配的问答对;在问答对匹配过程中,两次相似度计算实现了对问答对的初步筛选和最终确定,提高了相似度计算的精度,保证了匹配效果。
-
公开(公告)号:CN115374767A
公开(公告)日:2022-11-22
申请号:CN202211070999.8
申请日:2022-09-02
Applicant: 山东省计算中心(国家超级计算济南中心)
IPC: G06F40/211 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明属于数据挖掘技术领域,提供了一种基于交互式双仿射机制的实体关系联合抽取方法及系统,本发明将文本数据的实体关系联合抽取任务分解为主体实体识别、客体实体识别和主体‑客体对关系分类三个可以联合学习的子任务,在实体识别和关系分类阶段,通过预设的双仿射机制模型,可以将主体、客体和主体‑客体对关系分别映射到主体实体表、客体实体表和主体‑客体对关系分类表中,主体实体识别、客体实体识别和主体‑客体对关系分类能够在子任务层面上进一步地进行双向交互,提高了实体关系抽取效果,同时解决了识别分类过程中容易产生错误传播、实体冗余和子任务之间信息交互不足等问题。
-
公开(公告)号:CN113191118A
公开(公告)日:2021-07-30
申请号:CN202110501103.6
申请日:2021-05-08
Applicant: 山东省计算中心(国家超级计算济南中心)
IPC: G06F40/117 , G06F40/211 , G06F40/242 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明涉及数据处理技术领域,具体地涉及一种基于序列标注的文本关系抽取方法,包括构建与预测数据相近的训练数据集,预设所有可能的双向实体关系以及三种固定的依存关系;将输入语句切分为单词序列,并输入到预训练模型中,得到每个句中单词的表示向量;对单词向量序列使用类似握手的方式组成唯一单词对序列;将得到的向量对序列输入到神经网络分类层中;计算损失并进行反向传播;即判断每个单词对的类别,判断单词对是否有该位置对应的关系;根据该对应关系使用附图中展示的伪代码来解码最终结果,最终得到抽取到的所有三元组。本发明能够同时完成两个任务:实体识别和关系分类。在抽取的准确率和召回率方面均有显著提高,具有较大提升。
-
-
-
-