-
公开(公告)号:CN113901827B
公开(公告)日:2022-03-18
申请号:CN202111504146.6
申请日:2021-12-10
Applicant: 北京邮电大学
IPC: G06F40/295
Abstract: 本申请提供一种实体识别和关系抽取方法、装置、电子设备及存储介质,该方法包括:构建包含领域名词的实体数据集合;将实体数据集合确定为训练集语料库,对预训练BERT模型进行掩蔽训练,得到领域语言模型;通过领域语言模型识别出,待处理领域文本数据中各个标记词语的头部实体和尾部实体,并抽取出它们之间的关系。本申请实施例提供的实体识别和关系抽取方法自动构建包含领域名词的实体数据集合,需要少量的人工标注工作,提升了该领域实体识别和关系抽取的效率。同时,根据自动构建包含领域名词的实体数据集合训练领域语言模型,使得通过领域语言模型能够精准地在各个领域中完成实体识别与关系抽取任务。
-
公开(公告)号:CN113901827A
公开(公告)日:2022-01-07
申请号:CN202111504146.6
申请日:2021-12-10
Applicant: 北京邮电大学
IPC: G06F40/295
Abstract: 本申请提供一种实体识别和关系抽取方法、装置、电子设备及存储介质,该方法包括:构建包含领域名词的实体数据集合;将实体数据集合确定为训练集语料库,对预训练BERT模型进行掩蔽训练,得到领域语言模型;通过领域语言模型识别出,待处理领域文本数据中各个标记词语的头部实体和尾部实体,并抽取出它们之间的关系。本申请实施例提供的实体识别和关系抽取方法自动构建包含领域名词的实体数据集合,需要少量的人工标注工作,提升了该领域实体识别和关系抽取的效率。同时,根据自动构建包含领域名词的实体数据集合训练领域语言模型,使得通过领域语言模型能够精准地在各个领域中完成实体识别与关系抽取任务。
-