-
公开(公告)号:CN116432651A
公开(公告)日:2023-07-14
申请号:CN202310364955.4
申请日:2023-04-07
Applicant: 兰州大学
IPC: G06F40/295 , G06F40/30 , G06F40/242
Abstract: 本申请提供一种基于软匹配规则发现的中文命名实体识别方法和系统。所述方法从待识别文本中提取文字,并调用字嵌入表得到初始字嵌入信息。基于初始字嵌入信息提取待识别文本的子序列的语义特征,其中,子序列为一个或多个字组成,语义特征包括字特征与词特征。根据子序列中的文字顺序以及初始字嵌入信息与软匹配规则树中的节点数据执行语义匹配以得到匹配路径。对子序列边界的初始字嵌入表示与语义特征执行语义聚合,得到聚合字嵌入信息,并计算聚合字嵌入信息与实体标签的相似度以输出待识别文本的实体识别标签。通过训练集构建软匹配树可以提高识别效率,并且,语义聚合在字词匹配相似的基础上可提高实体识别的准确率。