-
公开(公告)号:CN117454898A
公开(公告)日:2024-01-26
申请号:CN202311477245.9
申请日:2023-11-08
申请人: 长威信息科技发展股份有限公司
IPC分类号: G06F40/295 , G06F40/289 , G06F40/268 , G06F16/31 , G06F16/332 , G06F16/33 , G06N3/045 , G06N7/01
摘要: 本发明涉及一种根据输入文本实现法人实体标准化输出的方法及装置,包括:步骤1、获取法人库中的法人实体全称,构建基于法人实体全称的第一倒排索引;步骤2、通过法人简称提取算法提取法人库中每个法人实体全称对应的法人简称;步骤3、基于提取的法人简称构建训练数据,迭代训练法人实体识别模型;步骤4、将对话文本输入训练好的法人实体识别模型,识别对话文本中提及的法人简称;步骤5、基于所述第一倒排索引,对法人简称进行法人实体召回,获得候选法人实体全称列表;步骤6、通过法人实体推荐算法得出最终推荐的标准化法人实体全称。本发明的优点:在实现法人简称识别的同时,完成法人实体的标准化输出,有效提升智能对话业务的落地能力。