发明授权
- 专利标题: 关键词变体的确定方法和装置
-
申请号: CN201811023100.0申请日: 2018-09-03
-
公开(公告)号: CN110929477B公开(公告)日: 2023-04-28
- 发明人: 高喆 , 康杨杨 , 陶秀莉 , 孙常龙 , 刘晓钟 , 司罗
- 申请人: 阿里巴巴集团控股有限公司
- 申请人地址: 英属开曼群岛大开曼资本大厦一座四层847号邮箱
- 专利权人: 阿里巴巴集团控股有限公司
- 当前专利权人: 阿里巴巴集团控股有限公司
- 当前专利权人地址: 英属开曼群岛大开曼资本大厦一座四层847号邮箱
- 代理机构: 北京君以信知识产权代理有限公司
- 代理商 谭镇
- 主分类号: G06F40/129
- IPC分类号: G06F40/129
摘要:
本申请公开了一种关键词变体的确定方法和装置。该方法包括如下步骤:将待测文本拆分为多个文本字符串;利用汉字在多种编码形式下的字形相似关系,获取所述文本字符串的异构图特征;利用所述异构图特征,通过机器学习模型确定所述文本字符串与预设的关键词的相似度;根据所述相似度判断所述文本字符串是否为所述关键词变体,以判断所述待测文本中是否包含所述关键字变体。在本发明实施例提出的方案中,不同的形码编码在各个维度刻画了字形的结构,综合使用多种编码方式形成异构图,可以形成了互补,比单纯用某一种形码能更好地计算字形相似度。通过异构图存储不同编码的字形相似度信息,可以加强字形间的传递关系,有效降低了误判。
公开/授权文献
- CN110929477A 关键词变体的确定方法和装置 公开/授权日:2020-03-27