关键词变体的确定方法和装置
摘要:
本申请公开了一种关键词变体的确定方法和装置。该方法包括如下步骤:将待测文本拆分为多个文本字符串;利用汉字在多种编码形式下的字形相似关系,获取所述文本字符串的异构图特征;利用所述异构图特征,通过机器学习模型确定所述文本字符串与预设的关键词的相似度;根据所述相似度判断所述文本字符串是否为所述关键词变体,以判断所述待测文本中是否包含所述关键字变体。在本发明实施例提出的方案中,不同的形码编码在各个维度刻画了字形的结构,综合使用多种编码方式形成异构图,可以形成了互补,比单纯用某一种形码能更好地计算字形相似度。通过异构图存储不同编码的字形相似度信息,可以加强字形间的传递关系,有效降低了误判。
公开/授权文献
0/0