一种基于编辑距离的数据相似度检测方法

    公开(公告)号:CN109117464B

    公开(公告)日:2023-12-22

    申请号:CN201810926125.5

    申请日:2018-08-14

    Inventor: 杨丽花 李蕾

    Abstract: 本发明揭示了一种基于编辑距离的数据相似度检测方法,该方法包括以下步骤:步骤S1:输入字符串str1,str2;步骤S2:采用动态规划方法获得LD(str1,str2),LCS(str1,str2),LCCSstr1,str2);所述步骤S2包括以下步骤:S21:计算字符串间的编辑距离Ld;S22:计算字符串间的最长公共子序列Lcs;S23:计算字符串间的最长公共子串Lccs;步骤S3:联合Ld,Lcs,Lccs获得字符串相似度sim。该方法可用于大数据数据预处理等领域,利用本发明获得的字符串相似性检测结果更加准确,具有更好的精度和通用性。

    一种基于知网的词语语义相似度计算方法

    公开(公告)号:CN109101488B

    公开(公告)日:2022-08-23

    申请号:CN201810767896.4

    申请日:2018-07-12

    Abstract: 本发明公开了一种基于知网的词语语义相似度计算方法,包括以下步骤:步骤一:计算两个义原可达路径上所有义原节点的边权重;步骤二:计算义原距离;步骤三:计算义原相似度;步骤四:计算义项相似度;步骤五:计算词语语义相似度。本发明的优点是:通过在边权重函数中引入两义原可达路径上所有义原节点的密度,并利用权重因子来调整义原深度和义原密度对义原距离的影响,有效提高词语语义相似度计算的精确度,并且实用性高,从而提高了数据质量,为数据挖掘提供“干净”的数据。

    一种基于编辑距离的数据相似度检测方法

    公开(公告)号:CN109117464A

    公开(公告)日:2019-01-01

    申请号:CN201810926125.5

    申请日:2018-08-14

    Inventor: 杨丽花 李蕾

    Abstract: 本发明揭示了一种基于编辑距离的数据相似度检测方法,该方法包括以下步骤:步骤S1:输入字符串str1,str2;步骤S2:采用动态规划方法获得LD(str1,str2),LCS(str1,str2),LCCS(str1,str2);所述步骤S2包括以下步骤:S21:计算字符串间的编辑距离Ld;S22:计算字符串间的最长公共子序列Lcs;S23:计算字符串间的最长公共子串Lccs;步骤S3:联合Ld,Lcs,Lccs获得字符串相似度sim。该方法可用于大数据数据预处理等领域,利用本发明获得的字符串相似性检测结果更加准确,具有更好的精度和通用性。

    一种基于知网的词语语义相似度计算方法

    公开(公告)号:CN109101488A

    公开(公告)日:2018-12-28

    申请号:CN201810767896.4

    申请日:2018-07-12

    Abstract: 本发明公开了一种基于知网的词语语义相似度计算方法,包括以下步骤:步骤一:计算两个义原可达路径上所有义原节点的边权重;步骤二:计算义原距离;步骤三:计算义原相似度;步骤四:计算义项相似度;步骤五:计算词语语义相似度。本发明的优点是:通过在边权重函数中引入两义原可达路径上所有义原节点的密度,并利用权重因子来调整义原深度和义原密度对义原距离的影响,有效提高词语语义相似度计算的精确度,并且实用性高,从而提高了数据质量,为数据挖掘提供“干净”的数据。

Patent Agency Ranking