-
公开(公告)号:CN109117464B
公开(公告)日:2023-12-22
申请号:CN201810926125.5
申请日:2018-08-14
Applicant: 南京邮电大学
IPC: G06F40/194
Abstract: 本发明揭示了一种基于编辑距离的数据相似度检测方法,该方法包括以下步骤:步骤S1:输入字符串str1,str2;步骤S2:采用动态规划方法获得LD(str1,str2),LCS(str1,str2),LCCSstr1,str2);所述步骤S2包括以下步骤:S21:计算字符串间的编辑距离Ld;S22:计算字符串间的最长公共子序列Lcs;S23:计算字符串间的最长公共子串Lccs;步骤S3:联合Ld,Lcs,Lccs获得字符串相似度sim。该方法可用于大数据数据预处理等领域,利用本发明获得的字符串相似性检测结果更加准确,具有更好的精度和通用性。
-
公开(公告)号:CN109101488B
公开(公告)日:2022-08-23
申请号:CN201810767896.4
申请日:2018-07-12
Applicant: 南京邮电大学
IPC: G06F40/30
Abstract: 本发明公开了一种基于知网的词语语义相似度计算方法,包括以下步骤:步骤一:计算两个义原可达路径上所有义原节点的边权重;步骤二:计算义原距离;步骤三:计算义原相似度;步骤四:计算义项相似度;步骤五:计算词语语义相似度。本发明的优点是:通过在边权重函数中引入两义原可达路径上所有义原节点的密度,并利用权重因子来调整义原深度和义原密度对义原距离的影响,有效提高词语语义相似度计算的精确度,并且实用性高,从而提高了数据质量,为数据挖掘提供“干净”的数据。
-
公开(公告)号:CN109117464A
公开(公告)日:2019-01-01
申请号:CN201810926125.5
申请日:2018-08-14
Applicant: 南京邮电大学
IPC: G06F17/22
Abstract: 本发明揭示了一种基于编辑距离的数据相似度检测方法,该方法包括以下步骤:步骤S1:输入字符串str1,str2;步骤S2:采用动态规划方法获得LD(str1,str2),LCS(str1,str2),LCCS(str1,str2);所述步骤S2包括以下步骤:S21:计算字符串间的编辑距离Ld;S22:计算字符串间的最长公共子序列Lcs;S23:计算字符串间的最长公共子串Lccs;步骤S3:联合Ld,Lcs,Lccs获得字符串相似度sim。该方法可用于大数据数据预处理等领域,利用本发明获得的字符串相似性检测结果更加准确,具有更好的精度和通用性。
-
公开(公告)号:CN109101488A
公开(公告)日:2018-12-28
申请号:CN201810767896.4
申请日:2018-07-12
Applicant: 南京邮电大学
IPC: G06F17/27
Abstract: 本发明公开了一种基于知网的词语语义相似度计算方法,包括以下步骤:步骤一:计算两个义原可达路径上所有义原节点的边权重;步骤二:计算义原距离;步骤三:计算义原相似度;步骤四:计算义项相似度;步骤五:计算词语语义相似度。本发明的优点是:通过在边权重函数中引入两义原可达路径上所有义原节点的密度,并利用权重因子来调整义原深度和义原密度对义原距离的影响,有效提高词语语义相似度计算的精确度,并且实用性高,从而提高了数据质量,为数据挖掘提供“干净”的数据。
-
-
-