-
公开(公告)号:CN111104801B
公开(公告)日:2023-09-26
申请号:CN201911367979.5
申请日:2019-12-26
Applicant: 济南大学
IPC: G06F40/289 , G06F40/242 , G06F40/232 , G06F16/33
Abstract: 本发明公开了基于网址域名的文本分词方法、系统、设备及介质,包括:数据采集,采集若干个网址域名;对每个网址域名进行分词处理;将分词处理后的单词进行文本格式化处理;分析文本格式化处理后得到单词的单词词性;根据单词词性进行词形还原;将词形还原后的结果存储到单词库中;将待分词的网址域名,采用双向最大匹配算法与单词库进行匹配,如果匹配成功,则得到文本向量化结果;如果匹配失败,则对待分词的网址域名进行清洗,将清洗后的结果再次采用双向最大匹配算法与单词库进行匹配。
-
公开(公告)号:CN111104801A
公开(公告)日:2020-05-05
申请号:CN201911367979.5
申请日:2019-12-26
Applicant: 济南大学
IPC: G06F40/289 , G06F40/242 , G06F40/232 , G06F16/33
Abstract: 本发明公开了基于网址域名的文本分词方法、系统、设备及介质,包括:数据采集,采集若干个网址域名;对每个网址域名进行分词处理;将分词处理后的单词进行文本格式化处理;分析文本格式化处理后得到单词的单词词性;根据单词词性进行词形还原;将词形还原后的结果存储到单词库中;将待分词的网址域名,采用双向最大匹配算法与单词库进行匹配,如果匹配成功,则得到文本向量化结果;如果匹配失败,则对待分词的网址域名进行清洗,将清洗后的结果再次采用双向最大匹配算法与单词库进行匹配。
-