-
公开(公告)号:CN112926339A
公开(公告)日:2021-06-08
申请号:CN202110258338.7
申请日:2021-03-09
Applicant: 北京小米移动软件有限公司 , 北京小米松果电子有限公司
IPC: G06F40/30 , G06F40/126 , G06N3/04
Abstract: 本公开涉及一种文本相似度确定方法、系统、存储介质以及电子设备,涉及计算机技术领域,该方法包括:确定第一文本对应第一编码序列和第二文本对应的第二编码序列,并根据第一编码序列以及第二编码序列,分别得到第一编码序列对应的第一融合特征和第二编码序列对应的第二融合特征,然后将第一融合特征、第二融合特征转换为对应的用于表示语义的第一语义特征和第二语义特征,并根据该第一语义特征和第二语义特征来计算第一文本与第二文本的相似度。可以综合考虑第一文本与第二文本的字符串特征以及语义特征来计算文本相似度,使得计算到的文本相似度更加准确。
-
公开(公告)号:CN111079422A
公开(公告)日:2020-04-28
申请号:CN201911282700.3
申请日:2019-12-13
Applicant: 北京小米移动软件有限公司
IPC: G06F40/284 , G06F16/35
Abstract: 本公开是关于一种关键词提取方法、装置及存储介质,包括:接收原始文档,从原始文档中提取多个候选短语,所提取的多个候选短语构成候选集合;获取候选集合中每个候选短语与原始文档的关联度;获取候选集合中每个候选短语的发散度;基于关联度和发散度,从候选集合中选择至少一个候选短语作为关键短语,基于所选择的至少一个关键短语构成原始文档的关键短语集合。这样,能从候选集合选取与原始文档的关联度高的候选短语作为关键短语,使提取的关键短语与原始文档的相似性高,提高提取关键短语的准确性;能从候选集合中选发散度高的短语作为关键短语,使提取的关键短语与已选至关键短语集合的关键短语的差异程度高,提高关键短语的多样性。
-
公开(公告)号:CN112926339B
公开(公告)日:2024-02-09
申请号:CN202110258338.7
申请日:2021-03-09
Applicant: 北京小米移动软件有限公司 , 北京小米松果电子有限公司
IPC: G06F40/30 , G06F40/126 , G06N3/045
Abstract: 本公开涉及一种文本相似度确定方法、系统、存储介质以及电子设备,涉及计算机技术领域,该方法包括:确定第一文本对应第一编码序列和第二文本对应的第二编码序列,并根据第一编码序列以及第二编码序列,分别得到第一编码序列对应的第一融合特征和第二编码序列对应的第二融合特征,然后将第一融合特征、第二融合特征转换为对应的用于表示语义的第一语义特征和第二语义特征,并根据该第一语义特征和第二语义特征来计算第一文本与第二文本的相似度。可以综合考虑第一文本与第二文本的字符串特征以及语义特征来计算文本相似度,使得计算到的文本相似度更加准确。
-
公开(公告)号:CN111079422B
公开(公告)日:2023-07-14
申请号:CN201911282700.3
申请日:2019-12-13
Applicant: 北京小米移动软件有限公司
IPC: G06F40/284 , G06F16/35
Abstract: 本公开是关于一种关键词提取方法、装置及存储介质,包括:接收原始文档,从原始文档中提取多个候选短语,所提取的多个候选短语构成候选集合;获取候选集合中每个候选短语与原始文档的关联度;获取候选集合中每个候选短语的发散度;基于关联度和发散度,从候选集合中选择至少一个候选短语作为关键短语,基于所选择的至少一个关键短语构成原始文档的关键短语集合。这样,能从候选集合选取与原始文档的关联度高的候选短语作为关键短语,使提取的关键短语与原始文档的相似性高,提高提取关键短语的准确性;能从候选集合中选发散度高的短语作为关键短语,使提取的关键短语与已选至关键短语集合的关键短语的差异程度高,提高关键短语的多样性。
-
公开(公告)号:CN112861531B
公开(公告)日:2023-11-14
申请号:CN202110304344.1
申请日:2021-03-22
Applicant: 北京小米移动软件有限公司 , 北京小米松果电子有限公司
IPC: G06F40/289 , G06F40/129
Abstract: 本公开涉及一种分词方法、装置、存储介质和电子设备,该方法包括:按照第一字符方向确定待分词语句中与多个预设字符串匹配的第一字符串,并按照第二字符方向确定待分词语句中与多个预设字符串匹配的第二字符串,在第一字符串和第二字符串包括相同字符的情况下,根据多个字符,通过分词模型,确定原始概率矩阵,根据第一字符串对原始概率矩阵进行调整,得到第一概率矩阵,并根据第二字符串对原始概率矩阵进行调整,得到第二概率矩阵,根据第一概率矩阵,第二概率矩阵以及分词模型对应的转移概率矩阵,确定待分词语句的目标分词结果。本公开能够避免由于第一字符串和第二字符串包括相同字符导致的分词结果出现错误,提高了分词的灵活度和准确度。
-
公开(公告)号:CN112861531A
公开(公告)日:2021-05-28
申请号:CN202110304344.1
申请日:2021-03-22
Applicant: 北京小米移动软件有限公司 , 北京小米松果电子有限公司
IPC: G06F40/289 , G06F40/129
Abstract: 本公开涉及一种分词方法、装置、存储介质和电子设备,该方法包括:按照第一字符方向确定待分词语句中与多个预设字符串匹配的第一字符串,并按照第二字符方向确定待分词语句中与多个预设字符串匹配的第二字符串,在第一字符串和第二字符串包括相同字符的情况下,根据多个字符,通过分词模型,确定原始概率矩阵,根据第一字符串对原始概率矩阵进行调整,得到第一概率矩阵,并根据第二字符串对原始概率矩阵进行调整,得到第二概率矩阵,根据第一概率矩阵,第二概率矩阵以及分词模型对应的转移概率矩阵,确定待分词语句的目标分词结果。本公开能够避免由于第一字符串和第二字符串包括相同字符导致的分词结果出现错误,提高了分词的灵活度和准确度。
-
公开(公告)号:CN110889489A
公开(公告)日:2020-03-17
申请号:CN201911088011.9
申请日:2019-11-08
Applicant: 北京小米移动软件有限公司
Abstract: 本公开是关于一种神经网络的训练方法、图像识别方法及其装置。其中神经网络的训练方法,神经网络包括特征提取网络和分类网络,方法包括:超参数确定步骤及网络训练步骤;其中,超参数确定步骤包括:设置分类网络的超参数;基于训练样本集训练分类网络,其中训练样本集包括多个样本和样本对应的标准分类;及,判断分类网络是否达到第一训练标准,若达到第一训练标准,保存分类网络并执行网络训练步骤;若未达到第一训练标准,则返回重新设置分类网络的超参数;网络训练步骤包括:基于训练样本集训练神经网络。通过少量样本确定神经网络的超参数,再训练,在保证神经网络准确率基础上,降低训练样本标注数据量的需求,提升调优速度。
-
-
-
-
-
-