一种声纹模型的确定方法、装置、设备及存储介质

    公开(公告)号:CN110517698A

    公开(公告)日:2019-11-29

    申请号:CN201910837580.2

    申请日:2019-09-05

    Abstract: 本申请提供了一种声纹模型的确定方法、装置、设备及存储介质,其中,方法包括:获取目标语音的至少一个语谱片段,通过预先建立的声纹提取模型,确定每个语谱片段的至少一个第一特征图,其中,第一特征图中的各特征点相互独立,通过声纹提取模型,确定每个第一特征图对应的、包含其全局信息的第二特征图,获得每个语谱片段的至少一个第二特征图,其中,一个第一特征图对应的第二特征图为对该第一特征图中能够区分声纹的特征区域进行强化后的特征图;至少利用每个语谱片段的至少一个第二特征图,以及声纹提取模型,确定目标语音的声纹模型。本申请提供的声纹模型确定方法能够针对目标语音确定出稳定且精准的声纹模型。

    声纹表征模型的训练方法及相关装置

    公开(公告)号:CN110491393B

    公开(公告)日:2022-04-22

    申请号:CN201910817491.1

    申请日:2019-08-30

    Inventor: 方昕 刘俊华 柳林

    Abstract: 本申请实施例公开了一种声纹表征模型的训练方法及装置,所述方法包括如下步骤:将语音数据集的多条语音数据执行特征提取操作,得到多个原始语音特征;将所述多个原始语音特征执行声纹表征操作、内容识别操作以及语音合成操作得到多个合成语音特征;依据所述多个合成语音特征和所述多个原始语音特征构建损失函数,依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型。本申请提供的技术方案具有成本低的优点。

    一种声纹模型的确定方法、装置、设备及存储介质

    公开(公告)号:CN110517698B

    公开(公告)日:2022-02-01

    申请号:CN201910837580.2

    申请日:2019-09-05

    Abstract: 本申请提供了一种声纹模型的确定方法、装置、设备及存储介质,其中,方法包括:获取目标语音的至少一个语谱片段,通过预先建立的声纹提取模型,确定每个语谱片段的至少一个第一特征图,其中,第一特征图中的各特征点相互独立,通过声纹提取模型,确定每个第一特征图对应的、包含其全局信息的第二特征图,获得每个语谱片段的至少一个第二特征图,其中,一个第一特征图对应的第二特征图为对该第一特征图中能够区分声纹的特征区域进行强化后的特征图;至少利用每个语谱片段的至少一个第二特征图,以及声纹提取模型,确定目标语音的声纹模型。本申请提供的声纹模型确定方法能够针对目标语音确定出稳定且精准的声纹模型。

    声纹表征模型的训练方法及相关装置

    公开(公告)号:CN110491393A

    公开(公告)日:2019-11-22

    申请号:CN201910817491.1

    申请日:2019-08-30

    Inventor: 方昕 刘俊华 柳林

    Abstract: 本申请实施例公开了一种声纹表征模型的训练方法及装置,所述方法包括如下步骤:将语音数据集的多条语音数据执行特征提取操作,得到多个原始语音特征;将所述多个原始语音特征执行声纹表征操作、内容识别操作以及语音合成操作得到多个合成语音特征;依据所述多个合成语音特征和所述多个原始语音特征构建损失函数,依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型。本申请提供的技术方案具有成本低的优点。

    声纹数据重排序方法、装置、电子设备及存储介质

    公开(公告)号:CN111222005B

    公开(公告)日:2023-01-13

    申请号:CN202010018417.6

    申请日:2020-01-08

    Abstract: 本申请提供了一种声纹数据重排序方法、装置、电子设备及存储介质,首先从预设声纹数据库中获取与目标声纹数据对应的相似声纹数据;计算所述相似声纹数据与所述目标声纹数据之间的第一相似度得分;同时,对所述目标声纹数据对应的目标最近邻集合进行优化处理得到目标优化最近邻集合,以及,对所述相似声纹数据对应的相似最近邻集合进行优化处理得到相似优化最近邻集合;再计算所述目标优化最近邻集合与所述相似优化最近邻集合之间的第二相似度得分;最后基于所述第一相似度得分和所述第二相似度得分进行计算,得到所述目标声纹数据和所述相似声纹数据的重排序数据。可以降低声纹数据检索过程的复杂度,且大大提高了声纹数据重排序结果的准确性。

    神经网络的训练方法及基于神经网络的行人属性识别方法

    公开(公告)号:CN109829356B

    公开(公告)日:2021-04-06

    申请号:CN201811482879.2

    申请日:2018-12-05

    Abstract: 本发明提供了一种神经网络的训练方法及基于神经网络的行人属性识别方法,该识别方法包括:获取待识别的目标行人图像;对目标行人图像作身体区域分割,获取与不同身体区域对应的多个局部图像;将多个局部图像分别输入至预先经过训练的与不同身体区域相对应的多个属性识别网络,得到与不同身体区域对应的多组目标行人属性;其中,目标属性识别网络用于结合目标行人图像中行人的性别信息,以及目标局部图像中目标身体区域的方向信息,来识别目标行人图像中行人的全身属性,以及专属于目标身体区域的行人属性;对多组目标行人属性进行汇总处理,得到目标行人图像的多个目标行人属性。本发明能够在识别行人属性时,提升泛化能力以及识别准确度。

    语音匹配方法、装置、电子设备及存储介质

    公开(公告)号:CN111968650A

    公开(公告)日:2020-11-20

    申请号:CN202010826186.1

    申请日:2020-08-17

    Abstract: 本发明实施例提供一种语音匹配方法、装置、电子设备及存储介质,所述方法包括:确定待匹配话单的两个待匹配号码;将待匹配话单中的语音数据的声纹特征分别与两个待匹配号码的声纹特征进行匹配,得到待匹配话单中的语音数据与两个待匹配号码的匹配关系;其中,任一待匹配号码的声纹特征是对该待匹配号码的话单集中每一语音数据的声纹特征进行聚类得到的,该待匹配号码的话单集包括多个以该待匹配号码为一端、不同号码为另一端的话单。本发明实施例提供的方法、装置、电子设备及存储介质,保证了语音数据与其对应主被叫号码的一致性。

    一种基于文本信息的辅助说话人分离方法及相关装置

    公开(公告)号:CN111128223A

    公开(公告)日:2020-05-08

    申请号:CN201911424875.3

    申请日:2019-12-30

    Abstract: 本申请实施例公开了一种基于文本信息的辅助说话人分离方法及相关装置,方法包括:获取待分离的第一语音信息;对待分离的第一语音信息进行第一分离处理,得到第一分离结果,第一分离处理是指对第一语音信息中的不同说话人进行初步分割和聚类;对第一分离结果进行语音处理,得到第二语音信息,语音处理包括语音识别或语音表征信息采集;将第二语音信息输入预先训练好的说话人转变点识别模型,确定第二语音信息中的说话人的转变点;根据说话人的转变点和第一分离结果得到目标分离结果。可见,本申请通过获取的第一语音信息获取文本信息,融合底层声学特征与文本信息进行说话人分离,提高说话人分离的准确性。

    一种语种向量获得、语种识别的方法和相关装置

    公开(公告)号:CN110164417A

    公开(公告)日:2019-08-23

    申请号:CN201910470489.1

    申请日:2019-05-31

    Abstract: 本申请公开了一种语种向量获得、语种识别的方法和相关装置,该方法包括:将各个长时语音数据切分获得短时语音片段,利用全变量因子分析技术得到各个语音数据和各个语音片段的语种向量;基于各个语音数据和各个语音片段的语种向量进行时长干扰属性投影处理获得时长干扰投影矩阵;利用时长干扰投影矩阵将各个语音数据的语种向量映射为各个语音数据的新语种向量。可见,该方法充分有效挖掘长时语音数据和短时语音片段的相互关联信息。即使短时语音数据利用上述全变量空间和时长干扰投影矩阵进行时长因素补偿也能够得到更加精准、稳定的新语种向量,从而提高短时语音语种识别的准确性。

Patent Agency Ranking