-
公开(公告)号:CN115376214A
公开(公告)日:2022-11-22
申请号:CN202210813381.X
申请日:2022-07-11
Applicant: 科大讯飞股份有限公司
IPC: G06V40/70 , G06V10/40 , G06V10/74 , G06V10/774
Abstract: 本发明提供一种情绪识别方法、装置、电子设备和存储介质,其中方法包括:确定至少两个模态的待识别数据;基于各个模态的情绪识别模型,确定各个模态的待识别数据的情绪概率分布;基于各个模态的情绪概率分布,确定情绪识别结果;情绪识别模型用于对对应模态的待识别数据进行特征提取,并基于特征提取所得的数据特征进行情绪识别;各个模态的情绪识别模型是基于各个模态的样本数据的样本数据特征在同一空间内的特征相似度,和/或,各个模态的样本数据的预测概率分布之间的分布相似度,联合训练得到,利用不同模态的样本数据所表征的情绪信息的一致性,和相同情绪在不同模态间的互补关系训练模型,能够提升模型的泛化能力和情绪识别过程的精准度。
-
公开(公告)号:CN110164417B
公开(公告)日:2021-07-06
申请号:CN201910470489.1
申请日:2019-05-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语种向量获得、语种识别的方法和相关装置,该方法包括:将各个长时语音数据切分获得短时语音片段,利用全变量因子分析技术得到各个语音数据和各个语音片段的语种向量;基于各个语音数据和各个语音片段的语种向量进行时长干扰属性投影处理获得时长干扰投影矩阵;利用时长干扰投影矩阵将各个语音数据的语种向量映射为各个语音数据的新语种向量。可见,该方法充分有效挖掘长时语音数据和短时语音片段的相互关联信息。即使短时语音数据利用上述全变量空间和时长干扰投影矩阵进行时长因素补偿也能够得到更加精准、稳定的新语种向量,从而提高短时语音语种识别的准确性。
-
公开(公告)号:CN108198574B
公开(公告)日:2020-12-08
申请号:CN201711475093.3
申请日:2017-12-29
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供的变声检测方法及装置,获取待与目标对象进行认证匹配的待测语音数据;利用预置的变声检测模型,确定与所述待测语音数据匹配的待测声纹特征信息,以及语音伪造判决结果;确定所述待测声纹特征信息与所述目标对象已注册的声纹特征信息的相似度,得到声纹相似度;根据所述语音伪造判决结果以及所述声纹相似度,确定所述待测语音数据是否为人工伪造的变声语音数据。本发明利用变声检测模型来确定与所述待测语音数据匹配的待测声纹特征信息,以及语音伪造判决结果,进而来实现待测语音数据的检测,大幅提高了待测语音数据的检测效率以及检测结果的精准度。
-
公开(公告)号:CN111599346A
公开(公告)日:2020-08-28
申请号:CN202010424995.X
申请日:2020-05-19
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种说话人聚类方法、装置、设备及存储介质,方法包括:获取语音数据集;对于语音数据集中的每条语音数据,以趋于通过该语音数据中的说话人信息与信道信息分离得到的说话人特征为获取方向,从该语音数据中获取说话人特征,得到由获取的说话人特征组成的说话人特征集;根据说话人特征集对语音数据集进行聚类。其中,在根据说话人特征集对语音数据集进行聚类时,可采用不需要预先设定类别数的聚类算法对说话人特征集中的说话人特征进行粗聚类,在粗聚类基础上,进一步根据类内距离和类间距离进行细聚类,从而根据细聚类结果获得语音数据集中语音数据的聚类结果。通过本申请提供的说话人聚类方法能够获得比较准确的聚类结果。
-
公开(公告)号:CN112735438B
公开(公告)日:2024-05-31
申请号:CN202011594594.5
申请日:2020-12-29
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种在线声纹特征更新方法,还提供了相应的在线声纹特征更新设备,以及存储设备和建模设备;本申请中的方法中,需要进行声纹特征更新的设备通过在需要测试音频数据时,采用初始化时默认的声纹模型提取器对待测试的测试音频数据进行声纹模型提取,并且进行数据分析后再采用新的声纹模型提取器重新提取分析后的注册音频数据,完成在线更新;通过这种方式,本申请能够使待测试的测试音频可以快速体验新的声纹模型提取器的检索比对效果。
-
公开(公告)号:CN111599346B
公开(公告)日:2024-02-20
申请号:CN202010424995.X
申请日:2020-05-19
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种说话人聚类方法、装置、设备及存储介质,方法包括:获取语音数据集;对于语音数据集中的每条语音数据,以趋于通过该语音数据中的说话人信息与信道信息分离得到的说话人特征为获取方向,从该语音数据中获取说话人特征,得到由获取的说话人特征组成的说话人特征集;根据说话人特征集对语音数据集进行聚类。其中,在根据说话人特征集对语音数据集进行聚类时,可采用不需要预先设定类别数的聚类算法对说话人特征集中的说话人特征进行粗聚类,在粗聚类基础上,进一步根据类内距离和类间距离进行细聚类,从而根据细聚类结果获得语音数据集中语音数据的聚类结果。通过本申请提供的说话人聚类方法能够获得比较准确的聚类结果。
-
公开(公告)号:CN109584887B
公开(公告)日:2022-12-02
申请号:CN201811583016.4
申请日:2018-12-24
Applicant: 科大讯飞股份有限公司
Inventor: 李晋
Abstract: 本申请公开了一种声纹信息提取模型生成、声纹信息提取的方法和装置,该方法包括:获得表征训练语音数据时域与频域特性的第一训练语谱序列;打乱第一训练语谱序列的时序获得第二训练语谱序列;基于训练用户标识利用卷积神经网络对第一训练语谱序列和对应的第二训练语谱序列进行训练,生成声纹向量提取模型。可见,采用卷积神经网络将正常时序和打乱时序的训练语谱序列对应进行声纹特征训练,充分挖掘时序变化对声纹特征的干扰,卷积神经网络可联合分析训练语谱序列的时域和频域特性,较短时长训练语音数据也可进行充分的声纹特征训练,得到更加精准、稳定的声纹向量提取模型,利用该模型可提取获得精确、稳定的声纹向量,提高识别认证的准确率。
-
公开(公告)号:CN114783415A
公开(公告)日:2022-07-22
申请号:CN202210239481.6
申请日:2022-03-11
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种声纹提取方法、身份识别方法、声纹提取装置、身份识别装置、电子设备及计算机可读存储介质。该声纹提取方法包括:基于目标对象的第一语谱图进行特征提取,得到若干音素片段的特征序列;其中,特征序列包括至少一个帧级特征;基于音素片段的特征序列进行特征统计,得到音素片段的音素特征;基于若干音素片段的音素特征,得到所述目标对象的声纹特征。通过上述方式,能够提高声纹特征的鲁棒性和准确性。
-
公开(公告)号:CN113140222A
公开(公告)日:2021-07-20
申请号:CN202110505478.X
申请日:2021-05-10
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种声纹向量提取方法、装置、设备及存储介质,方法包括:获取目标语音数据对应的语谱片段序列,基于语谱片段序列和预先建立的第一声纹提取模型确定声纹向量,第一声纹提取模型以第一训练语谱片段为训练样本,采用第二声纹提取模型辅助训练得到,第一声纹提取模型的训练目标包括:使基于第一声纹向量和第二声纹向量分别针对设定身份标签预测的概率趋于一致,第一声纹向量为第一声纹提取模型针对第一训练语谱片段提取的声纹向量,第二声纹向量为第二声纹提取模型针对第二训练语谱片段提取的声纹向量,第二训练语谱片段为对第一训练语谱片段的时序进行打乱后的语谱片段。本申请提供的声纹向量提取方法不受语音时序信息的干扰。
-
公开(公告)号:CN113129900A
公开(公告)日:2021-07-16
申请号:CN202110475683.6
申请日:2021-04-29
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种声纹提取模型构建方法、声纹识别方法及其相关设备,先根据样本语音、该样本语音的实际说话人和该样本语音的实际语种,构建声纹提取模型,以使构建好的声纹提取模型能够在不受语种干扰的情况下进行声纹特征提取;再利用该声纹提取模型针对待识别语音进行声纹特征提取,并根据该待识别语音的声纹特征,确定该待识别语音的说话人。其中,因构建好的声纹提取模型在进行声纹特征提取时几乎不受语种干扰,使得构建好的声纹提取模型具有较好的声纹特征提取性能,从而使得后续利用该声纹提取模型针对待识别语音提取的声纹特征能够更准确地表示出该待识别语音的说话人信息,如此有利于提高声纹识别准确性。
-
-
-
-
-
-
-
-
-