-
公开(公告)号:CN111968650B
公开(公告)日:2024-04-30
申请号:CN202010826186.1
申请日:2020-08-17
Applicant: 科大讯飞股份有限公司
IPC: G10L17/00 , G10L17/22 , G10L21/0272
Abstract: 本发明实施例提供一种语音匹配方法、装置、电子设备及存储介质,所述方法包括:确定待匹配话单的两个待匹配号码;将待匹配话单中的语音数据的声纹特征分别与两个待匹配号码的声纹特征进行匹配,得到待匹配话单中的语音数据与两个待匹配号码的匹配关系;其中,任一待匹配号码的声纹特征是对该待匹配号码的话单集中每一语音数据的声纹特征进行聚类得到的,该待匹配号码的话单集包括多个以该待匹配号码为一端、不同号码为另一端的话单。本发明实施例提供的方法、装置、电子设备及存储介质,保证了语音数据与其对应主被叫号码的一致性。
-
公开(公告)号:CN115019808A
公开(公告)日:2022-09-06
申请号:CN202210616862.1
申请日:2022-06-01
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种声纹提取方法、装置、设备及可读存储介质。获取待进行声纹提取的语音数据之后,先确定语音数据对应的语谱片段,再针对每个语谱片段,对语谱片段进行声纹提取,得到语谱片段的融合有语音数据的录制环境信息的声纹表征向量;对各个语谱片段的融合环境信息的声纹表征向量进行加权平均,得到语音数据的融合有语音数据的录制环境信息的声纹表征向量。上述方案中,语音数据的声纹表征向量融合有语音数据的录制环境信息,其精准度更高,因此,采用上述方案能够消除语音数据录制环境差异对声纹信息的精准度的影响。
-
公开(公告)号:CN114333771A
公开(公告)日:2022-04-12
申请号:CN202111443833.1
申请日:2021-11-30
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音检测方法、装置、电子设备及计算机可读存储介质,其中,该方法包括:利用特征提取网络对待检测语音进行特征提取,以得到待检测语音的编码特征向量;利用深层残差卷积网络对待检测语音的编码特征向量进行降维处理,以得到待检测语音的表征向量,其中,表征向量包含待检测语音的语音类别区分信息;根据表征向量与目标向量之间的距离,确定待检测语音的语音类别。通过上述方式,本申请能够提升语音检测的准确率。
-
公开(公告)号:CN118629427A
公开(公告)日:2024-09-10
申请号:CN202410724239.7
申请日:2024-06-05
Applicant: 科大讯飞股份有限公司 , 合肥智能语音创新发展有限公司
Abstract: 本申请提出一种异音检测方法、装置、电子设备、存储介质及产品,该方法提取待检测设备对应测点的音频,并对音频进行加噪处理,得到测点对应的加噪音频;基于待检测设备的工况,对加噪音频进行去噪重构处理,得到测点对应的重构音频,并基于音频和重构音频之间的重构差异,确定测点的音频对应的检测结果,检测结果表示测点的音频是否异常;其中,加噪处理算法和去噪重构处理的处理算法是通过对待检测设备对应测点的正常音频进行加噪和去噪重构处理确定的。采用本申请的技术方案,能够对测点的音频进行自动异音检测,提高了异音检测的效率和准确度。
-
公开(公告)号:CN112133291B
公开(公告)日:2024-02-13
申请号:CN201910487339.1
申请日:2019-06-05
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语种识别模型训练、语种识别的方法和相关装置,该方法包括:语种标签和随机噪声输入生成网络获得伪语种向量;训练语音数据的语种特征输入神经网络获得真语种向量;将伪语种向量和真语种向量分别输入判别网络获得判别概率和预测语种标签;基于判别概率和预测语种标签训练生成网络、神经网络和判别网络获得语种识别模型。生成网络与判别网络基于随机噪声辅以语种标签模拟语种特征分布增强语种特征,语种标签降低网络收敛难度;神经网络与判别网络处理训练语音数据的语种特征,降低生成网络的模拟复杂度;时长较短语音数据通过语种识别模型能够得到更加精准、稳定的语种向量,提高短时语音语种识别的精度和准确度。
-
公开(公告)号:CN113140222B
公开(公告)日:2023-08-01
申请号:CN202110505478.X
申请日:2021-05-10
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种声纹向量提取方法、装置、设备及存储介质,方法包括:获取目标语音数据对应的语谱片段序列,基于语谱片段序列和预先建立的第一声纹提取模型确定声纹向量,第一声纹提取模型以第一训练语谱片段为训练样本,采用第二声纹提取模型辅助训练得到,第一声纹提取模型的训练目标包括:使基于第一声纹向量和第二声纹向量分别针对设定身份标签预测的概率趋于一致,第一声纹向量为第一声纹提取模型针对第一训练语谱片段提取的声纹向量,第二声纹向量为第二声纹提取模型针对第二训练语谱片段提取的声纹向量,第二训练语谱片段为对第一训练语谱片段的时序进行打乱后的语谱片段。本申请提供的声纹向量提取方法不受语音时序信息的干扰。
-
公开(公告)号:CN112133291A
公开(公告)日:2020-12-25
申请号:CN201910487339.1
申请日:2019-06-05
Applicant: 科大讯飞股份有限公司 , 赵佰军
Abstract: 本申请公开了一种语种识别模型训练、语种识别的方法和相关装置,该方法包括:语种标签和随机噪声输入生成网络获得伪语种向量;训练语音数据的语种特征输入神经网络获得真语种向量;将伪语种向量和真语种向量分别输入判别网络获得判别概率和预测语种标签;基于判别概率和预测语种标签训练生成网络、神经网络和判别网络获得语种识别模型。生成网络与判别网络基于随机噪声辅以语种标签模拟语种特征分布增强语种特征,语种标签降低网络收敛难度;神经网络与判别网络处理训练语音数据的语种特征,降低生成网络的模拟复杂度;时长较短语音数据通过语种识别模型能够得到更加精准、稳定的语种向量,提高短时语音语种识别的精度和准确度。
-
公开(公告)号:CN119763604A
公开(公告)日:2025-04-04
申请号:CN202411610719.7
申请日:2024-11-12
Applicant: 科大讯飞股份有限公司 , 合肥智能语音创新发展有限公司 , 浙江潮汐力科技有限公司
Abstract: 本发明提供一种变压器状态识别方法、装置、电子设备和存储介质,涉及电力技术领域,其中方法包括:获取变压器的待测音频数据;将待测音频数据输入声纹提取模型中,得到声纹提取模型输出的目标声纹;声纹提取模型是基于第一数量的第一样本变压器的无状态标签的第一样本音频数据训练得到的;基于目标声纹和至少一个注册声纹,对变压器的状态进行识别。本发明是先基于大量无状态标签的第一样本音频数据训练得到声纹提取模型,再通过声纹提取模型基于少量有状态标签的第二样本音频数据确定至少一个注册声纹,进而结合注册声纹实现变压器的状态识别,在只需要少量有状态标签的样本音频数据的情况下,提高了变压器状态识别的准确性。
-
公开(公告)号:CN111524502B
公开(公告)日:2024-04-30
申请号:CN202010460914.1
申请日:2020-05-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种语种检测方法、装置、设备及存储介质,该方法包括:获取待检测语音数据的各个语音数据段的声学特征;基于预先构建的正交化投影空间,分别将所述各个语音数据段的声学特征映射为语种表征特征;其中,所述正交化投影空间中的指定语种的投影空间与非指定语种的投影空间不重叠;根据所述各个语音数据段的语种表征特征,确定所述各个语音数据段的语种为指定语种或非指定语种。上述方案通过提取待检测语音数据中的各个语音数据段的语种表征特征,来识别各个语音数据段的语种为指定语种或非指定语种。当待检测语音数据为包含混合语种的语音数据时,通过执行上述方案,可以从待检测语音数据中检测出不同语种的语音数据段。
-
公开(公告)号:CN115544302A
公开(公告)日:2022-12-30
申请号:CN202211117830.3
申请日:2022-09-14
Applicant: 科大讯飞股份有限公司
IPC: G06F16/75 , G06F16/783 , G06N3/04 , G06N3/08
Abstract: 本申请公开了一种情感识别方法和相关装置、电子设备和存储介质,该方法包括:基于目标对象的视频数据,得到音频数据和与音频数据同步的图像数据;提取音频数据的第一音频特征,并提取图像数据的第一图像特征;基于第一音频特征和第一图像特征进行特征互补,得到第一互补特征和第二互补特征;基于第一音频特征和第一互补特征得到目标音频特征,并基于第一图像特征和第二互补特征得到目标图像特征;基于目标音频特征和目标图像特征,得到视频数据中目标对象的情感类别。通过上述方式,本申请能够结合多模态信息之间的相互关系进行情感识别,从而提升情感识别的准确性。
-
-
-
-
-
-
-
-
-