-
公开(公告)号:CN111524502B
公开(公告)日:2024-04-30
申请号:CN202010460914.1
申请日:2020-05-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种语种检测方法、装置、设备及存储介质,该方法包括:获取待检测语音数据的各个语音数据段的声学特征;基于预先构建的正交化投影空间,分别将所述各个语音数据段的声学特征映射为语种表征特征;其中,所述正交化投影空间中的指定语种的投影空间与非指定语种的投影空间不重叠;根据所述各个语音数据段的语种表征特征,确定所述各个语音数据段的语种为指定语种或非指定语种。上述方案通过提取待检测语音数据中的各个语音数据段的语种表征特征,来识别各个语音数据段的语种为指定语种或非指定语种。当待检测语音数据为包含混合语种的语音数据时,通过执行上述方案,可以从待检测语音数据中检测出不同语种的语音数据段。
-
公开(公告)号:CN116682158A
公开(公告)日:2023-09-01
申请号:CN202310651309.6
申请日:2023-06-01
Applicant: 科大讯飞股份有限公司
IPC: G06V40/16 , G10L25/63 , G10L25/30 , G06V40/70 , G06V20/40 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/084
Abstract: 本申请公开了一种情绪识别方法、装置、存储介质及设备,该方法包括:首先获取待识别的目标视频,并从中分离出音频信号流和图像信号流,然后将音频信号流和图像信号流分别输入预先构建的情绪识别模型,预测得到目标视频中目标用户对应的第一初步情绪识别结果和第二初步情绪识别结果;其中,情绪识别模型是在利用样本音频信号流和样本图像信号流进行交替训练后,再通过梯度融合的参数更新方式训练得到的;接着根据第一初步情绪识别结果和第二初步情绪识别结果,确定目标用户的最终情绪识别结果。由于本申请是先利用模态相关的训练方法和梯度融合的参数更新方式构建了情绪识别模型,从而在利用该模型进行情绪识别时,能够提高识别结果的准确率。
-
公开(公告)号:CN116466314A
公开(公告)日:2023-07-21
申请号:CN202310350067.7
申请日:2023-03-31
Applicant: 科大讯飞股份有限公司
IPC: G01S7/41
Abstract: 本申请公开了一种雷达个体分选方法、装置、存储介质及设备,该方法包括:首先将雷达脉冲序列划分为P个节拍;并在其中第n个节拍内获取每一脉冲描述字的预设维度的特征参数向量;然后对其进行聚类处理,得到第n个节拍包含的异常聚类簇和M个有效聚类簇;接着分别构建M个有效聚类簇对应的混合高斯模型;并依次从异常聚类簇中选取目标异常脉冲描述字,以计算其分别在这M个混合高斯模型中的最大似然度得分;进而从中选取最大得分,并判断其是否高于预设第一阈值;若是,则将目标异常脉冲描述字分选为最大得分对应的有效聚类簇;若否,则将其分选为异常聚类簇,依次类推,直至得到这P个节拍中所有脉冲描述字的分选结果,以有效提高分选准确率。
-
公开(公告)号:CN115544302A
公开(公告)日:2022-12-30
申请号:CN202211117830.3
申请日:2022-09-14
Applicant: 科大讯飞股份有限公司
IPC: G06F16/75 , G06F16/783 , G06N3/04 , G06N3/08
Abstract: 本申请公开了一种情感识别方法和相关装置、电子设备和存储介质,该方法包括:基于目标对象的视频数据,得到音频数据和与音频数据同步的图像数据;提取音频数据的第一音频特征,并提取图像数据的第一图像特征;基于第一音频特征和第一图像特征进行特征互补,得到第一互补特征和第二互补特征;基于第一音频特征和第一互补特征得到目标音频特征,并基于第一图像特征和第二互补特征得到目标图像特征;基于目标音频特征和目标图像特征,得到视频数据中目标对象的情感类别。通过上述方式,本申请能够结合多模态信息之间的相互关系进行情感识别,从而提升情感识别的准确性。
-
公开(公告)号:CN111524502A
公开(公告)日:2020-08-11
申请号:CN202010460914.1
申请日:2020-05-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种语种检测方法、装置、设备及存储介质,该方法包括:获取待检测语音数据的各个语音数据段的声学特征;基于预先构建的正交化投影空间,分别将所述各个语音数据段的声学特征映射为语种表征特征;其中,所述正交化投影空间中的指定语种的投影空间与非指定语种的投影空间不重叠;根据所述各个语音数据段的语种表征特征,确定所述各个语音数据段的语种为指定语种或非指定语种。上述方案通过提取待检测语音数据中的各个语音数据段的语种表征特征,来识别各个语音数据段的语种为指定语种或非指定语种。当待检测语音数据为包含混合语种的语音数据时,通过执行上述方案,可以从待检测语音数据中检测出不同语种的语音数据段。
-
公开(公告)号:CN109448732A
公开(公告)日:2019-03-08
申请号:CN201811609029.4
申请日:2018-12-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种数字串语音处理方法及装置,其中,方法包括:获取目标数字串语音;基于整个目标数字串语音和预先建立的身份向量确定模型,确定目标数字串语音中各个数字对应的目标数字身份向量,所有目标数字身份向量组成目标数字串语音对应的数字声纹模型,其中,身份向量确定模型采用数字串语音训练得到,数字声纹模型中包含训练数字串语音中数字串的结构化信息。本申请提供的数字串语音处理方法能够确定出稳定、精准的数字声纹模型。
-
公开(公告)号:CN107886949A
公开(公告)日:2018-04-06
申请号:CN201711195319.4
申请日:2017-11-24
Applicant: 科大讯飞股份有限公司
CPC classification number: G10L15/22 , G06F17/30867 , G10L2015/225 , H04L67/26
Abstract: 本发明实施例提供一种内容推荐方法及装置,所述方法包括:获取目标用户的语音请求数据,提取所述语音请求数据中对应的交互推荐特征;根据所述交互推荐特征,在预先构建的与所述目标用户对应的推荐知识库中获取相应的推荐内容并发送给所述目标用户;其中,所述推荐知识库中包括多个对应关系模型;且所述各对应关系模型分别基于从各历史用户的样本语音请求数据中提取的交互推荐特征及和所述各历史用户相对应的推荐内容建立。所述方法大大方便了用户使用的同时,结合了目标用户请求的声学、语义、用户属性及说话人信息,从而进一步提高了内容推荐的准确度。
-
公开(公告)号:CN117688440A
公开(公告)日:2024-03-12
申请号:CN202311523513.6
申请日:2023-11-13
Applicant: 科大讯飞股份有限公司
IPC: G06F18/241 , G06F18/23 , G06F18/214 , G01S7/41
Abstract: 本申请公开了一种雷达信号分选方法、分选模型的训练方法及相关装置,该方法包括:将多个雷达信号进行聚类,得到离散信号集和多个聚类信号集;获取所述离散信号集中每个雷达信号与每个所述聚类信号集之间的相关距离;其中,所述相关距离表征雷达信号与所述聚类信号集的离散度,且所述相关距离与所述离散度正相关;基于所述相关距离,从所述离散信号集中确定与每个所述聚类信号集对应的参考信号集。通过上述方式,本申请能够提高对雷达信号进行分选的准确性。
-
公开(公告)号:CN115376214A
公开(公告)日:2022-11-22
申请号:CN202210813381.X
申请日:2022-07-11
Applicant: 科大讯飞股份有限公司
IPC: G06V40/70 , G06V10/40 , G06V10/74 , G06V10/774
Abstract: 本发明提供一种情绪识别方法、装置、电子设备和存储介质,其中方法包括:确定至少两个模态的待识别数据;基于各个模态的情绪识别模型,确定各个模态的待识别数据的情绪概率分布;基于各个模态的情绪概率分布,确定情绪识别结果;情绪识别模型用于对对应模态的待识别数据进行特征提取,并基于特征提取所得的数据特征进行情绪识别;各个模态的情绪识别模型是基于各个模态的样本数据的样本数据特征在同一空间内的特征相似度,和/或,各个模态的样本数据的预测概率分布之间的分布相似度,联合训练得到,利用不同模态的样本数据所表征的情绪信息的一致性,和相同情绪在不同模态间的互补关系训练模型,能够提升模型的泛化能力和情绪识别过程的精准度。
-
公开(公告)号:CN110164417B
公开(公告)日:2021-07-06
申请号:CN201910470489.1
申请日:2019-05-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语种向量获得、语种识别的方法和相关装置,该方法包括:将各个长时语音数据切分获得短时语音片段,利用全变量因子分析技术得到各个语音数据和各个语音片段的语种向量;基于各个语音数据和各个语音片段的语种向量进行时长干扰属性投影处理获得时长干扰投影矩阵;利用时长干扰投影矩阵将各个语音数据的语种向量映射为各个语音数据的新语种向量。可见,该方法充分有效挖掘长时语音数据和短时语音片段的相互关联信息。即使短时语音数据利用上述全变量空间和时长干扰投影矩阵进行时长因素补偿也能够得到更加精准、稳定的新语种向量,从而提高短时语音语种识别的准确性。
-
-
-
-
-
-
-
-
-