-
公开(公告)号:CN119199741A
公开(公告)日:2024-12-27
申请号:CN202411740129.6
申请日:2024-11-29
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种声源定位方法及相关装置、设备和存储介质,其中,声源定位方法包括:基于目标设备中目标麦克风阵列采集的待测音频,提取得到相位特征;基于相位特征进行特征采样至目标维度,得到第一特征,以及基于目标设备中目标麦克风阵列的属性信息进行特征提取,得到目标维度的第二特征;其中,属性信息至少包括目标麦克风阵列的排布方式和阵元数量,目标维度为对不同设备进行声源定位时统一的特征维度;基于第一特征和第二特征,融合得到目标特征;基于目标特征,得到待测音频的声源定位结果。上述方案,能够在实现不同设备声源定位通用性的情况下,提升声源定位的准确性。
-
公开(公告)号:CN113448975B
公开(公告)日:2023-01-17
申请号:CN202110578744.1
申请日:2021-05-26
Applicant: 科大讯飞股份有限公司
IPC: G06F16/23 , G06V10/762 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本申请公开了一种人物画像库的更新方法、装置、系统和存储介质,该方法包括:对获取到的语音序列进行特征提取处理,得到新声纹特征;判断新声纹特征与人物画像库中的声纹特征是否匹配;若匹配失败,则基于当前匹配失败的次数判定是否满足第一聚类触发条件;若满足第一聚类触发条件,则对新声纹特征进行聚类处理,得到第一聚类结果,基于第一聚类结果将新声纹特征注册到人物画像库中。通过上述方式,本申请能够实现自动将新说话人的信息注册到人物画像库,且保护用户的隐私。
-
公开(公告)号:CN119199741B
公开(公告)日:2025-05-13
申请号:CN202411740129.6
申请日:2024-11-29
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种声源定位方法及相关装置、设备和存储介质,其中,声源定位方法包括:基于目标设备中目标麦克风阵列采集的待测音频,提取得到相位特征;基于相位特征进行特征采样至目标维度,得到第一特征,以及基于目标设备中目标麦克风阵列的属性信息进行特征提取,得到目标维度的第二特征;其中,属性信息至少包括目标麦克风阵列的排布方式和阵元数量,目标维度为对不同设备进行声源定位时统一的特征维度;基于第一特征和第二特征,融合得到目标特征;基于目标特征,得到待测音频的声源定位结果。上述方案,能够在实现不同设备声源定位通用性的情况下,提升声源定位的准确性。
-
公开(公告)号:CN111785284B
公开(公告)日:2024-04-30
申请号:CN202010839084.3
申请日:2020-08-19
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开了一种基于音素辅助的文本无关声纹识别方法、装置以及设备。本发明分析了现有的文本无关声纹识别技术的缺陷,提出在音素信息上统计帧级别声纹信息分布,并与帧级别特征的第一统计信息进行结合,以此补偿第一统计信息中缺失的个性声纹信息。其中在获得帧级别声纹信息分布过程中,利用到获得第一统计信息之前的输入语音的帧级别特征以及预先掌握到的全局的音素状态分布模板,计算突出了声纹信息的统计量,使得识别说话人的过程有效利用到声纹信息在音素上的分布规律,从而可以大幅提高文本无关场景的说话人识别效果。为了获得用全局音素分布模板,本发明还提出可以预先基于大量说话人语音以及音素分类结果进行海量样本级的分布统计。
-
公开(公告)号:CN107886949B
公开(公告)日:2021-04-30
申请号:CN201711195319.4
申请日:2017-11-24
Applicant: 科大讯飞股份有限公司
IPC: G10L15/22 , H04L29/08 , G06F16/9535
Abstract: 本发明实施例提供一种内容推荐方法及装置,所述方法包括:获取目标用户的语音请求数据,提取所述语音请求数据中对应的交互推荐特征;根据所述交互推荐特征,在预先构建的与所述目标用户对应的推荐知识库中获取相应的推荐内容并发送给所述目标用户;其中,所述推荐知识库中包括多个对应关系模型;且所述各对应关系模型分别基于从各历史用户的样本语音请求数据中提取的交互推荐特征及和所述各历史用户相对应的推荐内容建立。所述方法大大方便了用户使用的同时,结合了目标用户请求的声学、语义、用户属性及说话人信息,从而进一步提高了内容推荐的准确度。
-
公开(公告)号:CN111785284A
公开(公告)日:2020-10-16
申请号:CN202010839084.3
申请日:2020-08-19
Applicant: 科大讯飞股份有限公司
Abstract: 本发明公开了一种基于音素辅助的文本无关声纹识别方法、装置以及设备。本发明分析了现有的文本无关声纹识别技术的缺陷,提出在音素信息上统计帧级别声纹信息分布,并与帧级别特征的第一统计信息进行结合,以此补偿第一统计信息中缺失的个性声纹信息。其中在获得帧级别声纹信息分布过程中,利用到获得第一统计信息之前的输入语音的帧级别特征以及预先掌握到的全局的音素状态分布模板,计算突出了声纹信息的统计量,使得识别说话人的过程有效利用到声纹信息在音素上的分布规律,从而可以大幅提高文本无关场景的说话人识别效果。为了获得用全局音素分布模板,本发明还提出可以预先基于大量说话人语音以及音素分类结果进行海量样本级的分布统计。
-
公开(公告)号:CN114333846A
公开(公告)日:2022-04-12
申请号:CN202111646838.4
申请日:2021-12-30
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种发声者识别方法、装置、电子设备和存储介质。其中,发声者识别方法包括:提取发声者的目标声纹表征;对目标声纹表征进行信道迁移,得到第一迁移声纹表征,其中,目标声纹表征属于第一信道,第一迁移声纹表征和参考声纹表征属于第二信道;比对第一迁移声纹表征与参考声纹表征,以得到发声者的识别结果。通过上述方式,本申请能够提升发声者识别结果的准确率。
-
公开(公告)号:CN113448975A
公开(公告)日:2021-09-28
申请号:CN202110578744.1
申请日:2021-05-26
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种人物画像库的更新方法、装置、系统和存储介质,该方法包括:对获取到的语音序列进行特征提取处理,得到新声纹特征;判断新声纹特征与人物画像库中的声纹特征是否匹配;若匹配失败,则基于当前匹配失败的次数判定是否满足第一聚类触发条件;若满足第一聚类触发条件,则对新声纹特征进行聚类处理,得到第一聚类结果,基于第一聚类结果将新声纹特征注册到人物画像库中。通过上述方式,本申请能够实现自动将新说话人的信息注册到人物画像库,且保护用户的隐私。
-
公开(公告)号:CN107886949A
公开(公告)日:2018-04-06
申请号:CN201711195319.4
申请日:2017-11-24
Applicant: 科大讯飞股份有限公司
CPC classification number: G10L15/22 , G06F17/30867 , G10L2015/225 , H04L67/26
Abstract: 本发明实施例提供一种内容推荐方法及装置,所述方法包括:获取目标用户的语音请求数据,提取所述语音请求数据中对应的交互推荐特征;根据所述交互推荐特征,在预先构建的与所述目标用户对应的推荐知识库中获取相应的推荐内容并发送给所述目标用户;其中,所述推荐知识库中包括多个对应关系模型;且所述各对应关系模型分别基于从各历史用户的样本语音请求数据中提取的交互推荐特征及和所述各历史用户相对应的推荐内容建立。所述方法大大方便了用户使用的同时,结合了目标用户请求的声学、语义、用户属性及说话人信息,从而进一步提高了内容推荐的准确度。
-
-
-
-
-
-
-
-