-
公开(公告)号:CN109584886B
公开(公告)日:2023-01-17
申请号:CN201811475745.8
申请日:2018-12-04
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种基于声纹识别的身份认证方法、装置、设备及存储介质,方法包括:获取目标标识的关联标识信息,目标标识的关联标识信息至少包括:在预设时间段内,与目标标识直接或间接产生联系的标识组成的目标标识集合;基于目标标识的关联标识信息,确定目标标识对应的标识度量矢量;基于目标标识对应的声纹矢量和标识度量矢量,确定目标标识对应的用户身份信息。本申请在基于目标标识对应的声纹矢量确定目标标识对应的用户身份信息时,用能够表征目标标识的关联标识信息的标识度量矢量进行辅助,能够较准确确定出目标标识对应的用户身份信息,用户体验较好。
-
公开(公告)号:CN115376214A
公开(公告)日:2022-11-22
申请号:CN202210813381.X
申请日:2022-07-11
Applicant: 科大讯飞股份有限公司
IPC: G06V40/70 , G06V10/40 , G06V10/74 , G06V10/774
Abstract: 本发明提供一种情绪识别方法、装置、电子设备和存储介质,其中方法包括:确定至少两个模态的待识别数据;基于各个模态的情绪识别模型,确定各个模态的待识别数据的情绪概率分布;基于各个模态的情绪概率分布,确定情绪识别结果;情绪识别模型用于对对应模态的待识别数据进行特征提取,并基于特征提取所得的数据特征进行情绪识别;各个模态的情绪识别模型是基于各个模态的样本数据的样本数据特征在同一空间内的特征相似度,和/或,各个模态的样本数据的预测概率分布之间的分布相似度,联合训练得到,利用不同模态的样本数据所表征的情绪信息的一致性,和相同情绪在不同模态间的互补关系训练模型,能够提升模型的泛化能力和情绪识别过程的精准度。
-
公开(公告)号:CN113724713A
公开(公告)日:2021-11-30
申请号:CN202111042821.8
申请日:2021-09-07
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种语音识别方法、装置、设备及存储介质,其中,方法包括:获取目标混合语音的语音特征以及指定说话人的说话人特征;以趋于目标语音特征为提取方向,根据目标混合语音的语音特征以及目标说话人的说话人特征,从目标混合语音的语音特征中提取目标说话人的语音特征,以得到目标说话人的提取语音特征,其中,目标语音特征为用于获得与目标说话人的真实语音内容一致的语音识别结果的语音特征;根据指定说话人的提取语音特征,获取指定说话人的语音识别结果。经由本申请提供的语音识别方法可从包含指定说话人语音的混合语音中较为准确的识别出指定说话人的语音内容,用户体验较好。
-
公开(公告)号:CN113724689A
公开(公告)日:2021-11-30
申请号:CN202110910287.1
申请日:2021-08-09
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法及相关装置、电子设备、存储介质,其中,语音识别方法包括:获取若干音频帧的语义特征表示;利用语音识别模型对若干音频帧的语义特征表示进行识别,得到若干音频帧对应的识别文本;其中,语音识别模型采用注意力机制,且注意力机制的掩膜是基于语音识别要求的时延而生成的。上述方案,能够降低不同时延要求下语音识别的复杂度和成本。
-
公开(公告)号:CN110148413B
公开(公告)日:2021-10-08
申请号:CN201910422699.3
申请日:2019-05-21
Applicant: 科大讯飞股份有限公司
Abstract: 本申请实施例公开了一种语音评测方法及相关装置,方法包括:获取第一测评模式下作为评测标准的第一语音,以及获取待评测的第二语音;处理第一语音得到第一文本,以及处理第二语音得到第二文本;获取第一测评模式对应的第一文本检测策略;按照第一文本检测策略处理第一文本和第二文本,得到针对第二语音的检测结果。本申请有利于提高设备进行语音评测的灵活性和全面性。
-
公开(公告)号:CN113113024A
公开(公告)日:2021-07-13
申请号:CN202110474762.5
申请日:2021-04-29
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音识别方法、装置、电子设备和存储介质,其中方法包括:确定用户的待识别语音;基于预设状态转移路径,对所述待识别语音进行语音识别解码,得到语音识别结果;所述预设状态转移路径是基于所述用户的地域信息和/或历史输入信息扩充得到的。本发明提供的语音识别方法、装置、电子设备和存储介质,基于当前用户的地域信息和/或历史输入信息动态扩充解码网络中的预设状态转移路径,从而基于扩充后的预设状态转移路径对该用户的待识别语音进行语音识别解码,利用该用户的个性化信息,提升了个性化语音识别的准确性,且动态扩充预设状态转移路径的方式,增强了实用性。
-
公开(公告)号:CN112951209A
公开(公告)日:2021-06-11
申请号:CN202110110872.3
申请日:2021-01-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种语音识别方法、装置、设备及计算机可读存储介质,其中,语音识别方法包括:基于预先建立的语音识别模型,依次获取待识别语音中每个语音帧对应的特征向量;在每获得一语音帧对应的特征向量后,基于语音识别模型、当前获得的特征向量和前一解码位置对应的识别结果,确定当前获得的特征向量处是否为解码位置;若是,则基于语音识别模型、当前获得的特征向量和当前获得的特征向量之前的所有特征向量,确定当前解码位置对应的识别结果。本申请提供的语音识别方法可实现实时流式解码,适用于实时的语音识别应用场景。
-
公开(公告)号:CN108304890B
公开(公告)日:2021-06-08
申请号:CN201810218705.9
申请日:2018-03-16
Applicant: 科大讯飞股份有限公司
IPC: G06K9/62
Abstract: 本申请公开了一种分类模型的生成方法及装置,该方法包括:获取目标训练数据,该目标训练数据包括同一数据类型下划分的不同领域数据,利用该目标训练数据训练特征生成器、主分类器以及辅助分类器,其中,特征生成器用于将目标训练数据的原始特征数据变换到同一特征空间中以得到变换后特征数据,主分类器用于根据变换后特征数据将目标训练数据进行分类预测,辅助分类器用于根据变换后特征数据将目标训练数据所属的划分领域进行区分。由于特征生成器的构建目的是为了降低辅助分类器的领域区分能力,当辅助分类器无法进行领域区分时便可以结束训练,因为此时的主分类器将不受划分领域的限制,这使得主分类器的分类结果更加准确。
-
公开(公告)号:CN112735392A
公开(公告)日:2021-04-30
申请号:CN202011634031.4
申请日:2020-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请实施例公开了一种语音处理方法、装置、设备及存储介质,通过对用于解码文本单元的权重序列进行改进,使得每一文本单元对应的权重序列与各语音帧的时间信息的关联关系趋近于目标函数关系,由于每一文本单元对应的目标函数关系表示,该文本单元与各个语音帧的时间信息的关联度,与各个语音帧的时间信息间的关联关系,这就使得,利用权重序列进行解码得到的文本单元与语音帧的时间信息是强相关的,因此,利用各个语音帧的时间信息,以及各文本单元对应的目标函数能够准确实现语音帧的时间信息与文本单元的对应关系,也就是将语音帧的时间信息与文本单元准确对齐,从而提高了将语音识别结果与音频对齐的准确率。
-
公开(公告)号:CN112668345A
公开(公告)日:2021-04-16
申请号:CN202011552924.4
申请日:2020-12-24
Applicant: 科大讯飞股份有限公司
IPC: G06F40/58 , G06F40/42 , G06F40/216 , G06F40/253 , G06N3/04 , G06N3/08
Abstract: 本申请公开了一种语法缺陷数据识别模型构建方法和语法缺陷数据识别方法,该构建方法包括:在获取到第一训练源文本、第一标准翻译文本及其对应的第一实际识别结果、和第一语法缺陷翻译文本及其对应的第二实际识别结果后,将第一训练源文本、第一标准翻译文本和第一语法缺陷翻译文本输入第一模型,得到第一标准翻译文本对应的第一预测识别结果和第一语法缺陷翻译文本对应的第二预测识别结果;再根据第一预测识别结果、第二预测识别结果、第一实际识别结果和第二实际识别结果更新第一模型,并返回执行将第一训练源文本、第一标准翻译文本和第一语法缺陷翻译文本输入第一模型的步骤,直至在达到第一停止条件时根据第一模型构建语法缺陷数据识别模型。
-
-
-
-
-
-
-
-
-