-
公开(公告)号:CN116312500A
公开(公告)日:2023-06-23
申请号:CN202310312705.6
申请日:2023-03-28
Applicant: 科大讯飞股份有限公司
Abstract: 本申请涉及一种语音识别方法、装置、系统及存储介质,所述方法包括:获取待识别语音的声学特征和热词的字素向量和音素向量;基于所述声学特征得到第一编码器输出;基于所述字素向量得到第一解码器输出;基于所述字素向量和所述音素向量,利用最优化传输进行迭代更新,得到上下文词向量;基于所述第一解码器输出和所述上下文词向量得到第二解码器输出;基于所述第一编码器输出和所述上下文词向量得到第二编码器输出;基于所述第二解码器输出和所述第二编码器输出得到后验概率分布,以得到语音识别结果。本申请具有减少信息损失、提高准确性的效果。
-
公开(公告)号:CN109582977B
公开(公告)日:2023-06-02
申请号:CN201811384437.4
申请日:2018-11-20
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种交互式文本翻译方法及装置,该方法包括:先获取待修正的目标文本,该目标文本是对源文本进行翻译后的文本,然后检测用户是否对该目标文本进行了人工修正,若是,则在人工修正后的文本的基础上进行自动修正,得到修正后的翻译结果。可见,本申请在人工修正文本的基础上由机器进行自动修正,当将该修正结果作为源文本的翻译结果时,与目标文本相比,可以提升源文本的翻译结果的翻译质量,此外,在人工修正的提示下进行自动修正,可以有效提升修正效率。
-
公开(公告)号:CN109584886B
公开(公告)日:2023-01-17
申请号:CN201811475745.8
申请日:2018-12-04
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种基于声纹识别的身份认证方法、装置、设备及存储介质,方法包括:获取目标标识的关联标识信息,目标标识的关联标识信息至少包括:在预设时间段内,与目标标识直接或间接产生联系的标识组成的目标标识集合;基于目标标识的关联标识信息,确定目标标识对应的标识度量矢量;基于目标标识对应的声纹矢量和标识度量矢量,确定目标标识对应的用户身份信息。本申请在基于目标标识对应的声纹矢量确定目标标识对应的用户身份信息时,用能够表征目标标识的关联标识信息的标识度量矢量进行辅助,能够较准确确定出目标标识对应的用户身份信息,用户体验较好。
-
公开(公告)号:CN115376214A
公开(公告)日:2022-11-22
申请号:CN202210813381.X
申请日:2022-07-11
Applicant: 科大讯飞股份有限公司
IPC: G06V40/70 , G06V10/40 , G06V10/74 , G06V10/774
Abstract: 本发明提供一种情绪识别方法、装置、电子设备和存储介质,其中方法包括:确定至少两个模态的待识别数据;基于各个模态的情绪识别模型,确定各个模态的待识别数据的情绪概率分布;基于各个模态的情绪概率分布,确定情绪识别结果;情绪识别模型用于对对应模态的待识别数据进行特征提取,并基于特征提取所得的数据特征进行情绪识别;各个模态的情绪识别模型是基于各个模态的样本数据的样本数据特征在同一空间内的特征相似度,和/或,各个模态的样本数据的预测概率分布之间的分布相似度,联合训练得到,利用不同模态的样本数据所表征的情绪信息的一致性,和相同情绪在不同模态间的互补关系训练模型,能够提升模型的泛化能力和情绪识别过程的精准度。
-
公开(公告)号:CN113724713A
公开(公告)日:2021-11-30
申请号:CN202111042821.8
申请日:2021-09-07
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种语音识别方法、装置、设备及存储介质,其中,方法包括:获取目标混合语音的语音特征以及指定说话人的说话人特征;以趋于目标语音特征为提取方向,根据目标混合语音的语音特征以及目标说话人的说话人特征,从目标混合语音的语音特征中提取目标说话人的语音特征,以得到目标说话人的提取语音特征,其中,目标语音特征为用于获得与目标说话人的真实语音内容一致的语音识别结果的语音特征;根据指定说话人的提取语音特征,获取指定说话人的语音识别结果。经由本申请提供的语音识别方法可从包含指定说话人语音的混合语音中较为准确的识别出指定说话人的语音内容,用户体验较好。
-
公开(公告)号:CN113724689A
公开(公告)日:2021-11-30
申请号:CN202110910287.1
申请日:2021-08-09
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法及相关装置、电子设备、存储介质,其中,语音识别方法包括:获取若干音频帧的语义特征表示;利用语音识别模型对若干音频帧的语义特征表示进行识别,得到若干音频帧对应的识别文本;其中,语音识别模型采用注意力机制,且注意力机制的掩膜是基于语音识别要求的时延而生成的。上述方案,能够降低不同时延要求下语音识别的复杂度和成本。
-
公开(公告)号:CN110148413B
公开(公告)日:2021-10-08
申请号:CN201910422699.3
申请日:2019-05-21
Applicant: 科大讯飞股份有限公司
Abstract: 本申请实施例公开了一种语音评测方法及相关装置,方法包括:获取第一测评模式下作为评测标准的第一语音,以及获取待评测的第二语音;处理第一语音得到第一文本,以及处理第二语音得到第二文本;获取第一测评模式对应的第一文本检测策略;按照第一文本检测策略处理第一文本和第二文本,得到针对第二语音的检测结果。本申请有利于提高设备进行语音评测的灵活性和全面性。
-
公开(公告)号:CN113113024A
公开(公告)日:2021-07-13
申请号:CN202110474762.5
申请日:2021-04-29
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音识别方法、装置、电子设备和存储介质,其中方法包括:确定用户的待识别语音;基于预设状态转移路径,对所述待识别语音进行语音识别解码,得到语音识别结果;所述预设状态转移路径是基于所述用户的地域信息和/或历史输入信息扩充得到的。本发明提供的语音识别方法、装置、电子设备和存储介质,基于当前用户的地域信息和/或历史输入信息动态扩充解码网络中的预设状态转移路径,从而基于扩充后的预设状态转移路径对该用户的待识别语音进行语音识别解码,利用该用户的个性化信息,提升了个性化语音识别的准确性,且动态扩充预设状态转移路径的方式,增强了实用性。
-
公开(公告)号:CN112951209A
公开(公告)日:2021-06-11
申请号:CN202110110872.3
申请日:2021-01-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种语音识别方法、装置、设备及计算机可读存储介质,其中,语音识别方法包括:基于预先建立的语音识别模型,依次获取待识别语音中每个语音帧对应的特征向量;在每获得一语音帧对应的特征向量后,基于语音识别模型、当前获得的特征向量和前一解码位置对应的识别结果,确定当前获得的特征向量处是否为解码位置;若是,则基于语音识别模型、当前获得的特征向量和当前获得的特征向量之前的所有特征向量,确定当前解码位置对应的识别结果。本申请提供的语音识别方法可实现实时流式解码,适用于实时的语音识别应用场景。
-
公开(公告)号:CN108304890B
公开(公告)日:2021-06-08
申请号:CN201810218705.9
申请日:2018-03-16
Applicant: 科大讯飞股份有限公司
IPC: G06K9/62
Abstract: 本申请公开了一种分类模型的生成方法及装置,该方法包括:获取目标训练数据,该目标训练数据包括同一数据类型下划分的不同领域数据,利用该目标训练数据训练特征生成器、主分类器以及辅助分类器,其中,特征生成器用于将目标训练数据的原始特征数据变换到同一特征空间中以得到变换后特征数据,主分类器用于根据变换后特征数据将目标训练数据进行分类预测,辅助分类器用于根据变换后特征数据将目标训练数据所属的划分领域进行区分。由于特征生成器的构建目的是为了降低辅助分类器的领域区分能力,当辅助分类器无法进行领域区分时便可以结束训练,因为此时的主分类器将不受划分领域的限制,这使得主分类器的分类结果更加准确。
-
-
-
-
-
-
-
-
-