-
公开(公告)号:CN116758912A
公开(公告)日:2023-09-15
申请号:CN202310641371.7
申请日:2023-05-31
Applicant: 科大讯飞股份有限公司
IPC: G10L15/22 , G10L15/24 , G10L15/26 , G10L25/57 , G06V20/40 , G06V10/40 , G06F18/25 , G06F18/24 , G06F18/214 , G06F18/23
Abstract: 本发明提供了一种语音识别方法、装置、设备及存储介质,语音识别方法包括:获取目标语音和目标视频,其中,目标语音为目标视频的视频内容的解说语音;对目标语音提取声学特征,得到目标语音的声学特征,并对目标视频提取含视频内容信息的视觉特征,得到目标视频的视觉特征;根据目标语音的声学特征并辅以目标视频的视觉特征,确定目标语音的语音识别结果。考虑到目标语音为目标视频的视频内容的解说语音,其与目标视频的视频内容具有一定的相关性,本发明对目标视频提取含视频内容信息的视觉特征,辅以视觉特征对解说语音进行语音识别,在对目标语音即解说语音进行语音识别时,辅以含视频内容信息的视觉特征,能够获得较为准确的语音识别结果。
-
公开(公告)号:CN116825099A
公开(公告)日:2023-09-29
申请号:CN202310641362.8
申请日:2023-05-31
Applicant: 科大讯飞股份有限公司
IPC: G10L15/22 , G10L15/26 , G10L15/24 , G10L25/57 , G06V20/40 , G06V10/40 , G06V10/80 , G06F18/25 , G06F18/24 , G06F18/214 , G06F18/23213
Abstract: 本发明提供了一种语音识别方法、装置、设备及存储介质,语音识别方法包括:获取指定领域的目标语音和目标视频,其中,目标语音为目标视频的视频画面内容的解说语音;从目标视频的视频画面中检测实体,得到第一目标实体;从指定领域的知识图谱中获取第一目标实体的知识信息;辅以第一目标实体的知识信息,对目标语音进行语音识别,得到目标语音的语音识别结果。本发明从解说语音的特点出发,提出从目标视频的视频画面中检测实体,并从知识图谱中获取检测出的实体的知识信息,进而辅以获得的实体知识信息对目标语音进行识别,在对目标语音进行识别时,辅以从目标视频的视频画面中检测出的实体的知识信息,能够获得较为准确的语音识别结果。
-
公开(公告)号:CN116580725A
公开(公告)日:2023-08-11
申请号:CN202310513866.1
申请日:2023-05-08
Applicant: 科大讯飞股份有限公司
IPC: G10L25/87 , G10L25/51 , G10L25/30 , G10L25/03 , G10L25/57 , G06N3/0442 , G06N3/0464 , G06N3/044 , G06N3/08
Abstract: 本发明提供了一种语音端点检测方法、装置、设备及存储介质,语音端点检测方法包括:获取目标数据,目标数据包括目标音频数据;将目标数据输入预先训练得到的音频帧分类模型,得到目标音频数据的音频帧的分类结果,其中,音频帧分类模型以带有若干噪声类别中的一个或多个类别的噪声的第一音频数据为训练样本,以第一音频数据的音频帧在多个维度下的真实类别为样本标签训练得到,多个维度包括语音维度和若干噪声类别分别对应的噪声维度;根据目标音频数据的音频帧的分类结果确定语音端点。本发明提供的语音端点检测方法能够检测出准确的语音端点。
-
公开(公告)号:CN114944149A
公开(公告)日:2022-08-26
申请号:CN202210400143.6
申请日:2022-04-15
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法、语音识别设备及计算机可读存储介质。该方法包括:基于待识别语音进行语音特征提取,得到语音特征,并基于参考文本进行文本特征提取,得到参考文本特征,其中,参考文本对参考语音识别得到,参考文本的语境与待识别语音的语境相关,参考语音的发言时间先于待识别语音的发言时间;基于参考文本特征和语音特征,识别得到待识别语音的识别文本。通过上述方式,能够提高识别文本的准确度。
-
公开(公告)号:CN115565533A
公开(公告)日:2023-01-03
申请号:CN202211150707.1
申请日:2022-09-21
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法、装置、设备及存储介质,本申请获取说话人说话过程的语音和拍摄的视频,采用多模态语音识别模型处理语音及视频,得到输出的识别文本,其中模型被配置为:从输入的视频中提取视觉特征,从输入的语音中提取声学特征,并基于注意力机制,对视觉特征和声学特征进行编、解码处理,得到预测的识别文本。本申请中的多模态语音识别模型采用注意力机制对视觉特征和声学特征进行编、解码处理,能够充分考虑各帧视觉特征与各帧声学特征间的关注程度,对语音识别准确度提升更高。并且,由于不需要将视觉特征和声学特征进行对齐,也即不需要进行预处理操作,降低了处理的复杂度。
-
公开(公告)号:CN115952836A
公开(公告)日:2023-04-11
申请号:CN202310093381.1
申请日:2023-01-18
Applicant: 科大讯飞股份有限公司
IPC: G06N3/0464 , G06N3/08 , G06F18/25
Abstract: 本发明提供了一种预训练方法及相关方法和设备,其中,预训练方法包括:获取多模态训练数据;基于包括编码部分和辅助训练部分的学生模型,对多模态训练数据进行编码,得到第一编码结果,并基于第一编码结果预测特征;基于只包括编码部分的教师模型,对多模态训练数据进行编码,得到第二编码结果,并基于第二编码结果确定目标特征;以使基于第一编码结果预测的特征趋近于目标特征为目标,对学生模型进行参数更新,教师模型的参数随学生模型参数的更新而更新;训练结束后得到的学生模型作为目标预训练模型。本发明提供的预训练方法可适用于多模态数据应用场景,还可适用于单模态数据应用场景,且本发明提供的预训练方法具有较高的模型训练效率。
-
公开(公告)号:CN115862626A
公开(公告)日:2023-03-28
申请号:CN202211570582.8
申请日:2022-12-08
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种视频信号处理方法、装置、设备及可读存储介质。该方案中,在获取待处理的视频信号之后,从视频信号中提取唇语视频;再对唇语视频进行唇语识别处理和基于唇语的语音重建处理,得到预测文本和重构语音;最后将预测文本和重构语音作为视频信号的补充信号。本方案中,同时对视频信号进行唇语识别和基于唇语的语音重建,可以得到重构语音和预测文本,将重构语音和预测文本作为远距离视频监控场景的视频信号的补充信息,能够提升远距离视频监控的有效性,为异常检测,安全预警等提供了更为丰富的数据来源。
-
公开(公告)号:CN114005438B
公开(公告)日:2022-05-17
申请号:CN202111666006.9
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音识别方法、语音识别模型的训练方法以及相关装置,语音识别方法包括:确定待识别语音信息的韵律特征,其中,韵律特征包括句子韵律特征和字符韵律特征中至少一种,句子韵律特征表征待识别语音信息的句子含义,字符韵律特征表征待识别语音信息的字符含义,且句子韵律特征基于初步处理待识别语音信息得到的文本信息确定,字符韵律特征包含待识别语音信息中每一字符的韵律特征,当前字符的韵律特征基于上一个字符的韵律特征确定;利用语音识别模型基于韵律特征对待识别语音信息进行文本识别,得到待识别语音信息的文本信息。该方法提高语音识别的准确性,得到更准确的文本识别结果,实现更可靠的识别效果。
-
公开(公告)号:CN114422825A
公开(公告)日:2022-04-29
申请号:CN202210095944.6
申请日:2022-01-26
Applicant: 科大讯飞股份有限公司
IPC: H04N21/233 , H04N21/234 , H04N21/43 , H04N21/439 , H04N21/44 , H04N21/4415 , H04L41/14 , H04L41/16 , G06V40/20 , G06V40/16 , G06V20/40 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本申请公开一种音视频同步方法、装置、介质、设备及程序产品。该方法包括:对待处理视频进行特征提取,得到待处理视频中定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息,定长音频帧与定长视频帧的时长相同;将定长音频帧的音频特征信息和定长视频帧的唇形图像序列信息输入训练好的同步网络模型中,计算待处理视频的音视频之间的时间偏差值,其中,训练好的同步网络模型是根据音视频同步的样本视频训练得到的;基于待处理视频的音视频之间的时间偏差值,对待处理视频中的视频流和音频流进行同步处理。本申请实施例在进行音视频同步时不依赖时间戳,可以基于面部唇形图像以及音频特征实现音视频同步,提高了音视频同步的准确性。
-
公开(公告)号:CN114005438A
公开(公告)日:2022-02-01
申请号:CN202111666006.9
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音识别方法、语音识别模型的训练方法以及相关装置,语音识别方法包括:确定待识别语音信息的韵律特征,其中,韵律特征包括句子韵律特征和字符韵律特征中至少一种,句子韵律特征表征待识别语音信息的句子含义,字符韵律特征表征待识别语音信息的字符含义,且句子韵律特征基于初步处理待识别语音信息得到的文本信息确定,字符韵律特征包含待识别语音信息中每一字符的韵律特征,当前字符的韵律特征基于上一个字符的韵律特征确定;利用语音识别模型基于韵律特征对待识别语音信息进行文本识别,得到待识别语音信息的文本信息。该方法提高语音识别的准确性,得到更准确的文本识别结果,实现更可靠的识别效果。
-
-
-
-
-
-
-
-
-