-
公开(公告)号:CN115565533A
公开(公告)日:2023-01-03
申请号:CN202211150707.1
申请日:2022-09-21
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法、装置、设备及存储介质,本申请获取说话人说话过程的语音和拍摄的视频,采用多模态语音识别模型处理语音及视频,得到输出的识别文本,其中模型被配置为:从输入的视频中提取视觉特征,从输入的语音中提取声学特征,并基于注意力机制,对视觉特征和声学特征进行编、解码处理,得到预测的识别文本。本申请中的多模态语音识别模型采用注意力机制对视觉特征和声学特征进行编、解码处理,能够充分考虑各帧视觉特征与各帧声学特征间的关注程度,对语音识别准确度提升更高。并且,由于不需要将视觉特征和声学特征进行对齐,也即不需要进行预处理操作,降低了处理的复杂度。
-
公开(公告)号:CN112581974B
公开(公告)日:2023-10-24
申请号:CN202011382173.6
申请日:2020-11-30
Applicant: 科大讯飞股份有限公司
IPC: G10L21/0208 , G10L21/0216 , H04R3/04
Abstract: 本申请公开了一种波束设计方法、装置、设备及存储介质,本申请获取待进行波束设计的目标麦克风阵列的本底噪声的声压级,基于目标麦克风阵列的本底噪声的声压级以及目标信号的声压级,确定波束的白噪声增益下限值,其中目标信号为用户期望通过目标麦克风阵列所采集的信号,至少以波束的白噪声增益不小于所述白噪声增益下限值作为波束设计的约束条件,以最大化目标麦克风阵列的指向性为目标,得到设计的波束系数。本申请将麦克风阵列的本底噪声水平作为波束设计的约束条件,使得设计的波束在指向性和白噪声增益间达到很好的平衡,最终形成的波束在限制白噪声增益不低于白噪声增益下限值的情况下,得到最大化的波束指向性。
-
公开(公告)号:CN116580725A
公开(公告)日:2023-08-11
申请号:CN202310513866.1
申请日:2023-05-08
Applicant: 科大讯飞股份有限公司
IPC: G10L25/87 , G10L25/51 , G10L25/30 , G10L25/03 , G10L25/57 , G06N3/0442 , G06N3/0464 , G06N3/044 , G06N3/08
Abstract: 本发明提供了一种语音端点检测方法、装置、设备及存储介质,语音端点检测方法包括:获取目标数据,目标数据包括目标音频数据;将目标数据输入预先训练得到的音频帧分类模型,得到目标音频数据的音频帧的分类结果,其中,音频帧分类模型以带有若干噪声类别中的一个或多个类别的噪声的第一音频数据为训练样本,以第一音频数据的音频帧在多个维度下的真实类别为样本标签训练得到,多个维度包括语音维度和若干噪声类别分别对应的噪声维度;根据目标音频数据的音频帧的分类结果确定语音端点。本发明提供的语音端点检测方法能够检测出准确的语音端点。
-
公开(公告)号:CN115952836A
公开(公告)日:2023-04-11
申请号:CN202310093381.1
申请日:2023-01-18
Applicant: 科大讯飞股份有限公司
IPC: G06N3/0464 , G06N3/08 , G06F18/25
Abstract: 本发明提供了一种预训练方法及相关方法和设备,其中,预训练方法包括:获取多模态训练数据;基于包括编码部分和辅助训练部分的学生模型,对多模态训练数据进行编码,得到第一编码结果,并基于第一编码结果预测特征;基于只包括编码部分的教师模型,对多模态训练数据进行编码,得到第二编码结果,并基于第二编码结果确定目标特征;以使基于第一编码结果预测的特征趋近于目标特征为目标,对学生模型进行参数更新,教师模型的参数随学生模型参数的更新而更新;训练结束后得到的学生模型作为目标预训练模型。本发明提供的预训练方法可适用于多模态数据应用场景,还可适用于单模态数据应用场景,且本发明提供的预训练方法具有较高的模型训练效率。
-
公开(公告)号:CN115862626A
公开(公告)日:2023-03-28
申请号:CN202211570582.8
申请日:2022-12-08
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种视频信号处理方法、装置、设备及可读存储介质。该方案中,在获取待处理的视频信号之后,从视频信号中提取唇语视频;再对唇语视频进行唇语识别处理和基于唇语的语音重建处理,得到预测文本和重构语音;最后将预测文本和重构语音作为视频信号的补充信号。本方案中,同时对视频信号进行唇语识别和基于唇语的语音重建,可以得到重构语音和预测文本,将重构语音和预测文本作为远距离视频监控场景的视频信号的补充信息,能够提升远距离视频监控的有效性,为异常检测,安全预警等提供了更为丰富的数据来源。
-
公开(公告)号:CN112581974A
公开(公告)日:2021-03-30
申请号:CN202011382173.6
申请日:2020-11-30
Applicant: 科大讯飞股份有限公司
IPC: G10L21/0208 , G10L21/0216 , H04R3/04
Abstract: 本申请公开了一种波束设计方法、装置、设备及存储介质,本申请获取待进行波束设计的目标麦克风阵列的本底噪声的声压级,基于目标麦克风阵列的本底噪声的声压级以及目标信号的声压级,确定波束的白噪声增益下限值,其中目标信号为用户期望通过目标麦克风阵列所采集的信号,至少以波束的白噪声增益不小于所述白噪声增益下限值作为波束设计的约束条件,以最大化目标麦克风阵列的指向性为目标,得到设计的波束系数。本申请将麦克风阵列的本底噪声水平作为波束设计的约束条件,使得设计的波束在指向性和白噪声增益间达到很好的平衡,最终形成的波束在限制白噪声增益不低于白噪声增益下限值的情况下,得到最大化的波束指向性。
-
公开(公告)号:CN218788831U
公开(公告)日:2023-04-04
申请号:CN202223046480.4
申请日:2022-11-16
Applicant: 科大讯飞股份有限公司
Abstract: 本实用新型涉及耳机技术领域,公开了一种耳机与基于耳机的组网通信系统。上述耳机包括拾音器、扬声器、语音处理组件和第一通信模块;拾音器、扬声器和第一通信模块分别与语音处理组件连接,第一通信模块用于与通信基站连接;第一通信模块用于接收来自通信基站的第一语音信号;语音处理组件用于对第一语音信号进行处理,将处理后的语音信号传输至扬声器;拾音器用于采集外界环境中的第二语音信号,语音处理组件用于对第二语音信号进行处理,将处理后的语音信号通过第一通信模块传输至通信基站。本实用新型便于对多个耳机进行组网操作,可使得不同的用户之间通过耳机进行语音交互,以完成多人协同配合的作业任务。
-
-
-
-
-
-
-