-
公开(公告)号:CN118351823A
公开(公告)日:2024-07-16
申请号:CN202410458161.9
申请日:2024-04-16
申请人: 思必驰科技股份有限公司
摘要: 本申请公开了一种车载多通道含噪语音仿真及增广方法、装置和电子设备,涉及语音识别技术领域。其中,仿真方法包括:基于声源x,获取传声器采集到的多通道信号y;通过解卷积计算得到所述声源x相对传声器的房间冲激响应rir;利用房间冲激响应rir卷积单通道人声信号,得到多通道人声信号;根据预设的信噪比,将所述多通道人声信号与实车噪声信号进行叠加,得到多通道含噪语音。本申请采用实车录制数据解卷积得到房间冲激响应,有效减少了车载音频制作中的实车录制工作量,增强了音频模型的鲁棒性。另外,采用移位的方式进行数据增广,进一步减少了实车录制房间冲激响应的工作量,增加了点位的丰富度,增强了音频模型的稳定性。
-
公开(公告)号:CN116564329A
公开(公告)日:2023-08-08
申请号:CN202310462873.3
申请日:2023-04-26
申请人: 思必驰科技股份有限公司
IPC分类号: G10L21/0208 , G10L17/02
摘要: 实时通话声纹降噪方法、电子设备和存储介质,其中,实时通话声纹降噪方法,包括:获取实时通话音频、当前说话人的第一声纹特征向量和当前说话人的注册音频;将所述注册音频输入至与预训练降噪网络同步训练的声纹特征提取网络中得到第二声纹特征向量;将所述实时通话音频输入至所述预训练降噪网络的编码部分得到第三声纹特征向量,其中,所述预训练降噪网络包括编码部分和其他部分;将所述第一声纹特征向量、所述第二声纹特征向量和所述第三声纹特征向量拼接后输入至所述预训练降噪网络的其他部分。从而使其输出的音频可以更好地保留说话人的音频,有效的抑制其他人声的干扰。
-
公开(公告)号:CN112863534B
公开(公告)日:2022-05-10
申请号:CN202011618860.3
申请日:2020-12-31
申请人: 思必驰科技股份有限公司
IPC分类号: G10L21/0216 , G10L21/0208
摘要: 本发明公开一种噪声音频消除方法,应用于电子设备,该方法包括:预先建立多个不同音量的音频信号和多个增益因子之间的映射关系,增益因子用于将相应音量的音频信号转化为模拟回声信号;获取电子设备通过音频采集装置所采集的混合音频信号;确定电子设备的当前播放音频信号的音量;根据映射关系确定对应于当前播放音频信号所对应的增益因子为目标增益因子;根据目标增益因子和当前播放音频信号确定目标模拟回声信号;根据模拟回声信号对混合音频信号进行噪声消除。本实施例中采用了计算出来的模拟回声信号来进行噪声消除,避免了由于环境因素的影响导致采集的回声信号相对于实际播放音频失真导致的无法消除回声信号的缺陷。
-
公开(公告)号:CN110554357B
公开(公告)日:2022-01-18
申请号:CN201910867055.5
申请日:2019-09-12
申请人: 思必驰科技股份有限公司
IPC分类号: G01S5/22
摘要: 本发明公开声源定位方法和装置,其中,方法包括:对麦克风阵列接收的信号进行计算得到空间谱;确定空间谱所具有的谱峰的数量;若空间谱具有多个谱峰,使用固定波束形成器形成与麦克风阵列对应的多个不同方向的波束,其中,所述多个不同方向的波束至少包括第一方向波束和第二方向波束;计算第一方向波束的能量、第二方向波束的能量以及第一方向波束和第二方向波束的能量差;判断能量差是否大于等于预设阈值;若能量差大于等于预设阈值,输出第一方向波束的能量和第二方向波束的能量中能量最大的波束所对应的角度为波达方向。本申请的提供的方案充分考虑到各种干扰噪声的影响,能够实现更精准地声源定位。
-
公开(公告)号:CN117095692A
公开(公告)日:2023-11-21
申请号:CN202311184129.8
申请日:2023-09-14
申请人: 思必驰科技股份有限公司
发明人: 周强
IPC分类号: G10L21/0232 , G10L21/0216 , H04R3/02
摘要: 本发明公开一种啸叫抑制方法、电子设备和存储介质,其中方法包括:获取音频输入数据,对所述音频输入数据进行处理,得到频域数据;检测所述频域数据中的频域特征是否存在啸叫;若所述频域特征存在啸叫,则对所述频域数据进行频移,并将频移后的频域数据输入至啸叫抑制神经网络模型进行啸叫抑制处理。本发明实施例通过在将频移后的频域数据输入啸叫抑制神经网络模型之前增加啸叫检测模块,检测频域数据中的频域特征是否存在啸叫,可以减少算力资源的消耗,内存占用会更低。
-
公开(公告)号:CN111223497B
公开(公告)日:2022-04-19
申请号:CN202010009091.0
申请日:2020-01-06
申请人: 思必驰科技股份有限公司
摘要: 本发明公开了一种终端的就近唤醒方法、装置、计算设备及存储介质,该方法包括:目标终端接收到用户的唤醒词时获取设定时长的目标音频;目标终端根据目标音频计算出唤醒语音信噪比并发送至中控设备,以指示中控设备根据至少一个终端发送的唤醒语音信噪比确定用户的就近终端,并向就近终端发送允许唤醒指令;目标终端如果接收到允许唤醒指令,则对用户进行响应。本发明实施例采用唤醒语音信噪比作为就近终端的选择依据,计算复杂度较低,相比于判断唤醒音频的能量值而言,准确性更高;其次,本发明实施例仅需要向中控设备反馈唤醒语音信噪比,对网络的稳定性要求较低,实时性较好,提高了用户的体验感。
-
公开(公告)号:CN109102821B
公开(公告)日:2021-05-25
申请号:CN201811049712.7
申请日:2018-09-10
申请人: 思必驰科技股份有限公司
IPC分类号: G10L21/0208 , G10L21/0216
摘要: 本发明公开一种时延估计方法,包括:获取参考信号和麦克风所采集的麦克信号,并进行快速傅里叶变换以得到频域参考信号和频域麦克信号;将所述频域参考信号输入至自适应滤波器,以得到所述频域麦克信号中所包含的对应于所述频域参考信号的相关频域参考信号,所述频域麦克信号用于更新所述自适应滤波器;根据所述自适应滤波器输出的所述相关频域参考信号计算滤波器能量以用于确定时延值。解决了现有技术中采用互相关方法,在环境干扰情况下性能急剧下降,在环境比较复杂的场景或者双讲情况下时延估计结果非常不稳定的问题。
-
公开(公告)号:CN110797043B
公开(公告)日:2022-04-12
申请号:CN201911104871.7
申请日:2019-11-13
申请人: 思必驰科技股份有限公司
IPC分类号: G10L21/0216 , G10L21/0272 , G10L21/0364 , G10L15/22
摘要: 本发明实施例提供一种会议语音实时转写方法。该方法包括:接收多个麦克风阵列所采集的语音信号;对麦克风阵列采集的语音信号进行差分处理;通过盲源分离对差分处理后的语音信号进行处理,提取出语音信号中说话的参会人员各自的语音信号;根据盲源分离后的语音信号进行位置估计,确定出说话的参会人员各自所在的参会区域;对确定出说话的参会区域的语音信号进行语音识别,实时转化成对应的文字。本发明实施例还提供一种会议语音实时转写系统。本发明实施例在会议场景中配置好对应的麦克风集群,提升采集语音的信噪比。有效为各麦克风集群确定各自的识别区域,更加适用于多人同时说话的会议中的语音识别实时转写。
-
公开(公告)号:CN110473539B
公开(公告)日:2021-11-09
申请号:CN201910800963.2
申请日:2019-08-28
申请人: 思必驰科技股份有限公司
摘要: 本发明公开提升语音唤醒性能的方法和装置,其中,一种提升语音唤醒性能的方法,包括:以语音帧的形式对输入信号进行检测,判定语音帧为疑似语音帧或非语音帧;基于判定的疑似语音帧和非语音帧确定有效语音段,并基于疑似语音帧和非语音帧在输入信号中的占比确定加权因子;将有效语音段输入至唤醒模型中,其中,唤醒模型是基于收集的唤醒词正例样本和非唤醒词反例样本进行有监督地深度神经网络学习后获取的一个多分类模型;获取自适应唤醒模型的输出,使用加权因子对输出进行加权计算,基于加权计算后的输出确定是否唤醒设备。本申请提供的方案可以有效抑制噪声场景的误唤醒率,进一步地,还能针对性地提升对于特定用户的唤醒率。
-
公开(公告)号:CN112863534A
公开(公告)日:2021-05-28
申请号:CN202011618860.3
申请日:2020-12-31
申请人: 思必驰科技股份有限公司
IPC分类号: G10L21/0216 , G10L21/0208
摘要: 本发明公开一种噪声音频消除方法,应用于电子设备,该方法包括:预先建立多个不同音量的音频信号和多个增益因子之间的映射关系,增益因子用于将相应音量的音频信号转化为模拟回声信号;获取电子设备通过音频采集装置所采集的混合音频信号;确定电子设备的当前播放音频信号的音量;根据映射关系确定对应于当前播放音频信号所对应的增益因子为目标增益因子;根据目标增益因子和当前播放音频信号确定目标模拟回声信号;根据模拟回声信号对混合音频信号进行噪声消除。本实施例中采用了计算出来的模拟回声信号来进行噪声消除,避免了由于环境因素的影响导致采集的回声信号相对于实际播放音频失真导致的无法消除回声信号的缺陷。
-
-
-
-
-
-
-
-
-