一种提升远场语音识别的前端处理方法和系统

    公开(公告)号:CN109523999B

    公开(公告)日:2021-03-23

    申请号:CN201811602419.9

    申请日:2018-12-26

    Abstract: 本申请提供了一种提升远场语音识别的前端处理方法和系统,其中所述方法包括:对房间冲激响应信号进行计算,得到早期混响信号与晚期混响信号的分割时间点,截取直达声信号和早期混响信号;将直达声信号和早期混响信号与语音库中干净语音信号在时域上进行卷积,得到时域目标信号;将时域目标信号和时域混合信号中除时域目标信号以外的其它信号分别进行计算,得到目标信号能量和其它信号能量,通过目标信号能量和其它信号能量得到理想比值掩蔽;将时域混合信号转换成频域混合信号后,将频域混合信号的幅值和理想比值掩蔽相乘,再使用频域混合信号的相位,得到重构信号。本发明通过理想幅值掩蔽从噪声混响条件下的混合语音中分离出目标信号。

    一种基于深度学习的双耳语音增强方法

    公开(公告)号:CN109448751B

    公开(公告)日:2021-03-23

    申请号:CN201811646317.7

    申请日:2018-12-29

    Abstract: 本发明公开了一种基于深度学习的双耳语音增强方法,包括:对包含待增强目标语音信号的左/右通道带噪语音信号分别进行处理得到左/右频域信号,并对其幅值进行组合得到单通道复数特征,利用左/右通道的频域信号和对应的目标频域信号理论值分别计算出对应的目标语音理想复数掩蔽,将其组合构成目标语音单通道复数掩蔽理论值,并结合单通道复数特征对复数前馈神经网络进行训练得到双耳语音增强模型,利用模型输出的目标语音单通道复数掩蔽估计值分别处理左/右通道带噪语音信号得到左/右通道频域信号,最后得到对应的目标语音时域信号。本方法可以抑制噪声干扰并保持目标声源的空间信息。充分利用深度神经网络的泛化能力,达到双耳语音的增强。

    一种多语言连续语音流语音内容识别方法及系统

    公开(公告)号:CN112489622A

    公开(公告)日:2021-03-12

    申请号:CN201910782981.2

    申请日:2019-08-23

    Abstract: 本发明提出一种多语言连续语音流语音内容识别方法及系统,所述方法包括:将待识别的多语言连续语音流输入帧级别语种分类模型,输出段级别语种特征向量;将段级别语种特征向量输入段级别语种分类模型,输出段级别语种状态的后验概率分布;根据段级别语种状态的后验概率分布,基于维特比检索算法,计算多语言连续语音流的最佳的语种状态路径;根据所述最佳语种状态路径对待识别的多语言连续语音流进行切分获得语种状态区间;将切分后的语种状态区间送入多语言声学模型以及相应的多语言解码器中进行解码,得到所述多语言连续语音流的内容识别结果。本发明通过将语种分类模型与维特比检索算法相融合,解决了连续语音流中多语言内容并存的语言种类动态检测和识别的问题。

    一种基于深度学习的多人语音分离方法

    公开(公告)号:CN109584903B

    公开(公告)日:2021-02-12

    申请号:CN201811641471.5

    申请日:2018-12-29

    Abstract: 本发明公开了一种基于深度学习的多人语音分离方法。包括:对传声器得到的多说话人混合语音信号进行分帧、加窗、傅里叶变换,得到混合信号的频谱;将混合语音信号的频谱幅度送入神经网络,对各目标信号的理想幅度掩蔽进行估计;利用估计出的各信号的理想幅度掩蔽及混合信号的频谱幅度和频谱相位,采用迭代的方法恢复出各目标信号的相位;利用恢复后各目标信号的相位,计算出各目标信号的相敏掩蔽,训练神经网络对其进行估计;利用神经网络估计的相敏掩蔽得到目标信号的频谱幅度,进而结合恢复的相位对各目标信号的频谱进行重建;将重建后的各信号频谱进行逆傅里叶变换,得到分离后的时域语音信号。本发明提供的方法能有效提高说话人语音分离效果。

    一种融合信噪比与可懂度双重目标的语音增强方法及系统

    公开(公告)号:CN112309421A

    公开(公告)日:2021-02-02

    申请号:CN201910689178.4

    申请日:2019-07-29

    Abstract: 本发明属于语音增强信号处理技术领域,具体涉及一种融合信噪比与可懂度双重目标的语音增强方法,包括:将原始语音信号转换为原始时频域特征;将原始时频域特征输入预建立的第一神经网络模型中,获取具有信噪比的第一有效特征;将原始时频域特征输入预建立的第二神经网络模型中,获取具有可懂度的第二有效特征;对第一有效特征和第二有效特征进行处理得到权重矩阵,根据预设的相关性权重阈值,从权重矩阵中逐列选取第二有效特征中与第一有效特征相关性高的元素,提取该元素的相关性权重阈值,并用其替换第一有效特征中对应位置上的阈值,将替换后的第一有效特征作为语音增强后的时频域特征,将语音增强后的时频域特征转换为增强后的语音信号。

    一种基于深度学习的多声源测向方法及系统

    公开(公告)号:CN112257484A

    公开(公告)日:2021-01-22

    申请号:CN201910661146.3

    申请日:2019-07-22

    Abstract: 本发明涉及一种基于深度学习的多声源测向方法及系统,所述方法包括:将阵列接收的声源信号转换成数字声音信号;对所述数字声音信号进行做傅里叶变换,得到傅里叶变换后的信号;将傅里叶变换后的信号输入深度神经网络,使用反向传播方法训练深度神经网络,直至深度神经网络收敛;从收敛后的深度神经网络输出的后验概率中找到峰值对应的方位,该方位为声源出现的方位。本发明的方法利用了深度神经网络,通过优化准则函数,寻找声源波达方向的最优解,该方法直接从阵列接受的信号得到目标的方位,实现了简单而高效的多声源测向。

    一种韵律控制语音合成方法、系统及电子装置

    公开(公告)号:CN111754976A

    公开(公告)日:2020-10-09

    申请号:CN202010705955.2

    申请日:2020-07-21

    Abstract: 本申请涉及一种韵律控制语音合成方法、系统和电子装置,其中所述方法包括:对待合成文本进行正则获取语言学特征和音素序列;将所述音素序列输入Tacotron2模型的编码器;将编码结果和所述语言学特征输入韵律参数预测模型,预测待合成文本的韵律参数,获得音素级别的时长和DCT参数化基频;将所述音素级别时长和DCT参数化基频映射为二维向量,与所述编码结果拼接输入Tacotron2的解码器,输出韵律声学特征序列;将所述韵律声学特征序列送入声码器合成语音信号。该方法通过使用DCT参数化的基频和时长,使得Tacotron2模型中能够引入额外的语言学特征来辅助韵律的控制,并且该方法使得模型能够收敛,更加具有解释性。该方法相比其他方法更加鲁棒,对于长句更加稳定。

    一种实时图像语义分割装置及分割方法

    公开(公告)号:CN111626298A

    公开(公告)日:2020-09-04

    申请号:CN202010306188.8

    申请日:2020-04-17

    Abstract: 本发明提供一种实时图像语义分割装置及分割方法。在一个实施例中,将原始图像输入编码器,提取出至少两个大小不同的编码图像;将所述至少两个大小不同的编码图像输入第一解码器,提取出主特征图;将所述至少两个大小不同的编码图像输入第二解码器,提取出边缘特征图;根据所述主特征图和边缘特征图计算所述原始图像的最终损失;并根据最终损失训练所述主解码器和所述边缘解码器;将待预测图像通过编码器处理以后输入到主解码器中,得到主特征图。使用了两个结构相同的解码器,一个用于训练整体,一个用于训练边缘,在训练时使用其中的一个解码器检测目标边缘处的特征,使得能够更好的对目标边缘处的像素进行分割。

    一种基于深度学习的水下多声源定位方法及系统

    公开(公告)号:CN111352075A

    公开(公告)日:2020-06-30

    申请号:CN201811564007.0

    申请日:2018-12-20

    Abstract: 本发明公开了一种基于深度学习的水下多声源定位方法及系统,所述方法包括:通过水听器阵列接收待检测的信号,估计声源的方位;在可能存在声源的方位上做子阵波束形成,然后计算待检测信号的空间相关矩阵,形成特征向量,输入到预先训练的时延神经网络,输出声源的距离。本发明的水下多声源定位方法,可以不依赖环境参数的先验知识;利用子阵波束形成的方法在特征层面将多个声源区分开,从而实现对水下多个目标同时定位。

    一种CNN-SVM模型的构建及倾向性分类方法

    公开(公告)号:CN107688576B

    公开(公告)日:2020-06-16

    申请号:CN201610633439.7

    申请日:2016-08-04

    Abstract: 本发明公开了一种CNN‑SVM模型的构建方法,所述方法包括:从社交媒体上抓取基于某一事件的所有评论和转发信息,构建训练样本集;建立包含卷积层、采样层和分类层的CNN模型,利用训练样本集训练CNN模型的各层参数;将训练好参数的CNN模型中的卷积层、采样层与SVM分类器联合在一起,构成CNN‑SVM模型;将训练样本集输入CNN‑SVM模型,训练SVM分类器的参数;所述CNN‑SVM模型构建完成。基于CNN‑SVM模型,本发明还提供了一种倾向性分类方法,并构建转发树,能够对含有转发文本的待分类评论进行准确分类。本发明的倾向性分类方法可以提高分类的正确率。

Patent Agency Ranking