一种基于语音和图像的说话人数目估计方法和系统

    公开(公告)号:CN117011924B

    公开(公告)日:2024-02-13

    申请号:CN202311278365.6

    申请日:2023-10-07

    Abstract: 一种基于语音和图像的说话人数目估计方法和系统,其方法包括:获取图像数据和麦克风阵列数据;检测图像中人脸数量;根据人脸数量生成one‑hot向量;使用麦克风阵列数据计算频域谱;将频域信号输入到噪声估计神经网络中估计噪声嵌入空间中的噪声向量;将噪声向量和频域信号输入到神经网络中估计人声嵌入空间的人声向量;将人脸数量的one‑hot向量和人声向量融合成一个混合向量;将混合向量通过多层全连接层;将全连接层结果输出到说话人数嵌入空间估计说话人数向量;将说话人数向量输入到softmax分类器中,估计出说话人个数。本发明提升了噪声环境下说话人数目估计的准确性和抗

    机器人的语音合成方法、装置和机器人系统

    公开(公告)号:CN117351935A

    公开(公告)日:2024-01-05

    申请号:CN202311444418.7

    申请日:2023-11-01

    Abstract: 本申请涉及一种机器人的语音合成方法、装置和机器人系统,其中,该机器人的语音合成方法包括:从语音合成服务器中下载分句集合中当前分句的语音合成结果;其中,分句集合为预先基于预设的分句规则对待合成文本进行分句得到;在播放当前分句的语音合成结果的同时,判断语音合成服务器是否完成分句集合中下一条分句的语音合成,若是,则从语音合成服务器中下载下一条分句的语音合成结果。通过本申请,能够实现语音文本的合成、下载以及播放的并行执行,从而降低了播放之前等待语音文本合成和下载的时长,进而提高了机器人语音播放的效率。

    一种音视频多模态的关键词唤醒方法及装置

    公开(公告)号:CN116631380A

    公开(公告)日:2023-08-22

    申请号:CN202310909532.6

    申请日:2023-07-24

    Abstract: 本发明公开了一种音视频多模态的关键词唤醒方法及装置,该方法包括:获取图像序列和音频序列;对所述图像序列进行嘴唇检测处理并提取检测到的嘴唇部分图像,将提取出的嘴唇图像序列利用嘴唇特征提取神经网络进行处理,得到图像特征;对所述音频序列做音频特征提取,将提取到的音频特征利用音频特征处理神经网络进行处理,得到音频高维特征;对所述图像特征和所述音频高维特征进行特征融合;将融合得到的音视频特征利用多模特征处理神经网络进行处理,得到多模高维特征;将所述图像特征、音频高维特征和多模高维特征融合成一个混合高维特征;基于所述混合高维特征,利用关键词唤醒分类器判断是否需要唤醒。

    一种基于语音和图像的说话人数目估计方法和系统

    公开(公告)号:CN117011924A

    公开(公告)日:2023-11-07

    申请号:CN202311278365.6

    申请日:2023-10-07

    Abstract: 一种基于语音和图像的说话人数目估计方法和系统,其方法包括:获取图像数据和麦克风阵列数据;检测图像中人脸数量;根据人脸数量生成one‑hot向量;使用麦克风阵列数据计算频域谱;将频域信号输入到噪声估计神经网络中估计噪声嵌入空间中的噪声向量;将噪声向量和频域信号输入到神经网络中估计人声嵌入空间的人声向量;将人脸数量的one‑hot向量和人声向量融合成一个混合向量;将混合向量通过多层全连接层;将全连接层结果输出到说话人数嵌入空间估计说话人数向量;将说话人数向量输入到softmax分类器中,估计出说话人个数。本发明提升了噪声环境下说话人数目估计的准确性和抗干扰能力。

    一种音视频多模态的关键词唤醒方法及装置

    公开(公告)号:CN116631380B

    公开(公告)日:2023-11-07

    申请号:CN202310909532.6

    申请日:2023-07-24

    Abstract: 本发明公开了一种音视频多模态的关键词唤醒方法及装置,该方法包括:获取图像序列和音频序列;对所述图像序列进行嘴唇检测处理并提取检测到的嘴唇部分图像,将提取出的嘴唇图像序列利用嘴唇特征提取神经网络进行处理,得到图像特征;对所述音频序列做音频特征提取,将提取到的音频特征利用音频特征处理神经网络进行处理,得到音频高维特征;对所述图像特征和所述音频高维特征进行特征融合;将融合得到的音视频特征利用多模特征处理神经网络进行处理,得到多模高维特征;将所述图像特征、音频高维特征和多模高维特征融合成一个混合高维特征;基于所述混合高维特征,利用关键词唤醒分类器判断是否需要唤醒。

    一种双麦克风语音增强方法和系统

    公开(公告)号:CN115831145B

    公开(公告)日:2023-06-27

    申请号:CN202310123145.X

    申请日:2023-02-16

    Abstract: 本发明公开一种双麦克风语音增强方法和系统,该方法包括:步骤一,对两个麦克风通道的信号进行分帧,加窗,快速傅里叶变换的操作,使得信号从时域转换到频域;步骤二,利用互相关函数对两个通道在频域的信号进行语音活跃检测,若检测为无语音段,则更新噪声互功率谱;若检测为有语音段,则对语音信号进行降噪处理;步骤三,使用降噪后的语音信号来估计晚期混响功率谱,并抑制混响,即使用晚期混响功率谱对降噪后的语音信号做去混响处理;步骤四,将降噪去混响后的信号从频域转换回时域后输出。本发明进行语音活跃检测、噪声互功率谱更新和噪声抑制,同时进行去混响处理,增加了混响抑制的有效性;结合降噪抑制和混响抑制,有效的提高了语音质量。

    一种双麦克风语音增强方法和系统

    公开(公告)号:CN115831145A

    公开(公告)日:2023-03-21

    申请号:CN202310123145.X

    申请日:2023-02-16

    Abstract: 本发明公开一种双麦克风语音增强方法和系统,该方法包括:步骤一,对两个麦克风通道的信号进行分帧,加窗,快速傅里叶变换的操作,使得信号从时域转换到频域;步骤二,利用互相关函数对两个通道在频域的信号进行语音活跃检测,若检测为无语音段,则更新噪声互功率谱;若检测为有语音段,则对语音信号进行降噪处理;步骤三,使用降噪后的语音信号来估计晚期混响功率谱,并抑制混响,即使用晚期混响功率谱对降噪后的语音信号做去混响处理;步骤四,将降噪去混响后的信号从频域转换回时域后输出。本发明进行语音活跃检测、噪声互功率谱更新和噪声抑制,同时进行去混响处理,增加了混响抑制的有效性;结合降噪抑制和混响抑制,有效的提高了语音质量。

    语音信号单通道去混响方法及装置、终端、可读存储介质

    公开(公告)号:CN115731940A

    公开(公告)日:2023-03-03

    申请号:CN202211570644.5

    申请日:2022-12-08

    Abstract: 本发明公开了语音信号单通道去混响方法及装置、终端、可读存储介质,该方法包括:获取单通道时域信号并进行分帧、加窗、傅里叶变换,得到单通道频域信号;利用前D帧单通道频域信号,计算晚期混响权重系数;根据单通道频域信号和对应的晚期混响权重系数,估计后验信噪比和先验信噪比;利用上一帧增强后语音信号和上一帧频域信号,计算当前帧语音存在概率;利用上一帧增益控制参数和当前帧语音存在概率,计算增益控制参数;根据先验信噪比、后验信噪比,计算得到增益函数;利用增益控制参数、增益函数和单通道频域信号,估计增强后的语音频域信号;将增强后的语音频域信号与设定门限比较并根据比较结果进行更新,做逆傅里叶变换转换到时域并输出。

Patent Agency Ranking