一种实时图像语义分割装置及分割方法

    公开(公告)号:CN111626298B

    公开(公告)日:2023-08-18

    申请号:CN202010306188.8

    申请日:2020-04-17

    Abstract: 本发明提供一种实时图像语义分割装置及分割方法。在一个实施例中,将原始图像输入编码器,提取出至少两个大小不同的编码图像;将所述至少两个大小不同的编码图像输入第一解码器,提取出主特征图;将所述至少两个大小不同的编码图像输入第二解码器,提取出边缘特征图;根据所述主特征图和边缘特征图计算所述原始图像的最终损失;并根据最终损失训练所述主解码器和所述边缘解码器;将待预测图像通过编码器处理以后输入到主解码器中,得到主特征图。使用了两个结构相同的解码器,一个用于训练整体,一个用于训练边缘,在训练时使用其中的一个解码器检测目标边缘处的特征,使得能够更好的对目标边缘处的像素进行分割。

    基于稀疏测量的个性化头相关传输函数预测方法及装置

    公开(公告)号:CN116506795A

    公开(公告)日:2023-07-28

    申请号:CN202310505876.0

    申请日:2023-05-06

    Abstract: 本发明提供一种基于稀疏测量的个性化头相关传输函数预测方法及装置。该方法包括:首先基于若干方向上测量的头相关冲激响应,确定稀疏测量的头相关传输函数HRTF幅度谱;然后利用声学特征提取网络处理所述稀疏测量的HRTF幅度谱,获得相应的声学特征;利用维度增广网络将目标方向的维度进行增广,得到增广目标方向向量;最后利用谱预测神经网络处理所述声学特征和所述增广目标方向向量,预测出目标个性化HRTF幅度谱。该装置包括:幅度谱获取模块,声学特征获取模块,方向向量获取模块,和目标个性化幅度谱获取模块。如此,可以实现给定新被试的少量HRTF幅度谱与目标方位的方位角和俯仰角,即可通过三个神经网络模块生成目标个性化HRTF幅度谱,实现对全空间个性化HRTF幅度谱的预测。

    一种耳机虚拟声像头外化方法
    134.
    发明公开

    公开(公告)号:CN116456264A

    公开(公告)日:2023-07-18

    申请号:CN202310491181.1

    申请日:2023-05-04

    Abstract: 本发明涉及一种耳机虚拟声像头外化方法,所述方法包括:生成多组随机时延;得到的信号记为BRIRLt和BRIRRt;将多组随机时延分别加入去除BRIR中声源到双耳的传输延时后的信号BRIRLt和BRIRRt的反射声部分,分别得到的多组BRIRLt.pro和BRIRRt.pro;将声源信号分别与各组BRIRLt.pro和BRIRRt.pro卷积,得到多组双耳信号;将每组双耳信号划分为N组窄带信号;分别计算每组双耳信号所划分出各组窄带信号的ILD TSD;基于ILD TSD构建目标函数E;依据最大目标函数值值确定优化的随机时延;将优化的随机时延加入BRIR的反射声部分,得到优化的BRIR;将声源信号与优化的BRIR卷积。本发明的方法,能够增强耳机双耳重放时的头外声像效果。

    一种语音增强方法及设备
    137.
    发明公开

    公开(公告)号:CN116072139A

    公开(公告)日:2023-05-05

    申请号:CN202111272002.2

    申请日:2021-10-29

    Abstract: 本发明涉及一种语音增强方法及设备,该方法包括:提取多通道远场语音信号的短时傅里叶谱特征,训练基于长短期记忆网络的第一阶段增强模型,采用第一阶段增强模型计算远场语音信号的频谱,计算波束形成系数并计算线性滤波后的频谱,训练基于长短期记忆网络的第二阶段增强模型,计算远场语音信号采用第二阶段增强模型后的增强信号,计算远场语音信号波束形成系数并计算增强后的频谱,将第二阶段增强模型迭代1‑2次,恢复语音信号,以过滤掉麦克风阵列采集到的远场语音信号中包含的其他声源的语音信号,得到纯净或相对纯净的目标声源的语音信号。

    一种基于滤波网络声学模型的多通道语音识别方法

    公开(公告)号:CN109427328B

    公开(公告)日:2023-04-28

    申请号:CN201710750635.7

    申请日:2017-08-28

    Abstract: 本发明公开了一种基于滤波网络声学模型的多通道语音识别方法,所述方法包括:步骤1)对于给定的麦克风阵列,建立和训练基于滤波网络的声学模型;所述模型为一个滤波网络连接一个LSTM声学模型;步骤2)采集给定麦克风阵列中的每个单通道语音信号作为待识别语音信号;步骤3)对采集的每个单通道语音信号进行预处理;然后,提取每个单通道语音信号的log‑mel特征以及麦克风之间的交叉相关向量;将处理得到的特征输入训练好的基于滤波网络的声学模型,将输出的状态后验概率用于后续的语音识别过程,最终获得语音识别结果。本发明的方法将自适应滤波网络与声学模型联合优化,避免了传统方法中前后端分开优化导致的次优解。

    一种语音波达方向估计方法及系统

    公开(公告)号:CN115421099A

    公开(公告)日:2022-12-02

    申请号:CN202211044030.3

    申请日:2022-08-29

    Abstract: 本发明公开了一种语音波达方向估计方法,包括:获取远场环境下混合语音音频;对混合语音音频进行分帧、加窗和傅里叶变换处理,得到每帧音频的频谱信号;将频谱信号输入声源位置估计神经网络模型,由声源位置估计神经网络模型输出目标说话人的帧级别的笛卡尔坐标估计;对目标说话人的帧级别的笛卡尔坐标估计在时间维度上进行平均池化操作,得到目标说话人的句子级别的笛卡尔坐标估计;对目标说话人的句子级别的笛卡尔坐标估计进行反正切运算,得到目标说话人的波达方向估计。本发明提供一种语音波达方向估计方法及系统,能够克服多说话人远场环境下,非语音帧与干扰说话人帧对波达方向估计模型的效果的影响,实现低延时的波达方向估计。

    一种采用核化听觉模型的单通道声源分离方法

    公开(公告)号:CN114822583A

    公开(公告)日:2022-07-29

    申请号:CN202110120284.8

    申请日:2021-01-28

    Abstract: 本发明公开了一种采用核化听觉模型的单通道声源分离方法,所述方法包括:将混合声源信号输入编码器,输出隐藏空间矩阵;将隐藏空间矩阵输入声源分离器,输出待分离声源信号的掩蔽矩阵;将隐藏空间矩阵和掩蔽矩阵进行点乘,得到待分离声源信号在隐藏空间的估计值;将估计值输入解码器,输出分离后的目标信号波形;其中,所述编码器和解码器均采用核化听觉模型;所述声源分离器采用基于一维时域卷积的源分离模型,所述编码器和解码器的训练过程和所述声源分离器的训练过程是独立的。本发明的方法在编码器和解码器中引入了模型偏置,有效减少了模型参数,极大降低了模型复杂度。

Patent Agency Ranking