一种实时图像语义分割装置及分割方法

    公开(公告)号:CN111626298B

    公开(公告)日:2023-08-18

    申请号:CN202010306188.8

    申请日:2020-04-17

    摘要: 本发明提供一种实时图像语义分割装置及分割方法。在一个实施例中,将原始图像输入编码器,提取出至少两个大小不同的编码图像;将所述至少两个大小不同的编码图像输入第一解码器,提取出主特征图;将所述至少两个大小不同的编码图像输入第二解码器,提取出边缘特征图;根据所述主特征图和边缘特征图计算所述原始图像的最终损失;并根据最终损失训练所述主解码器和所述边缘解码器;将待预测图像通过编码器处理以后输入到主解码器中,得到主特征图。使用了两个结构相同的解码器,一个用于训练整体,一个用于训练边缘,在训练时使用其中的一个解码器检测目标边缘处的特征,使得能够更好的对目标边缘处的像素进行分割。

    一种基于滤波网络声学模型的多通道语音识别方法

    公开(公告)号:CN109427328B

    公开(公告)日:2023-04-28

    申请号:CN201710750635.7

    申请日:2017-08-28

    摘要: 本发明公开了一种基于滤波网络声学模型的多通道语音识别方法,所述方法包括:步骤1)对于给定的麦克风阵列,建立和训练基于滤波网络的声学模型;所述模型为一个滤波网络连接一个LSTM声学模型;步骤2)采集给定麦克风阵列中的每个单通道语音信号作为待识别语音信号;步骤3)对采集的每个单通道语音信号进行预处理;然后,提取每个单通道语音信号的log‑mel特征以及麦克风之间的交叉相关向量;将处理得到的特征输入训练好的基于滤波网络的声学模型,将输出的状态后验概率用于后续的语音识别过程,最终获得语音识别结果。本发明的方法将自适应滤波网络与声学模型联合优化,避免了传统方法中前后端分开优化导致的次优解。

    一种针对声纹识别的语音降噪方法及装置

    公开(公告)号:CN110070874B

    公开(公告)日:2021-07-30

    申请号:CN201810065088.3

    申请日:2018-01-23

    摘要: 本发明涉及一种针对声纹识别的语音降噪方法及装置,该方法包括:对具有噪声的语音信号预处理后,进行特征提取,获取第一语音功率谱图;对第一语音功率谱图进行分解,获取第一模态信号和除第一模态之外的模态信号;对第一模态信号进行降噪,获取降噪后的模态信号;将降噪后的模态信号与所述除所述第一模态之外的模态信号进行相加重构,获取第二语音功率谱图。通过该方案,主要是分离出噪声最多的模态进行降噪处理。如此一来,在实现语音信号降噪处理的同时,还可以尽量避免了有效语音信号的损失,即说话人语音信息的损失,提升声纹识别效果。

    基于空间特征补偿的多通道语音识别声学建模方法及装置

    公开(公告)号:CN110047478B

    公开(公告)日:2021-06-08

    申请号:CN201810040168.3

    申请日:2018-01-16

    IPC分类号: G10L15/16

    摘要: 本发明涉及一种基于空间特征补偿的多通道语音识别声学建模方法及装置,所提出的模型基于传统的混合声学建模框架,即神经网络声学模型预测隐马尔科夫模型状态后验概率,该方法包括:提取麦克风阵列中的每个单通道录制的语音信号的声学特征和麦克风阵列中空间信息特征;将所述声学特征和所述空间信息特征,输入神经网络声学模型训练;所述神经网络声学模型输出预测的声学状态后验概率,使用声学模型优化准则对所述神经网络参数做迭代更新,生成基于空间特征补偿的多通道语音识别声学模型。该方法避免了传统方法中前后端分开优化导致的次优解;使神经网络声学模型有效的利用麦克风阵列提供的空间信息,提升了对多通道语音信号的声学建模能力。

    一种连续语音流中的叠音检测方法

    公开(公告)号:CN106847267B

    公开(公告)日:2020-04-14

    申请号:CN201510885336.5

    申请日:2015-12-04

    摘要: 本发明提供了一种连续语音流中的叠音检测方法,所述方法包含:步骤101)通过对语音进行多尺度表示进而得到一种综合特征,再将得到的综合特征输入HMM检测器进行初次判决;步骤102)采用非负矩阵分解对初次判决结果进行二次判决,进而剔除受噪声干扰而导致误判的非叠音段。上述步骤101)进一步包含:步骤101‑1)对语音流进行端点检测,去除静音段;步骤101‑2)获取语音流的综合特征,所述综合特征包括四种尺度下的语谱图参数表示,以及它们的一阶和二阶差分;步骤101‑3)对综合特征包含的特征向量的每一维进行均值和方差归一化处理;步骤101‑4)再将步骤101‑3)的处理结果输入HMM检测器进行初次判决。

    一种音频关键词模板的筛选和优化方法

    公开(公告)号:CN106847259B

    公开(公告)日:2020-04-03

    申请号:CN201510882805.8

    申请日:2015-12-03

    IPC分类号: G10L15/02 G10L15/26

    摘要: 本发明提供一种音频关键词模板的筛选和优化方法,所述方法包括:步骤1)对每个音频关键词模板样本进行特征提取,将所提取的特征通过一个深层神经网络,计算在一个给定音素集上全部音素的后验概率;步骤2)计算模板的后验概率稳定性分数、发音可靠性分数和邻域相似性分数;步骤3)计算每个音频关键词模板的上述三种分数的加权平均值,记为平均分数;步骤4)按照平均分数从大到小的顺序进行排序,选取前L个音频关键词模板作为代表性发音模板;步骤5)对每个代表性发音模板进行处理,调整其发音序列上每一帧的各发音单元的后验概率,并最小化模板的邻域相似性分数;生成优化的L个音频检索词模板。