-
公开(公告)号:CN111626298B
公开(公告)日:2023-08-18
申请号:CN202010306188.8
申请日:2020-04-17
申请人: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC分类号: G06V10/26 , G06V10/82 , G06N3/0464
摘要: 本发明提供一种实时图像语义分割装置及分割方法。在一个实施例中,将原始图像输入编码器,提取出至少两个大小不同的编码图像;将所述至少两个大小不同的编码图像输入第一解码器,提取出主特征图;将所述至少两个大小不同的编码图像输入第二解码器,提取出边缘特征图;根据所述主特征图和边缘特征图计算所述原始图像的最终损失;并根据最终损失训练所述主解码器和所述边缘解码器;将待预测图像通过编码器处理以后输入到主解码器中,得到主特征图。使用了两个结构相同的解码器,一个用于训练整体,一个用于训练边缘,在训练时使用其中的一个解码器检测目标边缘处的特征,使得能够更好的对目标边缘处的像素进行分割。
-
公开(公告)号:CN111354372B
公开(公告)日:2023-07-18
申请号:CN201811571542.9
申请日:2018-12-21
申请人: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC分类号: G10L25/30 , G10L25/51 , G06N3/0464 , G06N3/084
摘要: 本发明公开了一种基于前后端联合训练的音频场景分类方法及系统,所述方法包括:对待分类的数字声音信号进行处理得到幅度谱图,将幅度谱图输入基于前后端联合训练得到的深度学习神经网络,输出所述对待分类的数字声音信号的每一帧的预测概率,将每一帧的预测概率取对数后求平均,最大值对应的类别为音频场景分类结果。本发明的方法使用联合训练同时训练网络的前端滤波器部分和后端的深度卷积神经网络,从而使滤波器从人为的先验知识转化为当前任务限定,能够取得更高的分类准确率。
-
公开(公告)号:CN112949671B
公开(公告)日:2023-06-30
申请号:CN201911266932.X
申请日:2019-12-11
申请人: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC分类号: G06F18/2415 , G06F18/213 , G06N3/047 , G06N3/048 , G06N3/088
摘要: 本发明公开了一种基于无监督特征优化的信号分类方法及系统,所述方法包括:将待分类的信号进行预处理和分帧;提取每一帧信号的基于能量的时频分类特征;将每一帧信号的能量特征输入预先训练的无监督特征优化网络,输出优化特征;所述无监督特征优化网络的准则为最大化类间距离并最小化类内距离;将优化特征输入预先训练的分类器,输出分类结果。本发明的方法能够最大化利用训练样本的类内‑类间的关系,使得神经网络学习到的表征特征更具判别性。
-
公开(公告)号:CN109427328B
公开(公告)日:2023-04-28
申请号:CN201710750635.7
申请日:2017-08-28
申请人: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC分类号: G10L15/06 , G10L15/14 , G10L21/0208 , G10L25/30 , G10L25/45 , G10L21/0216
摘要: 本发明公开了一种基于滤波网络声学模型的多通道语音识别方法,所述方法包括:步骤1)对于给定的麦克风阵列,建立和训练基于滤波网络的声学模型;所述模型为一个滤波网络连接一个LSTM声学模型;步骤2)采集给定麦克风阵列中的每个单通道语音信号作为待识别语音信号;步骤3)对采集的每个单通道语音信号进行预处理;然后,提取每个单通道语音信号的log‑mel特征以及麦克风之间的交叉相关向量;将处理得到的特征输入训练好的基于滤波网络的声学模型,将输出的状态后验概率用于后续的语音识别过程,最终获得语音识别结果。本发明的方法将自适应滤波网络与声学模型联合优化,避免了传统方法中前后端分开优化导致的次优解。
-
公开(公告)号:CN110858480B
公开(公告)日:2022-05-17
申请号:CN201810928881.1
申请日:2018-08-15
申请人: 中国科学院声学研究所 , 北京中科信利技术有限公司
摘要: 本发明公开了一种基于N元文法神经网络语言模型的语音识别方法,所述方法包括:步骤1)建立并训练一个n阶N元文法神经网络语言模型;步骤2)对于每一条测试语音u,利用识别器选取K个得分最高的候选结果;基于训练好的n阶N元文法神经网络语言模型重新计算K个候选结果的语言模型得分;然后重新计算K个候选结果的得分,选取得分最高的候选结果作为测试语音u的最终识别结果。本发明的语音识别方法的性能及计算效率均优于基于RNN的语言模型的语音识别方法。
-
公开(公告)号:CN110070874B
公开(公告)日:2021-07-30
申请号:CN201810065088.3
申请日:2018-01-23
申请人: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC分类号: G10L17/02 , G10L17/10 , G10L21/0208
摘要: 本发明涉及一种针对声纹识别的语音降噪方法及装置,该方法包括:对具有噪声的语音信号预处理后,进行特征提取,获取第一语音功率谱图;对第一语音功率谱图进行分解,获取第一模态信号和除第一模态之外的模态信号;对第一模态信号进行降噪,获取降噪后的模态信号;将降噪后的模态信号与所述除所述第一模态之外的模态信号进行相加重构,获取第二语音功率谱图。通过该方案,主要是分离出噪声最多的模态进行降噪处理。如此一来,在实现语音信号降噪处理的同时,还可以尽量避免了有效语音信号的损失,即说话人语音信息的损失,提升声纹识别效果。
-
公开(公告)号:CN113035170A
公开(公告)日:2021-06-25
申请号:CN201911356247.6
申请日:2019-12-25
申请人: 中国科学院声学研究所 , 北京中科信利技术有限公司
摘要: 本发明属于语音识别和自然语言处理技术领域,具体涉及一种基于元音和谐的土耳其语的语音识别方法,该方法包括:将待识别语音进行识别,得到多个候选语句,再将每个候选语句拆分成多个子词;将每个子词依次输入土耳其语子词级别神经网络语言模型,获得下一个子词的预测概率的对数值;根据该候选语句中所有子词的预测概率的对数值,获得该候选语句的概率的对数值;按照从大到小的顺序对各个候选语句的概率的对数值进行排序,将最大概率的对数值对应的候选语句作为语音识别结果。
-
公开(公告)号:CN110047478B
公开(公告)日:2021-06-08
申请号:CN201810040168.3
申请日:2018-01-16
申请人: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC分类号: G10L15/16
摘要: 本发明涉及一种基于空间特征补偿的多通道语音识别声学建模方法及装置,所提出的模型基于传统的混合声学建模框架,即神经网络声学模型预测隐马尔科夫模型状态后验概率,该方法包括:提取麦克风阵列中的每个单通道录制的语音信号的声学特征和麦克风阵列中空间信息特征;将所述声学特征和所述空间信息特征,输入神经网络声学模型训练;所述神经网络声学模型输出预测的声学状态后验概率,使用声学模型优化准则对所述神经网络参数做迭代更新,生成基于空间特征补偿的多通道语音识别声学模型。该方法避免了传统方法中前后端分开优化导致的次优解;使神经网络声学模型有效的利用麦克风阵列提供的空间信息,提升了对多通道语音信号的声学建模能力。
-
公开(公告)号:CN106847267B
公开(公告)日:2020-04-14
申请号:CN201510885336.5
申请日:2015-12-04
申请人: 中国科学院声学研究所 , 北京中科信利技术有限公司
摘要: 本发明提供了一种连续语音流中的叠音检测方法,所述方法包含:步骤101)通过对语音进行多尺度表示进而得到一种综合特征,再将得到的综合特征输入HMM检测器进行初次判决;步骤102)采用非负矩阵分解对初次判决结果进行二次判决,进而剔除受噪声干扰而导致误判的非叠音段。上述步骤101)进一步包含:步骤101‑1)对语音流进行端点检测,去除静音段;步骤101‑2)获取语音流的综合特征,所述综合特征包括四种尺度下的语谱图参数表示,以及它们的一阶和二阶差分;步骤101‑3)对综合特征包含的特征向量的每一维进行均值和方差归一化处理;步骤101‑4)再将步骤101‑3)的处理结果输入HMM检测器进行初次判决。
-
公开(公告)号:CN106847259B
公开(公告)日:2020-04-03
申请号:CN201510882805.8
申请日:2015-12-03
申请人: 中国科学院声学研究所 , 北京中科信利技术有限公司
摘要: 本发明提供一种音频关键词模板的筛选和优化方法,所述方法包括:步骤1)对每个音频关键词模板样本进行特征提取,将所提取的特征通过一个深层神经网络,计算在一个给定音素集上全部音素的后验概率;步骤2)计算模板的后验概率稳定性分数、发音可靠性分数和邻域相似性分数;步骤3)计算每个音频关键词模板的上述三种分数的加权平均值,记为平均分数;步骤4)按照平均分数从大到小的顺序进行排序,选取前L个音频关键词模板作为代表性发音模板;步骤5)对每个代表性发音模板进行处理,调整其发音序列上每一帧的各发音单元的后验概率,并最小化模板的邻域相似性分数;生成优化的L个音频检索词模板。
-
-
-
-
-
-
-
-
-