-
公开(公告)号:CN112489622B
公开(公告)日:2024-03-19
申请号:CN201910782981.2
申请日:2019-08-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提出一种多语言连续语音流语音内容识别方法及系统,所述方法包括:将待识别的多语言连续语音流输入帧级别语种分类模型,输出段级别语种特征向量;将段级别语种特征向量输入段级别语种分类模型,输出段级别语种状态的后验概率分布;根据段级别语种状态的后验概率分布,基于维特比检索算法,计算多语言连续语音流的最佳的语种状态路径;根据所述最佳语种状态路径对待识别的多语言连续语音流进行切分获得语种状态区间;将切分后的语种状态区间送入多语言声学模型以及相应的多语言解码器中进行解码,得到所述多语言连续语音流的内容识别结果。本发明通过将语种分类模型与维特比检索算法相融合,解决了连续语音流中多语言内容并存的语言种类动态检测和识别的问题。
-
公开(公告)号:CN113095113A
公开(公告)日:2021-07-09
申请号:CN201911342527.1
申请日:2019-12-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明属于水下目标识别和信号处理技术领域,具体涉及一种基于小波线谱特征提取的水下目标识别方法,该方法包括:对声呐阵列接收的信号进行频谱分析,获得各个频段内的频谱信息;基于获得的每个频段内的频谱信息,提取单个频段内线谱特征的最大值,作为当前频段的特征向量,获得各个频段的特征向量;将各个频段的特征向量进行拼接或平均,获得优化后的特征向量;将当前频段的特征向量和优化后的特征向量一起作为新的特征向量,并将该新的特征向量输入至预先训练的时延神经网络,输出当前频段对应的目标类别信息,作为分类结果。
-
公开(公告)号:CN109977724B
公开(公告)日:2021-05-18
申请号:CN201711441236.9
申请日:2017-12-27
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提出一种水下目标分类方法,包括:将声呐阵列接收的信号转换成数字信号;对数字信号首先进行预处理,然后计算每个声呐与其他声呐之间的互相关系数并求和,将互相关系数和最大的声呐信号作为参考信号;计算每个声呐相对于参考信号的时间延迟;利用通道的互相关系数和前后帧的相关性对每个通道的权重进行自适应,最终得到经过增强后的信号。将信号进行分帧后进行滤波,对每个滤波器内信号能量求和并取对数作为这一帧信号的特征。将特征作为一个时延神经网络的输入,输出为这一帧信号对应的每个目标类型的概率,基于此规则训练出一个多目标分类器。发明利用深度神经网络强大的非线性表征能力,有效地利用目标的特征对其进行区分。
-
公开(公告)号:CN112434716A
公开(公告)日:2021-03-02
申请号:CN201910774388.3
申请日:2019-08-21
Applicant: 中国科学院声学研究所
Abstract: 本发明公开了一种基于条件对抗生成网络的水下目标数据扩增方法及系统,所述方法包括:将某一目标类别对应的one‑hot向量与随机高斯白噪声级联,输入预先训练好的生成器,输出该目标类别的生成样本。本发明的方法能够利用少量的水下目标数据产生足量的与原样本类似的数据,使得其数据量能够满足深度学习的需求;而且能够利用一个模型实现多个目标类别的样本生成。
-
公开(公告)号:CN110895932A
公开(公告)日:2020-03-20
申请号:CN201810974049.5
申请日:2018-08-24
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了基于语言种类和语音内容协同分类的多语言语音识别方法,所述方法包括:步骤1)建立和训练语言种类和语音内容协同分类声学模型;该声学模型融合了包含语种相关信息的语种特征向量,在多语言识别过程中能够利用语种特征向量对特定语种的音素分类层做模型自适应优化;步骤2)将待识别的语音特征序列输入训练好的语言种类和语音内容协同分类声学模型,输出特征序列对应的音素后验概率分布;解码器结合特征的序列音素后验概率分布生成若干个候选词序列和其对应的声学模型得分;步骤3)将候选词序列的声学模型得分和语言模型得分进行结合作为总体分数,将总体分数最高的候选词序列作为特定语言的语音内容的识别结果。
-
公开(公告)号:CN110070855A
公开(公告)日:2019-07-30
申请号:CN201810077556.9
申请日:2018-01-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/02
Abstract: 本发明涉及一种基于迁移神经网络声学模型的语音识别系统及方法,该系统包括:信号处理及特征提取模块、语言模型、解码器和迁移神经网络声学模型;其中迁移神经网络声学模型包括鲁棒神经网络和定向神经网络;本系统通过对鲁棒神经网络模型的模型参数进行固定,同时通过神经网络间的层间横向连接,将鲁棒声学模型的信息传递到目标声学模型中,不仅保留了原鲁棒声学模型的性能,同时还对目标语言做特定的优化。解决了低资源语言的鲁棒声学模型的快速构建的问题,通过利用数据充分的语言的声学模型进行模型参数迁移的方式,来提升目标低资源语言的声学模型性能以及训练的收敛速度。
-
公开(公告)号:CN109977724A
公开(公告)日:2019-07-05
申请号:CN201711441236.9
申请日:2017-12-27
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提出一种水下目标分类方法,包括:将声呐阵列接收的信号转换成数字信号;对数字信号首先进行预处理,然后计算每个声呐与其他声呐之间的互相关系数并求和,将互相关系数和最大的声呐信号作为参考信号;计算每个声呐相对于参考信号的时间延迟;利用通道的互相关系数和前后帧的相关性对每个通道的权重进行自适应,最终得到经过增强后的信号。将信号进行分帧后进行滤波,对每个滤波器内信号能量求和并取对数作为这一帧信号的特征。将特征作为一个时延神经网络的输入,输出为这一帧信号对应的每个目标类型的概率,基于此规则训练出一个多目标分类器。发明利用深度神经网络强大的非线性表征能力,有效地利用目标的特征对其进行区分。
-
公开(公告)号:CN106297776A
公开(公告)日:2017-01-04
申请号:CN201510266553.6
申请日:2015-05-22
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/08
Abstract: 本发明涉及一种基于音频模板的语音关键词检索方法,包括:首先将语音样例模板和待检索语音转换成概率分布的序列,然后通过动态时间规整对语音样例模板和待检索语音进行匹配,获得待检索语音中关键词起止时间点和每个出现位置的声学置信度得分,最后对不同语音样例模板获得的得分进行规整,排序后得到检索结果。本发明的检索过程完全不要求特定语种的信息,最大化通用性和可移植性,同时减小检索过程中的运算量,加快了关键词检索的速度。
-
公开(公告)号:CN112257484B
公开(公告)日:2024-03-15
申请号:CN201910661146.3
申请日:2019-07-22
Applicant: 中国科学院声学研究所
IPC: G06F18/213 , G06N3/0464 , G06N3/08 , G06F17/14
Abstract: 本发明涉及一种基于深度学习的多声源测向方法及系统,所述方法包括:将阵列接收的声源信号转换成数字声音信号;对所述数字声音信号进行做傅里叶变换,得到傅里叶变换后的信号;将傅里叶变换后的信号输入深度神经网络,使用反向传播方法训练深度神经网络,直至深度神经网络收敛;从收敛后的深度神经网络输出的后验概率中找到峰值对应的方位,该方位为声源出现的方位。本发明的方法利用了深度神经网络,通过优化准则函数,寻找声源波达方向的最优解,该方法直接从阵列接受的信号得到目标的方位,实现了简单而高效的多声源测向。
-
公开(公告)号:CN111091817B
公开(公告)日:2022-10-11
申请号:CN201811242398.4
申请日:2018-10-24
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于窗口输入的双向回馈神经网络的语音识别方法,所述方法包括:步骤1)建立和训练基于窗口输入的双向回馈神经网络BLSTM‑E;步骤2)将待识别的语音帧输入步骤1)的基于窗口输入的双向回馈神经网络BLSTM‑E,通过BLSTM‑E的前向计算,计算出每个语音帧的后验概率;步骤3)将步骤2)中每个语音帧的后验概率输入解码器,解码器在语言模型的限制下,利用维特比算法在状态空间中搜索一条最优的结果作为识别结果。本发明提出的基于窗口输入的双向回馈神经网络BLSTM‑E的语音识别方法,能够在每一帧的语音判决过程中将更广的时间域内的信息利用起来,取得了相比于传统BLSTM语音识别方法更精确的识别结果。
-
-
-
-
-
-
-
-
-