-
公开(公告)号:CN116092516A
公开(公告)日:2023-05-09
申请号:CN202310073162.7
申请日:2023-01-13
Applicant: 中国科学院声学研究所
Abstract: 本发明涉及一种抑制混叠伪影的方法,所述方法具体包括:将输入生成器的声学特征x0过普通卷积后的特征x1,输入第一层上采样模块;自第一层上采样模块起,对输入第i‑1层上采样模块的特征xi‑1执行步骤:对特征xi‑1上采样ri‑1倍,得到特征将特征过低通滤波器,得到抗混叠特征将声学特征x0上采样倍,得到的特征过普通卷积生成高频特征ni;将生成的高频特征ni和抗混叠特征相加后,过非线性残差模块非线性激活生成xi并输出。还涉及了装置,包括:第一普通卷积模块和至少两层上采样模块。本发明的方法和装置,能够在保持生成高质量语音的同时,避免混叠伪影。
-
公开(公告)号:CN113192535B
公开(公告)日:2022-09-09
申请号:CN202110412011.0
申请日:2021-04-16
Applicant: 中国科学院声学研究所
Abstract: 本申请实施例提供了一种语音关键词检索方法,包括:获取语音信号;提取所述语音信号的声学特征;所述声学特征为梅尔频率倒谱系数声学特征;将所述声学特征输入端到端语音识别及音素分类模型进行解码,输出至少一条候选文本和音素后验概率;检索所述至少一条候选文本的关键词;根据所述关键词将对应的候选文本转换为音素序列,并在所述音素序列中插入静音音素;对所述音素后验概率和所述音素序列计算,获得所述关键词的起止时间点和置信度;对所述关键词检索结果按所述置信度进行判决,保留置信度符合判决标准的关键词作为最终的关键词检索结果。
-
公开(公告)号:CN113192535A
公开(公告)日:2021-07-30
申请号:CN202110412011.0
申请日:2021-04-16
Applicant: 中国科学院声学研究所
Abstract: 本申请实施例提供了一种语音关键词检索方法,包括:获取语音信号;提取所述语音信号的声学特征;所述声学特征为梅尔频率倒谱系数声学特征;将所述声学特征输入端到端语音识别及音素分类模型进行解码,输出至少一条候选文本和音素后验概率;检索所述至少一条候选文本的关键词;根据所述关键词将对应的候选文本转换为音素序列,并在所述音素序列中插入静音音素;对所述音素后验概率和所述音素序列计算,获得所述关键词的起止时间点和置信度;对所述关键词检索结果按所述置信度进行判决,保留置信度符合判决标准的关键词作为最终的关键词检索结果。
-
公开(公告)号:CN112951211A
公开(公告)日:2021-06-11
申请号:CN202110437391.3
申请日:2021-04-22
Applicant: 中国科学院声学研究所
Abstract: 本申请实施例公开了一种语音唤醒方法及装置,方法包括:接收用户语音;提取用户语音中每一帧的声学特征;将用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中,得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率;其中,第一音素序列是预定义的关键词的音素序列;对后验概率进行最小编辑距离加和置信度判决;若后验概率通过最小编辑距离加和置信度判决,则触发唤醒系统。本申请实施例通过增加一个注意力偏置模块,对关键词进行优化,加强了建模效果;依次通过后验概率加和置信度判决、最小编辑距离加和置信度判决和近似似然值置信度判决才触发唤醒系统,提高了识别关键词的能力。
-
公开(公告)号:CN108109624A
公开(公告)日:2018-06-01
申请号:CN201611049017.1
申请日:2016-11-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供了一种基于统计规律的中文词汇表未登录词比率的估计方法,利用本发明提供的估计方法,解决了无法直接计算中文词汇表未登录词比率的技术问题;相比于采用字错误率(CER)衡量方法,本发明的估计方法通过采用中文词汇表未登录词比率来衡量中文识别系统性能,不仅省去了解码语音数据的时间,从而缩短评价某个特定中文语音识别系统所需的时间,而且可以在中文语音识别系统搭建之初选择性能最佳的中文词汇表,进而得到性能最佳的中文语音识别系统。
-
公开(公告)号:CN101645270A
公开(公告)日:2010-02-10
申请号:CN200810239818.3
申请日:2008-12-12
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/28
Abstract: 本发明涉及一种双向语音识别处理系统及方法,该系统包括:特征提取器、前向语音识别器、后向语音识别器、识别结果反向器及识别结果融合器。该系统及方法,其框架是基于同一知识源的双向语音识别解码完成,在前后双向的语音识别过程中分别得到相应的语音请求识别文本,将不同解码方向的语音请求识别结果融合处理得到语音搜索系统前端的文本请求。本发明的双向语音识别解码系统及方法,在已有的有限的知识源下,通过对双向解码结果的融合,得到更为精确的识别文本;与以往的正向解码方法相比,该方法在有效提高语音识别率的同时,也使语音搜索系统的搜索结果更为准确有效。
-
公开(公告)号:CN119128502B
公开(公告)日:2025-05-13
申请号:CN202411208752.7
申请日:2024-08-30
Applicant: 中国科学院声学研究所
IPC: G06F18/2131 , G06F18/21 , G06F18/10 , G06N3/0464 , G06N3/08 , G01S15/88 , G01S15/89 , G01S7/52 , G01S7/539
Abstract: 本申请提供了一种基于神经网络的主动声纳抗混响方法及系统,所述方法以主动声纳发射脉宽为窗长,利用训练好的卷积神经网络对回波信号进行滑窗过滤得到结果图;根据设定的门限阈值,对结果图进行阈值判决,得到过滤后的结果图。卷积神经网络的训练过程包括:在主动声纳探测中收集大量混响和真实目标数据,对数据进行波束形成等预处理;对目标信号进行傅里叶变换,提取听觉感知特征,利用预处理好的数据和提取的听觉感知特征训练卷积神经网络;按照准确率、召回率和虚警率的指标对训练效果进行评价。本申请的优势在于:基于人耳辨识的理论,提出了一种利用信号听觉感知特征及其变化情况的抗混响算法,可为主动声纳探测带来更可靠的探测效果。
-
公开(公告)号:CN119128502A
公开(公告)日:2024-12-13
申请号:CN202411208752.7
申请日:2024-08-30
Applicant: 中国科学院声学研究所
IPC: G06F18/2131 , G06F18/21 , G06F18/10 , G06N3/0464 , G06N3/08 , G01S15/88 , G01S15/89 , G01S7/52 , G01S7/539
Abstract: 本申请提供了一种基于神经网络的主动声纳抗混响方法及系统,所述方法以主动声纳发射脉宽为窗长,利用训练好的卷积神经网络对回波信号进行滑窗过滤得到结果图;根据设定的门限阈值,对结果图进行阈值判决,得到过滤后的结果图。卷积神经网络的训练过程包括:在主动声纳探测中收集大量混响和真实目标数据,对数据进行波束形成等预处理;对目标信号进行傅里叶变换,提取听觉感知特征,利用预处理好的数据和提取的听觉感知特征训练卷积神经网络;按照准确率、召回率和虚警率的指标对训练效果进行评价。本申请的优势在于:基于人耳辨识的理论,提出了一种利用信号听觉感知特征及其变化情况的抗混响算法,可为主动声纳探测带来更可靠的探测效果。
-
公开(公告)号:CN117577133A
公开(公告)日:2024-02-20
申请号:CN202311485914.7
申请日:2023-11-09
Applicant: 中国科学院声学研究所
Abstract: 本发明涉及声音事件检测与深度学习领域,特别涉及一种基于深度学习的哭声检测方法及系统。本发明方法包括以下步骤:首先,提取待检测语音信号的MFCC频谱,并输入预先建立并训练好的哭声检测模型中,输出每一帧语音信号为哭声和非哭声的概率。然后,对输出概率进行处理,得到每一帧语音信号为哭声和非哭声的概率。接下来,通过概率阈值对哭声概率进行二值化,得到连续的哭声片段。最后,将超过阈值时长的片段输出为哭声片段。所述哭声检测模型采用了一种引入帧级注意力机制模块的CRNN结构,并采用弱监督训练方法进行训练。通过本发明,实现了一种基于深度学习的哭声检测方法及相应的系统,为婴儿护理领域的技术发展提供了一种创新解决方案。
-
公开(公告)号:CN111938691B
公开(公告)日:2022-03-18
申请号:CN202010829479.5
申请日:2020-08-18
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种心音识别方法,包括:采集多个原始心音数据;对多个原始心音数据进行低通滤波,并计算多个原始心音数据所对应的同态包络;采用双门限法对多个同态包络进行筛选,得到至少一个备选心音数据段;将至少一个备选心音数据段进行短时傅里叶变换,得到至少一个备选心音数据段所对应的备选心音段时频谱;将至少一个备选心音段时频谱输入心音识别分支卷积神经网络进行分类,得到至少一个备选心音段时频谱的分类结果。
-
-
-
-
-
-
-
-
-