-
公开(公告)号:CN114822582A
公开(公告)日:2022-07-29
申请号:CN202110120278.2
申请日:2021-01-28
Applicant: 中国科学院声学研究所
IPC: G10L21/0272
Abstract: 本发明公开了一种采用级联掩蔽估计的语音分离方法,所述方法包括:将混合声源信号输入编码器,输出隐藏空间矩阵;将隐藏空间矩阵输入声源分离器,输出待分离声源信号的掩蔽矩阵;所述声源分离器采用级联掩蔽估计分离器;将隐藏空间矩阵和掩蔽矩阵进行点乘,得到待分离声源信号在隐藏空间的估计值;将估计值输入解码器,输出分离后的目标信号波形。本发明的方法为了进一步提高多粒度特征融合的质量和效率,以跨粒度特征融合单元为基础,通过多级细化和逐粒度融合,逐步优化多时间粒度的融合特征,从而提高了分离出的目标信号的质量。
-
公开(公告)号:CN111145718B
公开(公告)日:2022-06-07
申请号:CN201911395278.2
申请日:2019-12-30
Applicant: 中国科学院声学研究所
Abstract: 本发明实施例提供了一种基于自注意力机制的中文普通话字音转换方法,进行中文句子到变调后发音的直接预测。该方法将多任务学习和相对位置编码与自注意力模型相结合,其中自注意力机制用来捕捉输入句子中字符的依赖关系,多任务学习引入额外的词性和三个拼音属性作为子任务;并且使用CRF来建模声调转移关系,相对位置编码来有效建模序列的位置信息;最后发音可以由主任务预测结果得出,也可以是三个拼音属性子任务联合判决的结果。该方法很大程度提升中文普通话字音转换的性能。
-
公开(公告)号:CN110858480B
公开(公告)日:2022-05-17
申请号:CN201810928881.1
申请日:2018-08-15
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于N元文法神经网络语言模型的语音识别方法,所述方法包括:步骤1)建立并训练一个n阶N元文法神经网络语言模型;步骤2)对于每一条测试语音u,利用识别器选取K个得分最高的候选结果;基于训练好的n阶N元文法神经网络语言模型重新计算K个候选结果的语言模型得分;然后重新计算K个候选结果的得分,选取得分最高的候选结果作为测试语音u的最终识别结果。本发明的语音识别方法的性能及计算效率均优于基于RNN的语言模型的语音识别方法。
-
公开(公告)号:CN114400024A
公开(公告)日:2022-04-26
申请号:CN202210046402.X
申请日:2022-01-14
Applicant: 中国科学院声学研究所
Abstract: 本说明书实施例提供一种利用音频判别模型对音频进行判别的判别设备及存储介质,判别设备包括:第一预处理模块,配置为对待判别咳嗽音频进行处理,得到目标梅尔谱特征;第一划分模块,配置为对目标梅尔谱特征进行划分,得到处于不同频段的第一梅尔谱特征和第二梅尔谱特征;频域特征提取模块,配置为将第一梅尔谱特征以及第二梅尔谱特征输入频域特征提取层,得到第一频域特征和第二频域特征;时序特征提取模块,配置为将第一梅尔谱特征及第二梅尔谱特征输入时序特征提取层,得到第一时序特征和第二时序特征;分类模块,配置为将第一频域特征、第二频域特征、第一时序特征和第二时序特征输入分类层,得到待判别咳嗽音频携带指定肺炎信息的概率。
-
公开(公告)号:CN114337908A
公开(公告)日:2022-04-12
申请号:CN202210011028.X
申请日:2022-01-05
Applicant: 中国科学院声学研究所
Abstract: 本申请公开了一种目标语音信号的干扰信号生成方法及装置,方法包括:获取待干扰的目标语音信号;对目标语音信号进行分帧处理,获得至少一个语音帧;对其中的每个语音帧进行处理,包括对其进行第一处理、第二处理和/或第三处理,获得频域包络反转信号、时域反转信号和/或时域包络反转信号;根据频域包络反转信号、时域反转信号和/或时域包络反转信号以及与其分别对应的预设权重系数,确定目标语音信号的干扰信号。本申请通过构造三种与目标语音信号相关的频域包络反转信号、时域反转信号、时域包络反转信号,并根据构造的三种信号以及与其对应的预设权重系数,获得目标语音信号的干扰信号进一步提高了干扰信号对目标语音信号的干扰作用。
-
公开(公告)号:CN113889068A
公开(公告)日:2022-01-04
申请号:CN202111296363.0
申请日:2021-11-03
Applicant: 中国科学院声学研究所
IPC: G10K11/178 , G10L25/30
Abstract: 本申请提出一种主动噪声消除的方法,包括:将参考信号输入自适应滤波器,得到控制信号,参考信号是由噪声源发出后被参考麦克风采集到的信号;将所述控制信号通过非线性次级路径形成抗噪声信号;非线性次级路径是指包含扬声器,麦克风以及声学传输路径所引起的线性和非线性变换;将所述抗噪声信号与原始噪声叠加得到残余噪声;原始噪声为噪声源经过主路径传播后在误差麦克风位置处的信号;残余噪声为被误差麦克风采集到的信号;根据所述控制信号、非线性次级路径模型和所述残余噪声得到原始噪声信号估计;根据所述原始噪声信号估计、逆非线性次级路径模型和所述控制信号得到误差信号;根据所述误差信号更新所述自适应滤波器,实现主动噪声消除。
-
公开(公告)号:CN113870893A
公开(公告)日:2021-12-31
申请号:CN202111134595.6
申请日:2021-09-27
Applicant: 中国科学院声学研究所
IPC: G10L21/0272 , G10L25/27
Abstract: 本申请涉及一种多通道双说话人分离方法及系统,其中所述方法包括:对混合语音音频进行处理,得到每帧音频的频谱;根据所述每帧音频和声源位置估计网络获得估计的帧级别笛卡尔坐标和对应权重;根据所述每帧音频的频谱得到第一对数能量谱和第一正余弦通道间相位差;根据所述估计的帧级别笛卡尔坐标和对应权重,得到所述混合语音音频中目标说话人的笛卡尔坐标估计;根据所述目标说话人的笛卡尔坐标得到第一角度特征;根据所述第一对数能量谱、第一正余弦通道间相位差、第一角度特征和说话人掩蔽估计网络得到目标说话人和第一估计的说话人掩蔽;基于所述目标说话人、所述第一估计的说话人掩蔽和所述混合语音音频,得到所述至少两个说话人的分离语音。
-
公开(公告)号:CN113793622A
公开(公告)日:2021-12-14
申请号:CN202111064395.8
申请日:2021-09-10
Applicant: 中国科学院声学研究所
Abstract: 本发明涉及一种音频场景识别方法,方法包括:获取待识别音频;对待识别音频进行小波特征提取,以确定待识别音频对应的小波特征;将待识别音频对应的小波特征输入至具有残差网络结构的神经网络嵌入特征提取器中,以得到至少一个深度嵌入特征序列;将待识别音频对应的小波特征以及至少一个深度嵌入特征序列一并输入至神经网络分类器中,以确定出待识别音频所对应的音频场景。本发明提取待识别语音数据的小波特征,可以自适应时频信号分析的要求。同时结合具有残差网络结构的神经网络嵌入特征提取器可以在大量数据训练时,保障提取的深度嵌入特征在识别时具有更高的准确率,还可极大提升对短时音频的识别性能。
-
公开(公告)号:CN110070874B
公开(公告)日:2021-07-30
申请号:CN201810065088.3
申请日:2018-01-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L17/02 , G10L17/10 , G10L21/0208
Abstract: 本发明涉及一种针对声纹识别的语音降噪方法及装置,该方法包括:对具有噪声的语音信号预处理后,进行特征提取,获取第一语音功率谱图;对第一语音功率谱图进行分解,获取第一模态信号和除第一模态之外的模态信号;对第一模态信号进行降噪,获取降噪后的模态信号;将降噪后的模态信号与所述除所述第一模态之外的模态信号进行相加重构,获取第二语音功率谱图。通过该方案,主要是分离出噪声最多的模态进行降噪处理。如此一来,在实现语音信号降噪处理的同时,还可以尽量避免了有效语音信号的损失,即说话人语音信息的损失,提升声纹识别效果。
-
公开(公告)号:CN113035170A
公开(公告)日:2021-06-25
申请号:CN201911356247.6
申请日:2019-12-25
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明属于语音识别和自然语言处理技术领域,具体涉及一种基于元音和谐的土耳其语的语音识别方法,该方法包括:将待识别语音进行识别,得到多个候选语句,再将每个候选语句拆分成多个子词;将每个子词依次输入土耳其语子词级别神经网络语言模型,获得下一个子词的预测概率的对数值;根据该候选语句中所有子词的预测概率的对数值,获得该候选语句的概率的对数值;按照从大到小的顺序对各个候选语句的概率的对数值进行排序,将最大概率的对数值对应的候选语句作为语音识别结果。
-
-
-
-
-
-
-
-
-