-
公开(公告)号:CN113192535B
公开(公告)日:2022-09-09
申请号:CN202110412011.0
申请日:2021-04-16
Applicant: 中国科学院声学研究所
Abstract: 本申请实施例提供了一种语音关键词检索方法,包括:获取语音信号;提取所述语音信号的声学特征;所述声学特征为梅尔频率倒谱系数声学特征;将所述声学特征输入端到端语音识别及音素分类模型进行解码,输出至少一条候选文本和音素后验概率;检索所述至少一条候选文本的关键词;根据所述关键词将对应的候选文本转换为音素序列,并在所述音素序列中插入静音音素;对所述音素后验概率和所述音素序列计算,获得所述关键词的起止时间点和置信度;对所述关键词检索结果按所述置信度进行判决,保留置信度符合判决标准的关键词作为最终的关键词检索结果。
-
公开(公告)号:CN113066510B
公开(公告)日:2022-08-12
申请号:CN202110455748.0
申请日:2021-04-26
Applicant: 中国科学院声学研究所
Abstract: 本申请提供了一种元音弱读检测方法及装置。该方法包括:提取用户朗读目标文本的语音信号的声学特征,并对声学特征进行编码,获得的声学编码向量序列;然后,将目标文本对应的带重音标签的音素序列作为发音先验信息,采用联结主义时间分类(Connectionisttemporal classification,CTC)和注意力相结合的解码方法进行解码,最后采用波束搜索方法获得最终的带元音弱读标签的音素序列。本申请将带重音标签的音素序列作为发音先验信息,辅助元音弱读检测,可提高检测的准确度;解码时采用CTC和注意力联合解码方法,解决了元音弱读情况下,采用强制对齐会导致检测的准确率下降的问题。
-
公开(公告)号:CN113345421B
公开(公告)日:2022-08-02
申请号:CN202010098250.9
申请日:2020-02-18
Applicant: 中国科学院声学研究所 , 中科信利(广州)技术有限公司
Abstract: 本发明公开了一种基于角度谱特征的多通道远场的目标语音识别方法,包括:获取包含目标人语音的M个通道的混合语音;将两个通道组成通道对,得到H个不重复的通道对。提取M个通道的混合语音的MFCC特征,并串接,得到第一特征;计算H个通道对的SRP‑PHAT,根据SRP‑PHAT生成包含目标人的位置信息的角度谱特征作为第二特征;提取出预存的目标人特征作为第三特征;根据第一特征、第二特征和第三特征对混合语音中的目标人进行语音识别。同时说话人的位置信息的引入也能增强模型对于多通道远场信号的处理能力,从而进一步提升模型对于目标说话人语音的识别性能。
-
公开(公告)号:CN113035170B
公开(公告)日:2022-07-12
申请号:CN201911356247.6
申请日:2019-12-25
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明属于语音识别和自然语言处理技术领域,具体涉及一种基于元音和谐的土耳其语的语音识别方法,该方法包括:将待识别语音进行识别,得到多个候选语句,再将每个候选语句拆分成多个子词;将每个子词依次输入土耳其语子词级别神经网络语言模型,获得下一个子词的预测概率的对数值;根据该候选语句中所有子词的预测概率的对数值,获得该候选语句的概率的对数值;按照从大到小的顺序对各个候选语句的概率的对数值进行排序,将最大概率的对数值对应的候选语句作为语音识别结果。
-
公开(公告)号:CN112951264B
公开(公告)日:2022-05-17
申请号:CN201911257725.8
申请日:2019-12-10
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L21/0272 , G10L21/0232 , G10L21/0216 , G06N3/04 , G06N3/08 , G06K9/62
Abstract: 本发明公开了一种基于混合式概率模型的多通道声源分离方法,所述方法包括:计算待分离的多声源信号的短时傅里叶频谱,基于预先建立的深度聚类网络提取每个时频点的声源嵌入向量;将声源嵌入向量输入混合式概率模型,利用期望最大化算法迭代混合式概率模型,模型收敛后输出每个时频点的各声源出现概率;利用各声源出现概率计算噪声能量密度矩阵和目标声源导向矢量;计算波束形成系数;利用短时傅里叶频谱、各声源出现概率和波束形成系数,还原各声源对应的增强后信号的频谱。
-
公开(公告)号:CN113724731A
公开(公告)日:2021-11-30
申请号:CN202111007671.7
申请日:2021-08-30
Applicant: 中国科学院声学研究所
Abstract: 本说明书实施例提供了一种利用音频判别模型进行音频判别的方法和装置。该方法用于判别音频中的咳嗽音频属于新型冠状病毒肺炎的概率,该方法的一具体实施方式包括:首先,从采集的音频中获取多帧待判别咳嗽音频,并从各帧待判别咳嗽音频中提取特征向量。而后,利用至少一个第一时延神经网络,对多帧待判别咳嗽音频的特征向量进行信息提取,得到音频信息。之后,利用至少一个残差时延神经网络,从多个维度提取音频信息的多维度信息,并利用至少一个第二时延神经网络,从多维度信息获得固定长度的音频特征。最后,将固定长度的音频特征输入全连接层得到待判别咳嗽音频属于新冠肺炎的概率。
-
公开(公告)号:CN113707127A
公开(公告)日:2021-11-26
申请号:CN202111007669.X
申请日:2021-08-30
Applicant: 中国科学院声学研究所
Abstract: 本申请涉及一种基于线性自注意力的语音合成方法和系统,所述方法包括:根据音频进行处理,获得对应文本的音素序列;根据所述音素序列通过神经网络编码器得到第一文本特征序列;所述神经网络编码器用于对所述音素序列进行线性自注意力计算和乘性位置编码以得到第一文本特征序列;根据所述第一文本特征序列通过时长预测模型扩增得到第二文本特征序列;根据所述第二文本特征序列通过神经网络解码器得到对应的梅尔谱特征序列;根据所述梅尔谱特征序列通过神经网络声码器得到转换后的语音。本申请以线性的时间、空间复杂度输出梅尔谱,输入神经网络声码器得到语音。该方法解决了传统并行语音合成声学模型时间、空间复杂度较高的问题。
-
公开(公告)号:CN113192535A
公开(公告)日:2021-07-30
申请号:CN202110412011.0
申请日:2021-04-16
Applicant: 中国科学院声学研究所
Abstract: 本申请实施例提供了一种语音关键词检索方法,包括:获取语音信号;提取所述语音信号的声学特征;所述声学特征为梅尔频率倒谱系数声学特征;将所述声学特征输入端到端语音识别及音素分类模型进行解码,输出至少一条候选文本和音素后验概率;检索所述至少一条候选文本的关键词;根据所述关键词将对应的候选文本转换为音素序列,并在所述音素序列中插入静音音素;对所述音素后验概率和所述音素序列计算,获得所述关键词的起止时间点和置信度;对所述关键词检索结果按所述置信度进行判决,保留置信度符合判决标准的关键词作为最终的关键词检索结果。
-
公开(公告)号:CN112951211A
公开(公告)日:2021-06-11
申请号:CN202110437391.3
申请日:2021-04-22
Applicant: 中国科学院声学研究所
Abstract: 本申请实施例公开了一种语音唤醒方法及装置,方法包括:接收用户语音;提取用户语音中每一帧的声学特征;将用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中,得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率;其中,第一音素序列是预定义的关键词的音素序列;对后验概率进行最小编辑距离加和置信度判决;若后验概率通过最小编辑距离加和置信度判决,则触发唤醒系统。本申请实施例通过增加一个注意力偏置模块,对关键词进行优化,加强了建模效果;依次通过后验概率加和置信度判决、最小编辑距离加和置信度判决和近似似然值置信度判决才触发唤醒系统,提高了识别关键词的能力。
-
公开(公告)号:CN111833886B
公开(公告)日:2021-03-23
申请号:CN202010731632.0
申请日:2020-07-27
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供了一种全连接多尺度的残差网络及其进行声纹识别的方法。该残差网络包括输入层,卷积层,N个依次连接的残差模块,以及全连接层。其中,在每个残差模块中,可以将输入的特征图分成多个分组,长度和宽度均为1的第一卷积核的输出,连接到后面经过多个第二卷积核构成的第二卷积核组,作为第二卷积核组的输入,最后将经过第二卷积核组的输出的特征图拼接在一起,由长度和宽度均为1的第三卷积核对其进行卷积处理,实现多尺度特征信息的融合,全连接层可以根据融合后的特征更好预测并输出用于指示说话人的分类信息。如此,可以在不增加网络深度的情况下,更好的提取多尺度的特征,从而实现更为准确的进行声纹识别。
-
-
-
-
-
-
-
-
-