-
公开(公告)号:CN113707127B
公开(公告)日:2023-12-15
申请号:CN202111007669.X
申请日:2021-08-30
Applicant: 中国科学院声学研究所
Abstract: 本申请涉及一种基于线性自注意力的语音合成方法和系统,所述方法包括:根据音频进行处理,获得对应文本的音素序列;根据所述音素序列通过神经网络编码器得到第一文本特征序列;所述神经网络编码器用于对所述音素序列进行线性自注意力计算和乘性位置编码以得到第一文本特征序列;根据所述第一文本特征序列通过时长预测模型扩增得到第二文本特征序列;根据所述第二文本特征序列通过神经网络解码器得到对应的梅尔谱特征序列;根据所述梅尔谱特征序列通过神经网络声码器得到转换后的语音。本申请以线性的时间、空间复杂度输出梅尔谱,输入神经网络声码器得到语音。该方法解决了传统并行语音合成声学模型时间、空间复杂度较高的问题。
-
公开(公告)号:CN113539238B
公开(公告)日:2023-12-08
申请号:CN202010247070.2
申请日:2020-03-31
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开了一种基于空洞卷积神经网络的端到端语种识别分类方法,包括:待训练语种识别网络接收,并对训练语音中提取的帧级别声学底层特征进行至少一层空洞卷积后,输出训练语音后验概率;将训练语音后验概率与真实类别标签的最小均方误差作为待训练语种识别网络的损失函数,通过减小优化函数的值进行梯度回传并更新待训练语种识别网络的参数,得到训练后语种识别网络;提取测试语音的帧级别声学底层特征;训练后语种识别网络接收测试语音的帧级别声学底层特征,输出测试语音后验概率;根据测试语音后验概率判定测试语音中的至少一个语种类别。在输出特征图的分辨率不变的情况(56)对比文件金马 等.基于卷积神经网络的语种识别系统《.数据采集与处理》.2019,第34卷(第2期),第321-330页.
-
公开(公告)号:CN113793622B
公开(公告)日:2023-08-29
申请号:CN202111064395.8
申请日:2021-09-10
Applicant: 中国科学院声学研究所
IPC: G10L25/18 , G10L25/30 , G10L25/45 , G06F18/213 , G06F18/24 , G06N3/0464 , G06N3/084
Abstract: 本发明涉及一种音频场景识别方法,方法包括:获取待识别音频;对待识别音频进行小波特征提取,以确定待识别音频对应的小波特征;将待识别音频对应的小波特征输入至具有残差网络结构的神经网络嵌入特征提取器中,以得到至少一个深度嵌入特征序列;将待识别音频对应的小波特征以及至少一个深度嵌入特征序列一并输入至神经网络分类器中,以确定出待识别音频所对应的音频场景。本发明提取待识别语音数据的小波特征,可以自适应时频信号分析的要求。同时结合具有残差网络结构的神经网络嵌入特征提取器可以在大量数据训练时,保障提取的深度嵌入特征在识别时具有更高的准确率,还可极大提升对短时音频的识别性能。
-
公开(公告)号:CN111798840B
公开(公告)日:2023-08-08
申请号:CN202010688457.1
申请日:2020-07-16
Applicant: 中移在线服务有限公司 , 中国科学院声学研究所
Abstract: 本申请提供一种语音关键词识别方法和装置,从目标关键词的音频中提取出第一声学特征和第二声学特征,将第一声学特征和第二声学特征拼接为第一声学特征序列;从待识别的目标语音的音频中提取出第三声学特征和第四声学特征,将第三声学特征和第四声学特征拼接为第二声学特征序列;将第一、第二声学特征序列分别输入预先训练的第一模型和第二模型,输出第一、第二嵌入向量;计算第一嵌入向量与第二嵌入式向量之间的相似度,基于相似度确定目标语音中是否包含目标关键词。该方法使得输出的嵌入向量包含更多的上下文信息,改善了样例关键词识别的有效性。
-
公开(公告)号:CN111179920B
公开(公告)日:2023-01-24
申请号:CN201911415037.X
申请日:2019-12-31
Applicant: 中国科学院声学研究所
IPC: G10L15/20 , G10L21/02 , G10L21/0216
Abstract: 本发明提供一种端到端远场语音识别方法及系统。在一个实施例中,将多通道信号的频谱特征和空间特征进行融合,并输入掩蔽网络中计算多通道信号的掩蔽值;根据所述掩蔽值计算多通道信号的波束形成系数,并根据所述波束形成系数对多通道语音信号进行增强;将增强后的多通道信号输入到编码解码网络中进行声学建模和优化,并在优化过程中加入最大信噪比准则进行联合优化;将优化后的多通道信号作为最终识别结果,并输出。通过将神经网络波束形成和声学建模结合进行联合优化以及将最大信噪比优化准则和语音识别准则进行联合优化。解决了前端语音增强和语音识非一致优化的问题。
-
公开(公告)号:CN112951211B
公开(公告)日:2022-10-18
申请号:CN202110437391.3
申请日:2021-04-22
Applicant: 中国科学院声学研究所
Abstract: 本申请实施例公开了一种语音唤醒方法及装置,方法包括:接收用户语音;提取用户语音中每一帧的声学特征;将用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中,得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率;其中,第一音素序列是预定义的关键词的音素序列;对后验概率进行最小编辑距离加和置信度判决;若后验概率通过最小编辑距离加和置信度判决,则触发唤醒系统。本申请实施例通过增加一个注意力偏置模块,对关键词进行优化,加强了建模效果;依次通过后验概率加和置信度判决、最小编辑距离加和置信度判决和近似似然值置信度判决才触发唤醒系统,提高了识别关键词的能力。
-
公开(公告)号:CN111179918B
公开(公告)日:2022-10-14
申请号:CN202010106791.1
申请日:2020-02-20
Applicant: 中国科学院声学研究所 , 中科信利(广州)技术有限公司
Abstract: 本发明实施例提供了一种联结主义时间分类和截断式注意力联合在线语音识别技术。构建了基于编码器、解码器、截断式注意力和联结主义时间分类器的语音识别神经网络模型,采用交叉熵准则和联结主义时间分类准则训练该神经网络模型;将语音流输入解码器,将存留的汉字序列输入编码器,利用截断式注意力机制截取有效的语音片段;根据截取的语音片段,对每条存留的汉字序列预测多个汉字,并于之构成一个新的汉字序列,并评分;联结主义时间分类器将解码拓展的多组汉字序列和已接收的语音对齐,并评分;对两种评分取平均,对各汉字序列进行剪枝;当满足终止条件时输出识别结果。该方法很大程度提升在线语音识别的性能。
-
公开(公告)号:CN114996479A
公开(公告)日:2022-09-02
申请号:CN202210707870.7
申请日:2022-06-21
Applicant: 中国科学院声学研究所
IPC: G06F16/36 , G06F16/332 , G06N3/04 , G06N3/08
Abstract: 本申请提供一种基于增强技术的对话状态追踪方法,包括:获取数据库和已知领域对话状态追踪模型;利用数据增强技术从数据库和已知领域训练样本获取新领域本轮对话文本、上轮对话状态、本轮对话状态标签;使用槽位值类别预测器预测新槽位的类型,输出本轮对话文本编码矩阵;利用特征增强技术对本轮对话文本编码矩阵提取多个上下文特征向量;根据预测的槽位类型、多个上下文特征向量在槽位值解码器中解码得到新槽位值,将上轮对话状态中的槽位值进行更新得到本轮对话状态;比较本轮对话状态与本轮对话状态标签的差异并梯度回传,采用神经网络技术迭代训练对话状态追踪模型以减少差异,该模型能够实现新领域的当前轮次会话状态追踪。
-
公开(公告)号:CN112951212B
公开(公告)日:2022-08-26
申请号:CN202110419474.X
申请日:2021-04-19
Applicant: 中国科学院声学研究所
Abstract: 本申请实施例公开了一种多个说话人的语音转折点检测方法及装置,方法包括:接收多个说话人的混合语音;切分混合语音,得到M个语音片段,M为正整数;提取每个语音片段的特征;将每两个相邻的语音片段的特征进行拼接,得到与每两个相邻的语音片段对应的M‑1个特征对;将M‑1个特征对输入训练后的语音转折点检测网络中,得到与每两个相邻的语音片段对应的M‑1个相似度输出;若相似度输出小于预设相似度阈值,则确定与相似度输出对应的两个相邻的语音片段存在转折点。本申请实施例提高了语音转折点检测的精度,提高了语音转折点检测在多个说话人应用环境下的鲁棒性。
-
公开(公告)号:CN114783443A
公开(公告)日:2022-07-22
申请号:CN202210325453.6
申请日:2022-03-30
Applicant: 中国科学院声学研究所
Abstract: 本申请提出一种语音识别模型的个性化联邦学习方法和系统,应用于中心端和多个客户端,在中心端,该方法包括:利用本地有标注语音样本进行有监督的训练语音识别模型,获得所述语音识别模型的种子模型,所述种子模型包括特征提取器及分类器;所述特征提取器用于处理多个客户端输入的语音信息,确定多个客户端中每个客户端的语音信息的个性化特征;利用所述多个客户端中每个客户端的语音信息的个性化特征对所述分类器进行半监督训练,获得训练好的分类器;将所述训练好的分类器传递至所述多个客户端中每个客户端。本申请通过将语音识别模型的特征提取器与分类器进行解耦优化的方式实现个性化联邦学习,有效提升语音识别模型性能,降低错误识别率。
-
-
-
-
-
-
-
-
-