-
公开(公告)号:CN113345418B
公开(公告)日:2024-08-09
申请号:CN202110642597.X
申请日:2021-06-09
Applicant: 中国科学技术大学
Abstract: 本发明提供了一种基于跨语种自训练的多语种模型训练方法,所述方法包括先在某个高资源语种的有标注数据上训练声学音素分类器作为目标网络,然后训练主网络来逼近所述声学音素分类器在多语种上的表征;具体包括:获取目标网络;训练主网络;将训练好的主网络迁移至目标语种自动语音识别模型。
-
公开(公告)号:CN113380237A
公开(公告)日:2021-09-10
申请号:CN202110642843.1
申请日:2021-06-09
Applicant: 中国科学技术大学
Abstract: 本发明提供了一种增强局部依赖关系的无监督预训练语音识别模型,所述语音识别模型包括编码器模块和解码器模块;所述编码器模块包括特征提取模块和上下文模块,所述上下文模块采用包括深度可分离卷积模块的transformer编码器,所述transformer编码器包括自注意力模块;其中,所述深度可分离卷积模块和所述自注意力模块的位置的组合方式如下:所述自注意力模块后接所述深度可分离卷积模块,两者是串行关系;所述自注意力模块和所述深度可分离卷积模块并行;所述自注意力模块先和所述深度可分离卷积模块并行,然后再和所述深度可分离卷积模块串行;所述自注意力模块先和所述深度可分离卷积模块串行,然后再和所述深度可分离卷积模块并行。
-
公开(公告)号:CN113345418A
公开(公告)日:2021-09-03
申请号:CN202110642597.X
申请日:2021-06-09
Applicant: 中国科学技术大学
Abstract: 本发明提供了一种基于跨语种自训练的多语种模型训练方法,所述方法包括先在某个高资源语种的有标注数据上训练声学音素分类器作为目标网络,然后训练主网络来逼近所述声学音素分类器在多语种上的表征;具体包括:获取目标网络;训练主网络;将训练好的主网络迁移至目标语种自动语音识别模型。
-
公开(公告)号:CN113257270A
公开(公告)日:2021-08-13
申请号:CN202110505085.9
申请日:2021-05-10
Applicant: 中国科学技术大学
IPC: G10L21/0216 , G10L15/22 , G10L15/16
Abstract: 本发明公开了一种基于参考麦克风优化的多通道语音增强方法,包括:步骤1,建立低秩近似多通道维纳滤波器;步骤2,建立输出信噪比数学模型;步骤3,选择参考麦克风:基于步骤2建立的输出信噪比数学模型,选定两个麦克风,并分别计算两个麦克风的输出信噪比差值,选定输入信噪比最大的麦克风作为参考麦克风;步骤4,波束形成得出增强语音信号:将步骤2中选定的秩和步骤3选择的参考麦克风代入步骤1中建立的低秩近似多通道维纳滤波器中,将待增强多麦克风语音信号与该低秩近似多通道维纳滤波器在短时频域做加权求和波束形成的内积运算,得到的结果即为单通道增强后语音信号。该方法有效降低了参考麦克风选择的时间复杂度,提升了多麦克风语音增强及语音识别性能。
-
公开(公告)号:CN112509563A
公开(公告)日:2021-03-16
申请号:CN202011499925.7
申请日:2020-12-17
Applicant: 中国科学技术大学
Abstract: 本公开实施例提供了一种模型训练方法、装置及电子设备。该方法包括:获取语音样本,利用上述有标签语音样本和上述有标签语音样本的样本标签训练第一初始语音识别模型,得到经训练得到的第一语音识别模型;将上述有标签语音样本和上述无标签语音样本分别输入第一语音识别模型,输出上述语音样本中每条语音样本对应的第一伪标签和第二伪标签,将每条上述语音样本和每条上述语音样本对应的第一伪标签输入第二初始语音识别模型,输出每条上述语音样本的标签预测概率,计算每条上述语音样本的标签预测概率和上述语音样本中每条语音样本对应的第二伪标签之间的交叉熵损失值,当上述交叉熵损失值满足预设条件时,得到经训练得到的第二语音识别模型。
-
公开(公告)号:CN102982809B
公开(公告)日:2014-12-10
申请号:CN201210528629.4
申请日:2012-12-11
Applicant: 中国科学技术大学
IPC: G10L25/30
Abstract: 本发明公开了一种说话人声音转换方法,包括训练阶段和转换阶段,训练阶段包括:从源说话人和目标说话人的训练语音信号中分别提取基频特征、说话人特征和内容特征;根据所述基频特征构建基频转换函数;根据所述说话人特征构建说话人转换函数。转换阶段包括:从源说话人的待转换语音信号中提取基频特征和频谱特征;使用训练阶段得到的基频转换函数和说话人转换函数对从所述待转换语音信号中提取出的基频特征和说话人特征进行转换,得到转换后的基频特征和说话人特征;根据所得到的转换后的基频特征、说话人特征和待转换语音信号中的内容特征合成目标说话人的语音。本发明易于实现且转换后的音质和相似度较高。
-
公开(公告)号:CN112509563B
公开(公告)日:2024-05-17
申请号:CN202011499925.7
申请日:2020-12-17
Applicant: 中国科学技术大学
Abstract: 本公开实施例提供了一种模型训练方法、装置及电子设备。该方法包括:获取语音样本,利用上述有标签语音样本和上述有标签语音样本的样本标签训练第一初始语音识别模型,得到经训练得到的第一语音识别模型;将上述有标签语音样本和上述无标签语音样本分别输入第一语音识别模型,输出上述语音样本中每条语音样本对应的第一伪标签和第二伪标签,将每条上述语音样本和每条上述语音样本对应的第一伪标签输入第二初始语音识别模型,输出每条上述语音样本的标签预测概率,计算每条上述语音样本的标签预测概率和上述语音样本中每条语音样本对应的第二伪标签之间的交叉熵损失值,当上述交叉熵损失值满足预设条件时,得到经训练得到的第二语音识别模型。
-
公开(公告)号:CN110019822B
公开(公告)日:2021-07-06
申请号:CN201910305007.7
申请日:2019-04-16
Applicant: 中国科学技术大学
Abstract: 本发明公开了一种少样本关系分类方法及系统,方法包括:对测试样例和支撑集进行上下文编码,得到K个支撑样例和1个测试样例的上下文编码信息;基于得到的支撑样例和测试样例的上下文编码信息,收集支撑样例和测试样例之间的相互匹配的局部信息,得到支撑样例的表征和测试样例的表征;对每个支撑样例的表征和测试样例的表征进行匹配,将匹配的得分作为权重,对所有同一类的样例表征做加权和,得到每个类别的表征;将每个类别的表征与测试样例的表征进行匹配,得到测试样例与每一类的匹配分数。本发明能够在多个层面对支撑数据和测试数据进行匹配,提高了少样本关系分类的准确率。
-
公开(公告)号:CN105845128B
公开(公告)日:2020-01-03
申请号:CN201610214520.1
申请日:2016-04-06
Applicant: 中国科学技术大学
Abstract: 本发明公开了一种基于动态剪枝束宽预测的语音识别效率优化方法,该方法针对传统语音解码剪枝算法中存在较多冗余路径,以及已有改进算法中剪枝有效性不足问题,提出基于声学特征进行动态剪枝束宽的预测思路,并根据实现复杂度的不同,提出两种具体的建模方式和相应的参数估计训练方法,从而提高了语音识别解码效率。
-
公开(公告)号:CN105845128A
公开(公告)日:2016-08-10
申请号:CN201610214520.1
申请日:2016-04-06
Applicant: 中国科学技术大学
Abstract: 本发明公开了一种基于动态剪枝束宽预测的语音识别效率优化方法,该方法针对传统语音解码剪枝算法中存在较多冗余路径,以及已有改进算法中剪枝有效性不足问题,提出基于声学特征进行动态剪枝束宽的预测思路,并根据实现复杂度的不同,提出两种具体的建模方式和相应的参数估计训练方法,从而提高了语音识别解码效率。
-
-
-
-
-
-
-
-
-