远程图像/语音自动传输监控系统

    公开(公告)号:CN1269575A

    公开(公告)日:2000-10-11

    申请号:CN00104208.4

    申请日:2000-03-10

    Abstract: 本发明涉及一种远程图像/语音自动传输监控系统,该系统由装在监控中心的一套(或两套)控制中心装置和分别安装在不同远端监控站点的多个远端图像/语音处理装置构成,且控制中心装置和远端图像/语音处理装置分别与电话交换网的电话线相连。远端图像/语音处理装置将现场采集的图像及语音信号压缩编码后经电话线送至监控中心的控制中心装置,控制中心将经电话线传输的压缩编码图像及语音数据进行解压缩处理,并再现远端图像及音响。

    一种图像/语音前端处理装置

    公开(公告)号:CN2410710Y

    公开(公告)日:2000-12-13

    申请号:CN00204487.0

    申请日:2000-03-10

    Abstract: 一种图像/语音前端处理装置,其可对图像信号和语音信号进行模数转换,并按国际电信联盟ITU-T的H.324协议进行压缩编码,数据打包,然后经调制解调电路由电话交换网络的电话线向电话交换网的特定用户传输,特定用户的设备在收到图像/语音前端处理装置发送来的信号后,对打包压缩的图像/语音信息依据国际电信联盟ITU-T的H.324协议进行码流分组,解压解码,使图像/语音前端处理装置所配接的摄像头及话筒采集的现场图像信号和语音信号得以再现。

    基于跨语种自训练的多语种模型训练方法

    公开(公告)号:CN113345418B

    公开(公告)日:2024-08-09

    申请号:CN202110642597.X

    申请日:2021-06-09

    Inventor: 张自强 戴礼荣

    Abstract: 本发明提供了一种基于跨语种自训练的多语种模型训练方法,所述方法包括先在某个高资源语种的有标注数据上训练声学音素分类器作为目标网络,然后训练主网络来逼近所述声学音素分类器在多语种上的表征;具体包括:获取目标网络;训练主网络;将训练好的主网络迁移至目标语种自动语音识别模型。

    增强局部依赖关系无监督预训练语音识别模型及训练方法

    公开(公告)号:CN113380237A

    公开(公告)日:2021-09-10

    申请号:CN202110642843.1

    申请日:2021-06-09

    Inventor: 朱秋实 戴礼荣

    Abstract: 本发明提供了一种增强局部依赖关系的无监督预训练语音识别模型,所述语音识别模型包括编码器模块和解码器模块;所述编码器模块包括特征提取模块和上下文模块,所述上下文模块采用包括深度可分离卷积模块的transformer编码器,所述transformer编码器包括自注意力模块;其中,所述深度可分离卷积模块和所述自注意力模块的位置的组合方式如下:所述自注意力模块后接所述深度可分离卷积模块,两者是串行关系;所述自注意力模块和所述深度可分离卷积模块并行;所述自注意力模块先和所述深度可分离卷积模块并行,然后再和所述深度可分离卷积模块串行;所述自注意力模块先和所述深度可分离卷积模块串行,然后再和所述深度可分离卷积模块并行。

    基于跨语种自训练的多语种模型训练方法

    公开(公告)号:CN113345418A

    公开(公告)日:2021-09-03

    申请号:CN202110642597.X

    申请日:2021-06-09

    Inventor: 张自强 戴礼荣

    Abstract: 本发明提供了一种基于跨语种自训练的多语种模型训练方法,所述方法包括先在某个高资源语种的有标注数据上训练声学音素分类器作为目标网络,然后训练主网络来逼近所述声学音素分类器在多语种上的表征;具体包括:获取目标网络;训练主网络;将训练好的主网络迁移至目标语种自动语音识别模型。

    一种基于参考麦克风优化的多通道语音增强方法

    公开(公告)号:CN113257270A

    公开(公告)日:2021-08-13

    申请号:CN202110505085.9

    申请日:2021-05-10

    Abstract: 本发明公开了一种基于参考麦克风优化的多通道语音增强方法,包括:步骤1,建立低秩近似多通道维纳滤波器;步骤2,建立输出信噪比数学模型;步骤3,选择参考麦克风:基于步骤2建立的输出信噪比数学模型,选定两个麦克风,并分别计算两个麦克风的输出信噪比差值,选定输入信噪比最大的麦克风作为参考麦克风;步骤4,波束形成得出增强语音信号:将步骤2中选定的秩和步骤3选择的参考麦克风代入步骤1中建立的低秩近似多通道维纳滤波器中,将待增强多麦克风语音信号与该低秩近似多通道维纳滤波器在短时频域做加权求和波束形成的内积运算,得到的结果即为单通道增强后语音信号。该方法有效降低了参考麦克风选择的时间复杂度,提升了多麦克风语音增强及语音识别性能。

    模型训练方法、装置及电子设备

    公开(公告)号:CN112509563A

    公开(公告)日:2021-03-16

    申请号:CN202011499925.7

    申请日:2020-12-17

    Inventor: 张自强 戴礼荣

    Abstract: 本公开实施例提供了一种模型训练方法、装置及电子设备。该方法包括:获取语音样本,利用上述有标签语音样本和上述有标签语音样本的样本标签训练第一初始语音识别模型,得到经训练得到的第一语音识别模型;将上述有标签语音样本和上述无标签语音样本分别输入第一语音识别模型,输出上述语音样本中每条语音样本对应的第一伪标签和第二伪标签,将每条上述语音样本和每条上述语音样本对应的第一伪标签输入第二初始语音识别模型,输出每条上述语音样本的标签预测概率,计算每条上述语音样本的标签预测概率和上述语音样本中每条语音样本对应的第二伪标签之间的交叉熵损失值,当上述交叉熵损失值满足预设条件时,得到经训练得到的第二语音识别模型。

    一种说话人声音转换方法

    公开(公告)号:CN102982809B

    公开(公告)日:2014-12-10

    申请号:CN201210528629.4

    申请日:2012-12-11

    Abstract: 本发明公开了一种说话人声音转换方法,包括训练阶段和转换阶段,训练阶段包括:从源说话人和目标说话人的训练语音信号中分别提取基频特征、说话人特征和内容特征;根据所述基频特征构建基频转换函数;根据所述说话人特征构建说话人转换函数。转换阶段包括:从源说话人的待转换语音信号中提取基频特征和频谱特征;使用训练阶段得到的基频转换函数和说话人转换函数对从所述待转换语音信号中提取出的基频特征和说话人特征进行转换,得到转换后的基频特征和说话人特征;根据所得到的转换后的基频特征、说话人特征和待转换语音信号中的内容特征合成目标说话人的语音。本发明易于实现且转换后的音质和相似度较高。

    模型训练方法、装置及电子设备

    公开(公告)号:CN112509563B

    公开(公告)日:2024-05-17

    申请号:CN202011499925.7

    申请日:2020-12-17

    Inventor: 张自强 戴礼荣

    Abstract: 本公开实施例提供了一种模型训练方法、装置及电子设备。该方法包括:获取语音样本,利用上述有标签语音样本和上述有标签语音样本的样本标签训练第一初始语音识别模型,得到经训练得到的第一语音识别模型;将上述有标签语音样本和上述无标签语音样本分别输入第一语音识别模型,输出上述语音样本中每条语音样本对应的第一伪标签和第二伪标签,将每条上述语音样本和每条上述语音样本对应的第一伪标签输入第二初始语音识别模型,输出每条上述语音样本的标签预测概率,计算每条上述语音样本的标签预测概率和上述语音样本中每条语音样本对应的第二伪标签之间的交叉熵损失值,当上述交叉熵损失值满足预设条件时,得到经训练得到的第二语音识别模型。

Patent Agency Ranking