生成语音的检测方法、装置、电子设备及存储介质

    公开(公告)号:CN113808579B

    公开(公告)日:2022-03-08

    申请号:CN202111383856.8

    申请日:2021-11-22

    Abstract: 本公开涉及一种生成语音的检测方法、装置、电子设备及存储介质,上述方法包括:获取待检测语音,并提取所述待检测语音的第一声学特征和第二声学特征;将所述第一声学特征输入语音识别模型,输出所述第一声学特征对应的文本序列;分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量;对所述词向量和所述音向量进行拼接处理,得到第一融合特征,并将所述第一融合特征输入韵律节奏预测模型,输出韵律节奏特征;对所述第二声学特征和所述韵律节奏特征进行所述拼接处理,得到第二融合特征,并将所述第二融合特征输入语音检测模型,输出语音检测结果。

    麦克风阵列语音增强的方法、装置、电子设备及存储介质

    公开(公告)号:CN113889137A

    公开(公告)日:2022-01-04

    申请号:CN202111473848.2

    申请日:2021-12-06

    Abstract: 本申请涉及一种麦克风阵列语音增强的方法、装置、电子设备及存储介质,所述方法包括:通过麦克风阵列获取已知声源方向的待增强语音信号;提取所述待增强语音信号的频谱特征和方向相干特征;将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中,得到所述待增强语音信号的增强后傅里叶系数;对所述待增强语音信号的增强后傅里叶系数进行逆傅里叶变换,得到增强后语音信号,本申请通过语音增强网络实现了波束形成的滤波操作,并且波束形成的权重系数基于数据驱动的监督性学习方法训练得到,更接近实际应用场景,以提高语音增强效果。

    语音拼接点检测方法及存储介质

    公开(公告)号:CN113555007B

    公开(公告)日:2021-12-14

    申请号:CN202111116267.3

    申请日:2021-09-23

    Abstract: 本公开涉及一种语音拼接点检测方法及存储介质,上述方法包括:获取待检测语音,并确定所述待检测语音的高频成分和低频成分;根据所述高频成分和所述低频成分提取所述待检测语音所对应的第一倒谱特征和第二倒谱特征;以帧为单位,拼接所述待检测语音中的每一帧语音中的第一倒谱特征和第二倒谱特征,得到参数序列;将所述参数序列输入神经网络模型,输出所述待检测语音所对应的特征序列,其中,所述神经网络模型已通过训练,学习并保存有参数序列与所述特征序列之间的对应关系;根据所述特征序列对所述待检测语音进行语音拼接点检测。采用上述技术手段,解决现有技术中,通过单一的声学特征对语音拼接点进行检测,语音拼接点检测的准确率低的问题。

    一种融合组合模型信息的语音鉴别模型压缩方法

    公开(公告)号:CN113362814B

    公开(公告)日:2021-11-09

    申请号:CN202110910114.X

    申请日:2021-08-09

    Abstract: 本发明提供一种融合组合模型信息的语音鉴别模型压缩方法,包括:采集目标模型的训练数据;提取所述目标模型的训练数据的声学特征;从目标模型的训练数据中提取样本标签信息,作为硬标签信息;同时采用前向计算方法,得到组合模型的后验概率信息;将组合模型的后验概率信息与硬标签信息进行线性插值,得到组合模型的监督概率信息;利用组合模型的监督概率信息辅助目标模型进行训练,通过最小化目标模型和组合模型的概率分布距离,得到训练后的目标模型。

    基于音素时长特征的虚假语音检测方法及装置

    公开(公告)号:CN113284513B

    公开(公告)日:2021-10-15

    申请号:CN202110841276.2

    申请日:2021-07-26

    Abstract: 本发明提供基于音素时长特征的虚假语音检测方法,包括:从音频训练数据中提取声学特征;利用音频训练数据对深度学习网络进行预训练,得到预训练深度学习网络;应用预训练深度学习网络的最后n层的隐含特征作为中间变量,提取音素时长特征向量;将所述声学特征和所述音素时长特征向量作为输入,输入到判别器进行训练;应用音频测试数据,重复步骤S1‑S3,得到测试数据的声学特征和音素时长特征向量,将测试数据的声学特征和音素时长特征向量输入到训练好的判别器,得测试语音的真伪检测结果。

    一种融合多模态语义不变性的语音识别文本增强系统

    公开(公告)号:CN113270086B

    公开(公告)日:2021-10-15

    申请号:CN202110815743.4

    申请日:2021-07-19

    Abstract: 本发明提供一种融合多模态语义不变性的语音识别文本增强系统,包括:声学特征提取模块、声学降采样模块、编码器和融合多模态语义不变性的解码器;声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧,对短时音频帧提取声学特征,将声学特征输入到声学降采样模块进行降采样,得到声学表示;将语音数据输入现有语音识别模块,得到输入文本数据,将输入文本数据输入到编码器,得到输入文本编码表示;将声学表示和所述输入文本编码表示输入到解码器融合,声学模态和文本模态的表示进行相似性约束,得到解码表示;该方法通过融合跨模态语义不变性约束损失,减少模型对数据的依赖,提高模型的性能,适用于中英混合语音识别。

    一种层级分类的生成音频溯源方法及存储介质、计算机设备

    公开(公告)号:CN113488027A

    公开(公告)日:2021-10-08

    申请号:CN202111046475.0

    申请日:2021-09-08

    Abstract: 本发明提供层级分类的生成音频溯源方法及存储介质、计算机设备,包括:提取训练音频的声学特征;将所述训练音频的声学特征输入二分类模型,进行二分类模型训练,得到训练后的二分类模型;将生成的训练音频依据其生成的方法打上不同标签,再将生成的训练音频的声学特征输入多分类模型进行训练,得到训练后的多分类模型;提取测试音频的声学特征,将所述测试音频的声学特征输入所述训练后的二分类模型,进行真实/生成语音的判别,如果判别为真实,则预测终止,如果判别为生成,则将生成的测试音频的声学特征输入所述训练后的多分类模型预测其生成来源类型。

    语音控制方法、装置、电子设备及存储介质

    公开(公告)号:CN113436629A

    公开(公告)日:2021-09-24

    申请号:CN202110997178.8

    申请日:2021-08-27

    Abstract: 本申请涉及一种语音控制方法、装置、电子设备及存储介质,所述语音控制方法,包括以下步骤:获取已知唤醒词的音节;确定与所述唤醒词对应的非唤醒词的音节;根据所述唤醒词的音节、所述非唤醒词的音节和预设的垃圾词信息构建唤醒词解码网络,以根据所述唤醒词解码网络对输入的语音进行解码,并根据解码结果确定是否执行唤醒操作,本申请在解码网络中引入非唤醒词的音节从而统一描述非唤醒词,能够降低非唤醒词引起的误唤醒率。

    篡改音频的检测方法、装置及存储介质

    公开(公告)号:CN113421592A

    公开(公告)日:2021-09-21

    申请号:CN202110983510.5

    申请日:2021-08-25

    Abstract: 本公开涉及一种篡改音频的检测方法、装置及存储介质,上述方法包括:获取待检测信号,并分别通过低通滤波器和高通滤波器提取所述待检测信号的低频成分和高频成分;分别对所述低频成分和所述高频成分进行离散小波变换,并计算经过所述离散小波变换之后的低频成分对应的低频小波系数和经过所述离散小波变换之后的高频成分对应的高频小波系数;根据所述低频小波系数和所述高频小波系数,计算高低频能量比特征;根据所述高低频能量比特征对所述待检测信号进行篡改音频检测。采用上述技术手段,可以解决现有技术中,现有的检测篡改音频的方法的应用场景受限,在一些场景无法使用的问题。

Patent Agency Ranking