-
公开(公告)号:CN115083422A
公开(公告)日:2022-09-20
申请号:CN202210859678.X
申请日:2022-07-21
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本公开涉及一种语音溯源取证方法及装置、设备及存储介质,所述方法包括:本提取待测试语音的至少两种不同的声学特征;对提取的待测试语音的至少两种不同的声学特征进行融合,得到第一融合声学特征;基于预先训练的语音溯源取证模型,从所述第一融合声学特征中提取帧级别的算法指纹特征,对帧级别的算法指纹特征进行池化平均,根据池化平均得到的特征加权平均向量和加权标准差向量计算段级别的算法指纹特征,以基于段级别的算法指纹特征预测出待测试语音的生成算法;将预测出的待测试语音的生成算法作为语音溯源取证结果,通过提取算法指纹,不仅可以判断音频的真实性,而且可以进一步溯源取证,得到虚假音频的生成来源。
-
公开(公告)号:CN113889137B
公开(公告)日:2022-04-01
申请号:CN202111473848.2
申请日:2021-12-06
Applicant: 中国科学院自动化研究所
IPC: G10L21/0216 , G10L21/0232
Abstract: 本申请涉及一种麦克风阵列语音增强的方法、装置、电子设备及存储介质,所述方法包括:通过麦克风阵列获取已知声源方向的待增强语音信号;提取所述待增强语音信号的频谱特征和方向相干特征;将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中,得到所述待增强语音信号的增强后傅里叶系数;对所述待增强语音信号的增强后傅里叶系数进行逆傅里叶变换,得到增强后语音信号,本申请通过语音增强网络实现了波束形成的滤波操作,并且波束形成的权重系数基于数据驱动的监督性学习方法训练得到,更接近实际应用场景,以提高语音增强效果。
-
公开(公告)号:CN114093342A
公开(公告)日:2022-02-25
申请号:CN202210078586.8
申请日:2022-01-24
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供细粒度韵律建模的语音生成模型、设备及存储介质,其中,模型包括:文本信息输入文本编码器模块,得到文本的编码特征;频谱信息输入韵律编码模块,得到音素级别的语音的韵律特征;语音的韵律特征输入解耦合模块,将语音的韵律特征中包含的文本内容信息和韵律信息解耦合,并只留下语音的韵律特征的韵律信息;文本的编码特征和语音的韵律特征的韵律信息输入解码器,生成合成语音。本发明提出的方案能够利用时长信息对音频进行时域的划分,韵律编码器可以建模语音的局部韵律信息以描述韵律的变化走势,同时韵律解耦合模块保证了韵律编码器模型只学习到语音的韵律信息而不包含文本信息。
-
公开(公告)号:CN113948085A
公开(公告)日:2022-01-18
申请号:CN202111577269.2
申请日:2021-12-22
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例公开了一种语音识别方法、系统、电子设备和存储介质,涉及语音识别技术领域。该实施例包括:对待识别音频进行编码表示,获得所述待识别音频的声学编码状态向量序列;对所述待识别音频的声学编码状态向量序列进行稀疏编码,获得声学编码稀疏向量;确定预设的词表中每一标签的文本预测向量;根据所述声学编码稀疏向量和所述文本预测向量,识别所述待识别音频,确定与所述待识别音频对应的文本内容。本发明实施例通过对待识别音频的声学编码状态向量进行稀疏编码,得到待识别音频的声学编码稀疏向量,从而降低编码帧数以实现降低计算代价,提升语音识别的速度。
-
公开(公告)号:CN113555037B
公开(公告)日:2022-01-11
申请号:CN202111103012.3
申请日:2021-09-18
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种篡改音频的篡改区域的检测方法、装置及存储介质,上述方法包括:获取待检测信号,并提取所述待检测信号的声学特征;将所述声学特征输入篡改区域检测模型,输出每帧所述待检测信号的标签,其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和所述标签的对应关系,所述标签用于表示所述待检测信号中每一帧信号是否被篡改;通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置。采用上述技术手段,解决现有技术中,根据音频的局部信息检测音频的篡改区域时,现有技术对音频的篡改区域检测准确率低的问题。
-
公开(公告)号:CN113555023B
公开(公告)日:2022-01-11
申请号:CN202111098690.5
申请日:2021-09-18
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种语音鉴伪与说话人识别联合建模的方法及系统,其中方法包括:前端信号处理:把训练数据通过信号重采样统一到一个固定采样率,得到信号处理后的训练数据;特征提取:对信号处理后的训练数据的每帧信号提取Fbank特征;表示向量提取:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将片段序列输入可以识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;语音鉴伪和说话人识别联合分类:定说话人识别网络的目标函数;定义语音鉴伪网路的目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个函数进行联合优化。
-
公开(公告)号:CN113724686A
公开(公告)日:2021-11-30
申请号:CN202111292710.2
申请日:2021-11-03
Applicant: 中国科学院自动化研究所
IPC: G10L13/033 , G10L19/16 , G10L25/30 , G06N3/04 , G06N3/08
Abstract: 本申请涉及一种编辑音频的方法、装置、电子设备及存储介质,所述方法包括:获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本;预测所述修改文本对应的音频持续时长;根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整,得到调整后的待编辑音频;基于预先训练的音频编辑模型,根据调整后的待编辑音频与修改后文本得到编辑后音频,本申请通过音频编辑模型得到的编辑后音频上下文听感自然,而且支持合成未出现在语料库中的新词的功能。
-
公开(公告)号:CN113314148B
公开(公告)日:2021-11-09
申请号:CN202110866648.7
申请日:2021-07-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供基于原始波形的轻量级神经网络生成语音鉴别方法和系统,包括:按固定采样率对音频文件进行采样,得到所述音频文件的原始波形点,再将所述原始波形点切分为原始音频帧,得到原始音频帧序列;第一层为固定的一维卷积层,所述一维卷积层之后为常规模块和降维模块相互堆叠的结构,再之后是平均池化层,所述平均池化层之后为全连接层来构建搜索网络;将所述原始音频帧序列输入搜索网络,分别搜索常规模块和降维模块中每个神经元之间的最优操作连接,得到最优模型结构;应用所述原始音频帧序列训练搜索到的所述最优模型结构,得到训练好的搜索网络。
-
公开(公告)号:CN113555023A
公开(公告)日:2021-10-26
申请号:CN202111098690.5
申请日:2021-09-18
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种语音鉴伪与说话人识别联合建模的方法及系统,其中方法包括:前端信号处理:把训练数据通过信号重采样统一到一个固定采样率,得到信号处理后的训练数据;特征提取:对信号处理后的训练数据的每帧信号提取Fbank特征;表示向量提取:通过滑窗的方式将训练数据的Fbank特征切分成若干长度为T的片段序列,再将片段序列输入可以识别说话人的深度学习网络,得到说话人片段表示向量,并构造帧级别说话人识别损失函数;语音鉴伪和说话人识别联合分类:定义片段级别说话人识别目标函数;定义语音鉴伪目标函数;联合帧级别说话人识别损失函数、片段级别说话人识别目标函数和语音鉴伪目标函数三个目标进行联合优化。
-
公开(公告)号:CN113299315B
公开(公告)日:2021-10-15
申请号:CN202110852843.4
申请日:2021-07-27
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种无需原始数据存储的持续性学习生成语音特征的方法,包括:采集音频数据,提取音频声学特征,得到线性倒谱系数特征;应用所述线性倒谱系数特征对深度学习网络模型进行训练,得到源域模型;在源域模型的训练损失函数基础上加入了正则化损失,约束模型参数优化的方向,应用新采集的音频数据对所述源域模型进行模型参数更新,得到目标域模型。
-
-
-
-
-
-
-
-
-