-
公开(公告)号:CN115083421B
公开(公告)日:2022-11-15
申请号:CN202210859650.6
申请日:2022-07-21
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本公开涉及一种自动寻参的语音鉴别模型的构建方法及装置,能自动调整超参数至最优,该方法包括:获取训练集中的语音数据;基于预训练语音特征提取模型,对语音数据进行特征提取,得到语音特征;将语音特征输入至轻量化可微结构并作为初始节点,根据搜索空间预定义的候选操作进行网络结构搜索,得到包含所有候选分支路径和候选节点的候选网络结构;其中候选操作表征从前一节点到后一节点的网络连接关系;将语音数据为真伪语音的真实结果作为训练标签,在训练过程中对候选网络结构的节点之间候选操作对应的结构权重进行调整;根据训练完成的结构权重,对候选网络结构进行精简,得到目标网络结构;根据目标网络结构,生成语音鉴别模型。
-
公开(公告)号:CN114937455B
公开(公告)日:2022-10-11
申请号:CN202210861977.7
申请日:2022-07-21
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G10L17/04 , G10L15/187 , G10L17/02 , G10L17/14 , G06K9/62
Abstract: 本公开涉及一种语音检测方法及装置、设备及存储介质,所述方法包括:接收待检测语音,根据待检测语音的编码状态序列中每一个编码状态向量及其对应的权重值确定语义声学特征;将待检测语音输入预先训练好的语音检测模型,将所述语音检测模型的隐藏层的输出作为语音声学特征;拼接所述语义声学特征和所述语音声学特征,并将拼接后的声学特征输入所述语音检测模型的输出层,输出待检测语音是真实的还是伪造的检测结果,结合待检测语音的语义声学特征检测语音的真伪,通过语义声学特征中待检测语音的编码状态向量与解码状态向量之间的相关性,能够结合待检测语音的上下文之间的相关性检测语音的真伪,提高检测的准确性。
-
公开(公告)号:CN115083421A
公开(公告)日:2022-09-20
申请号:CN202210859650.6
申请日:2022-07-21
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本公开涉及一种自动寻参的语音鉴别模型的构建方法及装置,能自动调整超参数至最优,该方法包括:获取训练集中的语音数据;基于预训练语音特征提取模型,对语音数据进行特征提取,得到语音特征;将语音特征输入至轻量化可微结构并作为初始节点,根据搜索空间预定义的候选操作进行网络结构搜索,得到包含所有候选分支路径和候选节点的候选网络结构;其中候选操作表征从前一节点到后一节点的网络连接关系;将语音数据为真伪语音的真实结果作为训练标签,在训练过程中对候选网络结构的节点之间候选操作对应的结构权重进行调整;根据训练完成的结构权重,对候选网络结构进行精简,得到目标网络结构;根据目标网络结构,生成语音鉴别模型。
-
公开(公告)号:CN114937455A
公开(公告)日:2022-08-23
申请号:CN202210861977.7
申请日:2022-07-21
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G10L17/04 , G10L15/187 , G10L17/02 , G10L17/14 , G06K9/62
Abstract: 本公开涉及一种语音检测方法及装置、设备及存储介质,所述方法包括:接收待检测语音,根据待检测语音的编码状态序列中每一个编码状态向量及其对应的权重值确定语义声学特征;将待检测语音输入预先训练好的语音检测模型,将所述语音检测模型的隐藏层的输出作为语音声学特征;拼接所述语义声学特征和所述语音声学特征,并将拼接后的声学特征输入所述语音检测模型的输出层,输出待检测语音是真实的还是伪造的检测结果,结合待检测语音的语义声学特征检测语音的真伪,通过语义声学特征中待检测语音的编码状态向量与解码状态向量之间的相关性,能够结合待检测语音的上下文之间的相关性检测语音的真伪,提高检测的准确性。
-
公开(公告)号:CN118366478A
公开(公告)日:2024-07-19
申请号:CN202410788550.8
申请日:2024-06-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种基于音素间隔序列的生成音频鉴别与生成区域定位方法,可以应用于人工智能技术领域。该方法包括:对生成音频鉴别请求中待鉴别音频信号的音素进行标记,得到被标记音素;根据被标记音素的连续出现频率,构建待鉴别音频信号的初始音素间隔序列;基于生成音频鉴别请求中携带的生成音频鉴别方式,对初始音素间隔序列进行处理,得到目标音素间隔序列;将目标音素间隔序列输入到生成音频鉴别模型中,通过对提取到的多尺度动力学特征进行分析,输出待鉴别音频信号的真伪鉴别结果。该方法可以适用于生成音频的真假二值鉴别,得到生成音频的整体真伪结果,也适用于区域伪造检测和定位,得到属于真实音频以及属于生成音频的区域定位结果。
-
公开(公告)号:CN116386602A
公开(公告)日:2023-07-04
申请号:CN202310624720.4
申请日:2023-05-30
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及计算机技术领域,具体而言涉及一种特征提取模型的训练方法和融合发音特征的语音鉴别方法,其中特征提取模型的训练方法包括:获取训练样本;根据训练样本对特征提取模型进行训练,生成训练数据;将训练数据分别输入到至少两个解码器中,生成至少两个预测音素序列;根据至少两个预测音素序列和训练样本,确定至少两个损失值;根据至少两个损失值,确定训练损失;根据训练损失,更新特征提取模型的参数。
-
公开(公告)号:CN114155875B
公开(公告)日:2022-05-03
申请号:CN202210120276.8
申请日:2022-02-09
Applicant: 中国科学院自动化研究所
Abstract: 本申请涉及一种语音场景篡改鉴别的方法、装置、电子设备及存储介质,所述语音场景篡改鉴别的方法,包括以下步骤:提取输入的待鉴别音频的对数功率谱的声学特征;将提取的待鉴别音频的对数功率谱的声学特征输入预先训练的语音场景篡改识别模型中,输出待鉴别音频场景是否被篡改的结果,其中,所述语音场景篡改识别模型由语音场景篡改后的音频与原始语音数据按照预设比例混合作为训练集训练得到的,本申请能够通过待鉴别音频的对数功率谱识别出语音的篡改,特别是能够应用于语音场景的篡改,从而应对语音场景篡改这一手段的危害。
-
公开(公告)号:CN118366478B
公开(公告)日:2024-10-11
申请号:CN202410788550.8
申请日:2024-06-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种基于音素间隔序列的生成音频鉴别与生成区域定位方法,可以应用于人工智能技术领域。该方法包括:对生成音频鉴别请求中待鉴别音频信号的音素进行标记,得到被标记音素;根据被标记音素的连续出现频率,构建待鉴别音频信号的初始音素间隔序列;基于生成音频鉴别请求中携带的生成音频鉴别方式,对初始音素间隔序列进行处理,得到目标音素间隔序列;将目标音素间隔序列输入到生成音频鉴别模型中,通过对提取到的多尺度动力学特征进行分析,输出待鉴别音频信号的真伪鉴别结果。该方法可以适用于生成音频的真假二值鉴别,得到生成音频的整体真伪结果,也适用于区域伪造检测和定位,得到属于真实音频以及属于生成音频的区域定位结果。
-
公开(公告)号:CN114155875A
公开(公告)日:2022-03-08
申请号:CN202210120276.8
申请日:2022-02-09
Applicant: 中国科学院自动化研究所
Abstract: 本申请涉及一种语音场景篡改鉴别的方法、装置、电子设备及存储介质,所述语音场景篡改鉴别的方法,包括以下步骤:提取输入的待鉴别音频的对数功率谱的声学特征;将提取的待鉴别音频的对数功率谱的声学特征输入预先训练的语音场景篡改识别模型中,输出待鉴别音频场景是否被篡改的结果,其中,所述语音场景篡改识别模型由语音场景篡改后的音频与原始语音数据按照预设比例混合作为训练集训练得到的,本申请能够通过待鉴别音频的对数功率谱识别出语音的篡改,特别是能够应用于语音场景的篡改,从而应对语音场景篡改这一手段的危害。
-
-
-
-
-
-
-
-