一种基于时空特征注意力模型的伪造音频检测方法及装置

    公开(公告)号:CN116935887A

    公开(公告)日:2023-10-24

    申请号:CN202310772789.1

    申请日:2023-06-28

    摘要: 本发明公开了一种基于时空特征注意力模型的伪造音频检测方法及装置,包括以下步骤:(1)构建一个基于时空特征注意力的检测模型;(2)基于已有的只包含平稳音频的英文公开数据集,对检测模型进行预训练;(3)混合中文音频数据集和英文音频数据集,同时引入不同音频信号失真手段,得到跨语言模态的复杂音频数据集;(4)对复杂音频数据集进行数据增强;(5)利用数据增强后的复杂音频数据集对预训练后的检测模型进行重新训练,通过将检测模型的能力迁移训练到复杂音频,得到最终检测模型;(6)将待检测的音频输入到最终检测模型,得到是否为伪造音频的检测结果。本发明能够在跨语言模态和存在信道扰动的情况下将伪造音频精准检测。

    一种针对说话人识别系统对抗样本的通用检测系统及方法

    公开(公告)号:CN116312548A

    公开(公告)日:2023-06-23

    申请号:CN202310123820.9

    申请日:2023-02-16

    IPC分类号: G10L17/02 G10L17/14

    摘要: 本发明公开了一种对说话人识别系统对抗样本的通用检测系统,包括包括多通道音频干扰模块,用于对输入的原始音频进行音频干扰,生成与原始音频对应的音频变种集合;说话人系统识别模块,用于将生成的音频变种集合输入至说话人识别系统中,提取音频变种集合对应的得分序列和判别结果序列;稳定性特征提取模块,用于对获得的得分序列和判别结果序列进行统计数特征提取,并将提取获得的特征值与得分序列进行联接,获得稳定性表示特征;单类别判别模块,根据稳定性表示特征,对输入的原始音频是否为对抗样本进行判断。本发明还公开了一种通用检测方法。本发明提供的系统可以可自适应多种情况下的对抗样本攻击检测,从而强化语音识别的安全性。

    基于变换域信息的帧内4×4预测模式选择方法

    公开(公告)号:CN101888549B

    公开(公告)日:2012-05-02

    申请号:CN201010205165.4

    申请日:2010-06-18

    申请人: 浙江大学

    IPC分类号: H04N7/26 H04N7/32

    摘要: 本发明公开基于变换域信息的帧内4×4预测模式选择方法,步骤如下:(1)对亮度宏块进行帧内16×16下各模式预测及SATD生成,选取SATD值最小模式作为帧内16×16下最佳预测模式并得到该最佳预测模式代价值;在进行帧内16×16下模式2 SATD生成时,修改传统的对各4×4子块的Hadamard变换处理方法,从其中间结果中提取各4×4子块方向信息,后对方向信息进行边缘方向直方图统计,得到候选模式集合,在进行帧内4×4预测模式选择时只在候选模式集合范围内搜索。(2)对亮度宏块的各4×4子块分别进行帧内4×4预测模式选择得到最佳预测模式以及帧内4×4下亮度宏块的代价值。(3)比较帧内16×16下最佳预测模式的代价值和帧内4×4下亮度宏块的代价值,从中选取亮度宏块的最佳预测模式。

    基于变换域信息的帧内4×4预测模式选择方法

    公开(公告)号:CN101888549A

    公开(公告)日:2010-11-17

    申请号:CN201010205165.4

    申请日:2010-06-18

    申请人: 浙江大学

    IPC分类号: H04N7/26 H04N7/32

    摘要: 本发明公开基于变换域信息的帧内4×4预测模式选择方法,步骤如下:(1)对亮度宏块进行帧内16×16下各模式预测及SATD生成,选取SATD值最小模式作为帧内16×16下最佳预测模式并得到该最佳预测模式代价值;其中,进行帧内16×16下模式2SATD生成时,修改传统的对各4×4子块的Hadamard变换处理方法,从其中间结果中提取各4×4子块方向信息,后对方向信息进行边缘方向直方图统计,得到候选模式集合,在进行帧内4×4预测模式选择时只在候选模式集合范围内搜索;(2)对亮度宏块的各4×4子块分别进行帧内4×4预测模式选择得到最佳预测模式,并得到帧内4×4下的亮度宏块的代价值。(3)比较帧内16×16下的最佳预测模式的代价值和帧内4×4下的亮度宏块的代价值,从中选取亮度宏块的最佳预测模式。

    一种基于宏块运动状态的H264快速模式选择方法

    公开(公告)号:CN102075751B

    公开(公告)日:2012-12-19

    申请号:CN201110005124.5

    申请日:2011-01-12

    申请人: 浙江大学

    发明人: 沈海斌 王琨

    IPC分类号: H04N7/26 H04N7/32

    摘要: 本发明公开了一种基于宏块运动状态的H264快速模式选择方法,该方法根据宏块的运动状态缩小模式搜索的范围,它首先利用可以自适应调整的率失真代价阈值对SKIP和INTRA模式进行预测,然后根据时间空间上相邻宏块的运动向量预测当前宏块的运动幅度,并根据当前宏块的运动幅度选择对应的候选模式进行模式选择;采用本发明的方法可以在视频质量几乎不受影响的条件下,降低视频编码的计算复杂度,大幅减少编码时间。

    一种基于宏块运动状态的H264快速模式选择方法

    公开(公告)号:CN102075751A

    公开(公告)日:2011-05-25

    申请号:CN201110005124.5

    申请日:2011-01-12

    申请人: 浙江大学

    发明人: 沈海斌 王琨

    IPC分类号: H04N7/26 H04N7/32

    摘要: 本发明公开了一种基于宏块运动状态的H264快速模式选择方法,该方法根据宏块的运动状态缩小模式搜索的范围,它首先利用可以自适应调整的率失真代价阈值对SKIP和INTRA模式进行预测,然后根据时间空间上相邻宏块的运动向量预测当前宏块的运动幅度,并根据当前宏块的运动幅度选择对应的候选模式进行模式选择;采用本发明的方法可以在视频质量几乎不受影响的条件下,降低视频编码的计算复杂度,大幅减少编码时间。