-
公开(公告)号:CN119625437B
公开(公告)日:2025-04-22
申请号:CN202510148813.3
申请日:2025-02-11
Applicant: 浙江大学
IPC: G06V10/764 , G06V10/82 , G06N5/04
Abstract: 本发明提供了一种图像敏感元素的审查系统、方法、计算机设备及介质,属于图像敏感元素审查技术领域。该系统包括图像预处理模块、初步判断模块、提取三元组模块、多头扩充模块和筛查去噪模块。图像预处理模块对图像进行预处理操作,得到待测图像。初步判断模块利用多模态大语言模型对待测图像和敏感词的相关度进行初步判断。提取三元组模块提取待测图像中的三元组信息,多头扩充模块对三元组中的每个单一词进行多头扩充,结合敏感词表寻找相关敏感词。筛查去噪模块对敏感词进行筛查去噪,判断敏感词是否真正出现在待测图像中,据此判定待测图像的安全性。本发明提高了图像敏感元素审查的准确性。
-
公开(公告)号:CN114822548B
公开(公告)日:2025-02-14
申请号:CN202210423544.3
申请日:2022-04-21
Applicant: 浙江大学
Abstract: 本发明公开了一种基于对抗样本的非侵入自适应说话人匿名系统及方法,系统包括多样目标说话人生成模块、任意对任意对抗扰动构造模块和不可感知对抗扰动优化模块,多样目标说话人生成模块根据所输入的目标标签按需生成目标说话人嵌入码,任意对任意对抗扰动构造模块根据所输入的目标说话人嵌入码构造对抗扰动,不可感知对抗扰动优化模块进一步优化所输入的对抗扰动得到人耳不可感知的对抗扰动。本发明可以实现任意对任意的说话人身份转换,将原始用户的声纹信息隐藏在一群目标说话人之中以自适应地躲避自动说话人辨认系统的身份检测,通过预训练的条件变分自编码器按需采样目标嵌入码极大释放了实际部署的计算和存储资源需求。
-
公开(公告)号:CN117876520A
公开(公告)日:2024-04-12
申请号:CN202410055134.7
申请日:2024-01-15
Applicant: 浙江大学
Abstract: 本发明公开了一种基于掩码的图像生成模型训练效率提升方法,属于图像生成技术领域。通过获取大量训练图像,确定图像数据的掩码方式和掩码率,得到数据集;在数据集中随时采样N张图像并分别进行随机遮盖;通过添加噪声和去噪训练在遮盖后的剩余图像上训练扩散模型,在完整图像上进一步训练扩散模型,直至模型收敛;最后基于收敛后的模型进行采样生成图片。本发明能够在不引入额外训练开销,保持低复杂度的情况下,直接在图像空间提升扩散模型训练效率,且提升了模型生成图像的质量。
-
公开(公告)号:CN116758899B
公开(公告)日:2023-10-13
申请号:CN202311008778.2
申请日:2023-08-11
Applicant: 浙江大学
Abstract: 本发明公开了一种基于语义空间扰动的语音识别模型安全性测评方法,包括(1)选择目标指令,将指令文本输入给预训练语音合成模型获得命令的原始语义特征、原始梅尔频谱和原始对齐信息;(2)初始化特征扰动为0;(3)将特征扰动加到命令的原始语义特征上,将加扰后的语义特征输入给语音合成模型的解码器,获得新的梅尔频谱和新的对齐信息;(4)将获得的梅尔频谱进行模糊化,并输入声码器获得音频;(5)将音频输入给待测目标语音识别模型获得识别结果;(6)如果识别结果和目标命令相同则保留音频;(7)计算损失并更新特征扰动;(8)回到步骤(3)直到扰动超过阈值或到达最大迭代次数;(9)检查最终是否通过步骤(6)保留了音频。
-
公开(公告)号:CN116758899A
公开(公告)日:2023-09-15
申请号:CN202311008778.2
申请日:2023-08-11
Applicant: 浙江大学
Abstract: 本发明公开了一种基于语义空间扰动的语音识别模型安全性测评方法,包括(1)选择目标指令,将指令文本输入给预训练语音合成模型获得命令的原始语义特征、原始梅尔频谱和原始对齐信息;(2)初始化特征扰动为0;(3)将特征扰动加到命令的原始语义特征上,将加扰后的语义特征输入给语音合成模型的解码器,获得新的梅尔频谱和新的对齐信息;(4)将获得的梅尔频谱进行模糊化,并输入声码器获得音频;(5)将音频输入给待测目标语音识别模型获得识别结果;(6)如果识别结果和目标命令相同则保留音频;(7)计算损失并更新特征扰动;(8)回到步骤(3)直到扰动超过阈值或到达最大迭代次数;(9)检查最终是否通过步骤(6)保留了音频。
-
公开(公告)号:CN116153331A
公开(公告)日:2023-05-23
申请号:CN202211533985.5
申请日:2022-12-01
Applicant: 浙江大学嘉兴研究院
Abstract: 本发明公开了一种基于跨领域自适应的深度伪造语音检测方法及装置,涉及语音检测技术领域。该方法包括:获取跨语种音频数据集;从跨语种音频数据集随机抽取的包含源语种及目标语种真伪音频数据的N个音频数据输入至特征提取器进行音频特征提取;将音频特征分别输入至真伪分类器、语种分类器、差异测量器,计算得到真伪分类损失参数、语种分类损失参数和语种间特征差异损失参数;根据真伪分类损失参数、语种分类损失参数和语种间特征差异损失参数,以减小总损失为优化目标,采用优化算法对神经网络模型进行参数优化及更新;重复上述步骤得到深度伪造语音检测模型,通过该深度伪造语音检测模型可实现对不同语种待测音频数据真伪的精确识别。
-
公开(公告)号:CN115830650A
公开(公告)日:2023-03-21
申请号:CN202211715794.0
申请日:2022-12-29
Applicant: 浙江大学嘉兴研究院
IPC: G06V40/12
Abstract: 本发明公开了一种针对受软件噪声影响的相机指纹的匹配方法及装置,该方法包括:获取待测图像Iq和目标匹配相机指纹Kr;根据所述待测图像Iq,提取对应的待测相机指纹Kq并与目标匹配相机指纹Kr计算基本相似度Cor_pair;估计目标匹配相机指纹Kr对应的设备型号和拍摄软件的软件噪声相似度Cor_software_noise;计算Cor_pair与Cor_software_noise的比值Ratio作为新的相机指纹相似度,并将比值Ratio与预设阈值对比,得到匹配结果。通过计算待测相机指纹与同型号其他设备相机指纹计算相似度并取平均值,估计软件噪声对相似度的影响程度,避开逆向工程等复杂方案推导软件噪声的产生过程。同时,通过比值的方式得出Ratio,直接判别待测相机指纹与目标匹配相机指纹之间的相似度中存不存在相同成分,得出匹配结果。
-
公开(公告)号:CN114598767A
公开(公告)日:2022-06-07
申请号:CN202210027042.9
申请日:2022-01-11
Applicant: 浙江大学
IPC: H04M1/72403 , H04M1/72433 , G10L15/16 , G01H1/00 , G06F40/289 , G06F40/35 , G06K9/00 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于惯性测量单元的跨设备手机语音信息恢复方法及系统,该方法通过在智能手机中读取惯性测量单元在手机因扬声器播放语音而振动时的数据。利用惯性测量单元读出的数据和信号处理技术,实现能够跨设备的手机语音信息恢复方法。系统包括数据采集模块、数据处理模块和预训练人工神经网络模型。有别于之前的基于惯性测量单元恢复手机语音的方法,本发明所提出的方法能够实现在200Hz的低采样率限制下的语音信息恢复,同时消除了设备特征,实现了跨设备语音信息恢复功能。
-
公开(公告)号:CN114093371A
公开(公告)日:2022-02-25
申请号:CN202111178765.0
申请日:2021-10-11
Applicant: 浙江大学
Inventor: 卢立 , 巴钟杰 , 任奎 , 其他发明人请求不公开姓名
Abstract: 本发明公开了一种基于神经网络生成模型的音素级声纹识别对抗样本构造系统和方法,系统包括音素识别器、扰动生成器、听感抑制器、替代分类器和系统优化器,听感抑制器生成受抑制扰动与音素识别器生成的对齐语音叠加生成对抗样本,对抗样本通过替代分类器分类将分数发送至系统优化器并将梯度反向传播给扰动生成器进行迭代更新,得到一个训练好的音素扰动生成器。本发明创新性地提出融合语音中的音素信息进行扰动构造,利用音素识别器识别和定位语音中的音素并在音素级别生成细粒度的通用对抗扰动,从而使得一步生成的对抗扰动能够重用于任意语音文本输入,最终实现文本无关、输入无关的通用对抗样本生成,极大提升对抗样本的生成效率。
-
公开(公告)号:CN113744731A
公开(公告)日:2021-12-03
申请号:CN202110913351.1
申请日:2021-08-10
Applicant: 浙江大学
Abstract: 本发明公开了一种多模态语音识别方法、系统及计算机可读存储介质,该方法包括:当目标毫米波信号和目标音频信号均包含目标用户对应的人声信息时,计算第一对数梅尔频谱系数和第二对数梅尔频谱系数,并将第一对数梅尔频谱系数和第二对数梅尔频谱系数输入到融合网络中,以确定目标融合特征;融合网络至少包括校准模块和映射模块;校准模块用于目标音频信号和目标毫米波信号进行相互特征校准;映射模块用于对校准后的毫米波特征和所述校准后的音频特征进行融合处理;将目标融合特征输入到语义特征网络中,以确定目标用户对应的语音识别结果。本发明能够达到高准确率语音识别的目的。
-
-
-
-
-
-
-
-
-