-
公开(公告)号:CN116778910A
公开(公告)日:2023-09-19
申请号:CN202310505872.2
申请日:2023-05-06
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G10L15/02 , G10L15/06 , G10L15/16 , G10L15/28 , G06F18/2135 , G06F18/241 , G06N3/0464 , G06N3/08
Abstract: 本申请提供了一种语音检测方法,包括:获取目标语音,将所述目标语音进行预处理,所述预处理包括预加重、分帧及加窗;确定所述预处理后目标语音的第一声道特征、第一声源波特征和多种第一相关特征;基于所述第一声道特征、第一声源波特征和多种第一相关特征确定所述第一主成分特征;将所述第一主成分特征输入训练好的分类器,输出分类的结果,所述分类结果为伪造语音,或自然语音。本申请利用伪造语音在基频处留下的痕迹信息,利用伪造语音与自然语音在声源和声道特征上的差异以实现伪造语音检测。使用主成分分析的方法分别对声源和声道特征进行筛选,选取具有较高相关性的主成分作为特征,减少特征维度和冗余特征,提高模型的泛化能力和效率。
-
公开(公告)号:CN110895933B
公开(公告)日:2022-05-03
申请号:CN201811030952.2
申请日:2018-09-05
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种基于空时残差神经网络的远场语音识别方法,所述方法包括:步骤1)构建并训练空时残差神经网络ST‑RES‑LSTM,该神经网络是在的空间和时间两个维度上都引入了残差结构的LSTM神经网络;步骤2)利用训练好的空时残差神经网络ST‑RES‑LSTM进行声学模型训练,并生成每一帧的分类概率;步骤3)构建语音识别解码网络,并使用步骤2)的训练好的声学模型进行维特比解码出最终识别结果。本发明的方法在LSTM网络的空间和时间两个维度都引入残差结构,既能缓解层数加深带来的梯度消失问题,又能缓解LSTM在时间维度存在的梯度消失问题,从而提高语音识别的性能。
-
公开(公告)号:CN110895933A
公开(公告)日:2020-03-20
申请号:CN201811030952.2
申请日:2018-09-05
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种基于空时残差神经网络的远场语音识别方法,所述方法包括:步骤1)构建并训练空时残差神经网络ST-RES-LSTM,该神经网络是在的空间和时间两个维度上都引入了残差结构的LSTM神经网络;步骤2)利用训练好的空时残差神经网络ST-RES-LSTM进行声学模型训练,并生成每一帧的分类概率;步骤3)构建语音识别解码网络,并使用步骤2)的训练好的声学模型进行维特比解码出最终识别结果。本发明的方法在LSTM网络的空间和时间两个维度都引入残差结构,既能缓解层数加深带来的梯度消失问题,又能缓解LSTM在时间维度存在的梯度消失问题,从而提高语音识别的性能。
-
公开(公告)号:CN115378884B
公开(公告)日:2023-09-15
申请号:CN202210462790.X
申请日:2022-04-27
Applicant: 国家计算机网络与信息安全管理中心
IPC: H04L47/32 , H04L47/31 , H04L69/22 , H04L61/4511
Abstract: 本发明实施例涉及一种DNS报文处理方法、装置、处理设备及存储介质,包括:根据第一设备对DNS报文的解析结果,获取所述DNS报文中头部字段的第一标记信息;根据所述第一标记信息,接收由所述第一设备发送的DNS报文对应的应答报文;第二设备识别所述应答报文中头部字段的第二标记信息;针对所述应答报文,将所述第二标记信息更新为初始状态值,得到目标报文;将所述目标报文发送至第三设备。通过追踪第一标记信息和第二标记信息,完成查看DNS报文的解析来源。由此,可以实现追踪DNS报文的解析来源的效果。
-
公开(公告)号:CN115379027B
公开(公告)日:2023-08-01
申请号:CN202210462789.7
申请日:2022-04-27
Applicant: 国家计算机网络与信息安全管理中心
IPC: H04L69/22 , H04L61/4511
Abstract: 本发明实施例涉及一种DNS报文解析改进方法、装置、改进设备及存储介质,包括:获取第一设备提供的进程以及进程对应的监听端口,监听端口对应设置有第一监听端口号;在接收到第二设备发送的DNS报文的解析请求时,通过第三设备将DNS报文中的第二监听端口号更新为第一监听端口号,得到携带有第一监听端口号的DNS报文;将该DNS报文发送至第一设备对应的进程,以返回DNS报文对应的携带有第一监听端口号的应答报文;将应答报文中的第一监听端口号更新为第二监听端口号,得到携带有第二监听端口号的应答报文;将该应答报文发送给第二设备,通过创建多进程和修改DNS报文对应端口号,完成DNS报文的解析处理。由此,可以实现提高DNS报文解析的处理效率的效果。
-
公开(公告)号:CN115379027A
公开(公告)日:2022-11-22
申请号:CN202210462789.7
申请日:2022-04-27
Applicant: 国家计算机网络与信息安全管理中心
IPC: H04L69/22 , H04L61/4511
Abstract: 本发明实施例涉及一种DNS报文解析改进方法、装置、改进设备及存储介质,包括:获取第一设备提供的进程以及进程对应的监听端口,监听端口对应设置有第一监听端口号;在接收到第二设备发送的DNS报文的解析请求时,通过第三设备将DNS报文中的第二监听端口号更新为第一监听端口号,得到携带有第一监听端口号的DNS报文;将该DNS报文发送至第一设备对应的进程,以返回DNS报文对应的携带有第一监听端口号的应答报文;将应答报文中的第一监听端口号更新为第二监听端口号,得到携带有第二监听端口号的应答报文;将该应答报文发送给第二设备,通过创建多进程和修改DNS报文对应端口号,完成DNS报文的解析处理。由此,可以实现提高DNS报文解析的处理效率的效果。
-
公开(公告)号:CN115378884A
公开(公告)日:2022-11-22
申请号:CN202210462790.X
申请日:2022-04-27
Applicant: 国家计算机网络与信息安全管理中心
IPC: H04L47/32 , H04L47/31 , H04L69/22 , H04L61/4511
Abstract: 本发明实施例涉及一种DNS报文处理方法、装置、处理设备及存储介质,包括:根据第一设备对DNS报文的解析结果,获取所述DNS报文中头部字段的第一标记信息;根据所述第一标记信息,接收由所述第一设备发送的DNS报文对应的应答报文;第二设备识别所述应答报文中头部字段的第二标记信息;针对所述应答报文,将所述第二标记信息更新为初始状态值,得到目标报文;将所述目标报文发送至第三设备。通过追踪第一标记信息和第二标记信息,完成查看DNS报文的解析来源。由此,可以实现追踪DNS报文的解析来源的效果。
-
公开(公告)号:CN117475988A
公开(公告)日:2024-01-30
申请号:CN202311393709.8
申请日:2023-10-25
Applicant: 中国科学院声学研究所
Abstract: 本发明涉及一种段落语音合成建模方法,所述方法包括:构建包括MSAE、MSTE和MSD的段落语音合成模型;以段落语音的线性频谱图和其对应的段落文本对为训练样本,构建训练样本集;以重建线性频谱图为任务,将KL损失的权重设置为不大于0.0001的值,训练MSAE和MSD;继续以重建线性频谱图为任务,逐渐增大KL损失的权重,训练MSAE和MSD;以重建语音波形为任务,继续逐渐增大KL损失的权重直至1,训练段落语音合成模型。还涉及了一种段落语音合成方法。本发明的方法,能够在单次推理中生成自然和富有表现力的高质量段落语音。
-
公开(公告)号:CN119207441B
公开(公告)日:2025-04-08
申请号:CN202411174387.2
申请日:2024-08-26
Applicant: 中国科学院声学研究所
IPC: G10L21/013 , G10L25/30 , G10L25/63
Abstract: 本发明属于智能数字信号处理技术领域,公开了一种可保留语音情感的说话人隐私保护方法及系统,方法包括:获取说话人的原始音频并输入到端到端情感语音融合模型;利用融合模型对原始音频进行推理,改变原始音频中的声纹信息,得到保留情感状态的伪说话人音频;融合模型包括先验编码器和波形解码器,先验编码器接收原始音频和说话人身份标识号ID,计算并利用原始音频的基频编码、内容编码、情感编码和说话人ID编码生成先验分布均值和方差;波形解码器将先验分布均值和方差还原成伪说话人音频。使用模型融合手段,既生成了未见的伪说话人音频,又避免了推理过程的“分布外”问题,解决了情感留存和伪说话人信息之间不匹配的问题。
-
公开(公告)号:CN115985289A
公开(公告)日:2023-04-18
申请号:CN202211582420.6
申请日:2022-12-09
Applicant: 中国科学院声学研究所
Abstract: 本发明涉及一种端到端语音合成方法,所述方法具体包括:构建包括HAE、HCE、HAD的层级条件变分自编码器模型;以最大化证据下界为训练目标,训练所述模型;合成语音波形。还涉及了装置,包括HAE、HCE、HAD、训练模块;其中,HAE包括:帧级、音素级、子词级、词级、句子级五级语音编码器,第一仿射模块;HCE包括:语言学表征提取模块、子词级、词级、句子级三级文本编码器;HAD包括:句子级、词级、子词级、音素级、帧级五级解码器,第二仿射模块。本发明的方法和装置,提升了合成语音的整体质量、自然性,以及韵律表现力。
-
-
-
-
-
-
-
-
-