-
公开(公告)号:CN118887967A
公开(公告)日:2024-11-01
申请号:CN202411055465.7
申请日:2024-08-02
申请人: 东南大学
IPC分类号: G10L21/0208 , G10L21/0232 , G10L25/18 , G10L25/45 , G10L25/30
摘要: 本发明公开了一种基于增强注意力双路径卷积循环网络的语音增强方法及设备,方法包括:对含噪训练语音信号进行分帧、加窗处理,计算改进离散余弦变换谱图;构建增强注意力双路径卷积循环网络,由编码器模块、SimAM注意力块、双路径长短时记忆模块、解码器模块和hardtanh函数映射模块组成;将含噪训练语音的改进离散余弦变换谱图、纯净语音分别作为该网络的输入特征和标签,基于组合损失函数训练该增强注意力双路径卷积循环网络;将含噪测试语音信号的改进离散余弦变换谱图作为输入特征,增强注意力双路径卷积循环网络估计对应纯净语音的改进余弦变换谱图,逆变换后得到时域的增强语音。本发明实现了在较小参数量和计算量情况下获得了更好的感知语音质量。
-
公开(公告)号:CN114938487A
公开(公告)日:2022-08-23
申请号:CN202210521817.8
申请日:2022-05-13
申请人: 东南大学
IPC分类号: H04R25/00
摘要: 本发明公开了一种基于声场景判别的助听器自验配方法。首先获取患者用户数据,利用所提的相似度匹配算法和优化后的声场景判别算法来精准匹配与患者相似的以往患者参数群,作为该患者的子参数群。其次,针对子参数群做抽样对比操作,根据每次反馈的对比偏好度优化子参数群,对比结束后可获一组初始最优参数。然后,患者用户对初始最优参数形成的测试语音做5级评价,并通过问题引导与深度学习算法相结合的新方式细致调节增益直至患者评价满意为止。更加符合患者个性化需求,进一步提高了助听器参数的精准性以及患者满意度。
-
公开(公告)号:CN111948609A
公开(公告)日:2020-11-17
申请号:CN202010872003.X
申请日:2020-08-26
申请人: 东南大学
摘要: 本发明公开了一种基于Soft-argmax回归器的双耳声源定位方法,属于声源定位技术领域。在子带内计算双耳声信号的互相关函数和耳间强度差,将不同子带的互相关函数和耳间强度差拼接成二维数据作为特征参数,对Soft-argmax回归器进行训练;测试过程中计算测试双耳声信号的互相关函数和耳间强度差作为二维特征参数,利用训练好的Soft-argmax回归器估计每帧双耳声信号对应的方位角。其步骤简单,鲁棒性良好,在高噪声和强混响干扰的场景中对目标生源定位精度高。
-
公开(公告)号:CN110728989A
公开(公告)日:2020-01-24
申请号:CN201910930176.X
申请日:2019-09-29
申请人: 东南大学
IPC分类号: G10L21/0272 , G10L25/30
摘要: 本发明公开了一种基于长短时记忆网络LSTM的双耳语音分离方法。本发明提取训练双耳语音信号每个时频单元的耳间时间差、耳间强度差以及耳间互相关函数作为分离的空间特征,将相同子带内,当前帧以及前后5帧时频单元的空间特征作为双向LSTM网络的输入参数进行训练,得到基于LSTM的分离模型。测试阶段,将测试双耳语音信号的当前帧以及前后5帧时频单元的空间特征作为训练得到的双向LSTM网络的输入参数,用于估计当前时频单元目标语音的掩蔽值,从而根据掩蔽值进行语音分离。分离结果表明,本发明提出的基于LSTM网络的双耳分离方法相比于基于深层神经网络的方法在主观评价指标上有较为明显提升,且算法泛化性能好。
-
公开(公告)号:CN107942290B
公开(公告)日:2019-10-11
申请号:CN201711138517.7
申请日:2017-11-16
申请人: 东南大学
摘要: 本发明公开了一种基于BP神经网络的双耳声源定位方法,本发明提取出双耳声信号的互相关函数与耳间强度差作为特征参数,用反向传播BP神经网络对特征参数进行建模。测试过程中根据测试双耳声信号的互相关函数和耳间强度差,利用神经网络估计每帧双耳声信号对应的声源方位。相对于现有技术,本发明鲁棒性和准确率有明显提高。
-
公开(公告)号:CN106373589A
公开(公告)日:2017-02-01
申请号:CN201610824648.X
申请日:2016-09-14
申请人: 东南大学
IPC分类号: G10L21/0272 , G10L21/0308
CPC分类号: G10L21/0272 , G10L21/0308
摘要: 本发明公布了一种基于迭代结构的双耳混合语音分离方法。利用双耳空间线索,耳间时间差ITD(Interaural Time Difference)和耳间强度差IID(Interaural Intensity Difference)参数,对混合语音中的多个声源进行初步定位,将初次定位的声源个数和各个声源的空间方位信息作为分离依据,实现基于空间方位信息的各个声源数据流的分离和重构;随后对重构后的语音信号重新估计声源方位,利用修正后的方位信息对混合语音进行再次分离;按照上述步骤重复迭代处理后,将最后一次分离重构的各声源数据流作为最终声源分离结果。在低信噪比和强混响环境下,本发明提出的基于迭代结构和空间信息的双耳语音分离方法相比传统的双耳语音分离方法,显著提高了分离语音的感知质量。
-
公开(公告)号:CN103347085B
公开(公告)日:2016-03-23
申请号:CN201310292145.9
申请日:2013-07-12
申请人: 东南大学
摘要: 本发明公开了一种云数据安全的多写入模型的公共审计设计方法,属于云计算安全技术领域。本方法包括如下步骤:(1)密钥分发阶段,实现把密钥材料从密钥服务器分发到云服务器CS、第三审计方TPA和多数据拥有者DOs。(2)数据写入阶段,该阶段多数据拥有者DOs需要就存储数据和签名与云服务器CS进行通信。(3)多写入模型审计阶段,第三审计方TPA对云服务器CS上的共享数据块集进行审计。本发明是一种既能降低审计协议的通信成本,又能降低审计方运算成本的公众审计方法。同时,它支持了现有方案所不能支持的多写入数据源授权和认证,满足了多写入者公共审计的新的安全和高效特点。
-
公开(公告)号:CN103347085A
公开(公告)日:2013-10-09
申请号:CN201310292145.9
申请日:2013-07-12
申请人: 东南大学
摘要: 本发明公开了一种云数据安全的多写入模型的公共审计设计方法,属于云计算安全技术领域。本方法包括如下步骤:(1)密钥分发阶段,实现把密钥材料从密钥服务器分发到云服务器CS、第三审计方TPA和多数据拥有者DOs。(2)数据写入阶段,该阶段多数据拥有者DOs需要就存储数据和签名与云服务器CS进行通信。(3)多写入模型审计阶段,第三审计方TPA对云服务器CS上的共享数据块集进行审计。本发明是一种既能降低审计协议的通信成本,又能降低审计方运算成本的公众审计方法。同时,它支持了现有方案所不能支持的多写入数据源授权和认证,满足了多写入者公共审计的新的安全和高效特点。
-
公开(公告)号:CN103227783A
公开(公告)日:2013-07-31
申请号:CN201310110638.6
申请日:2013-04-01
申请人: 东南大学
摘要: 本发明公开了一种云数据安全的一个有效的多写入者模型公共审计方法,属于云计算安全技术领域。本方法包括如下步骤:(1)密钥分布协议:密钥服务器利用密钥材料生成算法为DO,CS和TPA生成密钥材料;(2)写数据协议:通过签名算法和完整型校验算法完成DO和CS之间的互动,即DO对数据进行签名并将该数据和它对应的签名正确地存储在CS中;(3)多写入者审计协议:通过验证算法和证明算法完成TPA对CS中存储的由DOs写入的数据的审核。本发明能独立于数据拥有者的数量,减轻了CS的负担,同时还享有公开审计和隐私保护功能。
-
公开(公告)号:CN117373472A
公开(公告)日:2024-01-09
申请号:CN202311326300.4
申请日:2023-10-13
申请人: 东南大学
IPC分类号: G10L21/0216 , G10L21/0224 , G10L25/30
摘要: 本发明公开了一种基于时间自注意力卷积神经网络的语音增强方法及设备,方法包括:对含噪训练语音信号进行预处理,得到对数功率谱图和IRM;构建时间注意力卷积神经网络,包括依次连接的卷积模块、编码器模块、时间自注意力块、解码器模块和反卷积模块;将对数功率谱图和IRM,分别作为网络的输入特征和标签完成训练;将待增强的含噪测试语音信号通过预处理得到对数功率谱图和相位谱图;将含噪测试语音信号的对数功率谱图输入网络,得到对应理想比值掩膜估计值,根据理想比值掩膜估计值和相位谱图计算得到时域增强语音信号。本发明计算量小,效果更好。
-
-
-
-
-
-
-
-
-