-
公开(公告)号:CN112562706A
公开(公告)日:2021-03-26
申请号:CN202011376556.2
申请日:2020-11-30
Applicant: 哈尔滨工程大学
IPC: G10L21/02 , G10L21/0208 , G10L25/03
Abstract: 本发明提供一种基于时间潜在域特定说话人信息的目标语音提取方法,包括时间潜在域特征转换模型、目标说话人特征信息指导器与增强提取模块;待处理的复杂声学环境语音信息经过时间潜在域特征转换模型的处理将映射到潜在空间的特征矩阵,此特征矩阵将分别进入目标说话人特征信息指导器与增强提取模块;在目标说话人特征信息指导器中,特征矩阵将被判定为与某一特定的目标说话人潜在特征具有相关性,或者不包含目标说话人特征。本发明能实现从复杂声学环境语音信号到特定目标语音信号的端到端处理,能高效提取出针对特定任务的目标说话人信息,而不受其他干扰信号的影响,保障了模型传递给后续任务的特定目标语音信号具备极高的语音质量与可感知性。
-
公开(公告)号:CN112562706B
公开(公告)日:2023-05-05
申请号:CN202011376556.2
申请日:2020-11-30
Applicant: 哈尔滨工程大学
IPC: G10L21/02 , G10L21/0208 , G10L25/03
Abstract: 本发明提供一种基于时间潜在域特定说话人信息的目标语音提取方法,包括时间潜在域特征转换模型、目标说话人特征信息指导器与增强提取模块;待处理的复杂声学环境语音信息经过时间潜在域特征转换模型的处理将映射到潜在空间的特征矩阵,此特征矩阵将分别进入目标说话人特征信息指导器与增强提取模块;在目标说话人特征信息指导器中,特征矩阵将被判定为与某一特定的目标说话人潜在特征具有相关性,或者不包含目标说话人特征。本发明能实现从复杂声学环境语音信号到特定目标语音信号的端到端处理,能高效提取出针对特定任务的目标说话人信息,而不受其他干扰信号的影响,保障了模型传递给后续任务的特定目标语音信号具备极高的语音质量与可感知性。
-
公开(公告)号:CN111028277A
公开(公告)日:2020-04-17
申请号:CN201911256966.0
申请日:2019-12-10
Applicant: 中国电子科技集团公司第五十四研究所 , 哈尔滨工程大学
IPC: G06T7/33
Abstract: 本发明公开了遥感图像配准技术领域的基于伪孪生卷积神经网络的SAR和光学遥感图像配准方法,先对特征图像块的采集和匹配,再进行异常点去除和最终配准,采用了最大化正样本和难负样本之间的特征距离的策略,并且定义了新的损失函数对网络进行训练,伪孪生网络的两个分支通过卷积运算连接,得到两个输入图像块之间的相似性得分;本发明通过提出了伪孪生卷积神经网络体系结构,使得伪孪生网络的左分支和右分支能够分别输入不同大小的光学和SAR遥感图像,能够解决在极高分辨率下光学和SAR遥感图像中识别相应图像块的任务。
-
-