一种基于门控循环网络的麦克风阵列语音分离方法

    公开(公告)号:CN114283836A

    公开(公告)日:2022-04-05

    申请号:CN202111582907.X

    申请日:2021-12-22

    Abstract: 本发明公开了一种基于门控循环网络的麦克风阵列语音分离方法,采用子带SRP‑PHAT空间谱作为语音分离的特征参数,可以根据空间位置信息有效分离混合信号;采用的GRU网络是LSTM的一种变体,GRU在LSTM网络的基础上减少一个门限,用更新门代替了遗忘门和输出门,其训练参数更少、训练速度更快,且具有与LSTM相当的性能;在频域进行子带分解和目标语音分离,该处理方式减少了分离语音和重构信号过程中信号傅里叶变换和傅里叶逆变换的次数,降低了总运算量。本发明可以实现全向水平方位的语音分离,获得更好的分离语音质量和可懂度,且具有较好的鲁棒性和泛化能力。

    基于混合扩展块字典稀疏表示的单样本人脸识别方法

    公开(公告)号:CN113158812B

    公开(公告)日:2022-02-08

    申请号:CN202110321267.0

    申请日:2021-03-25

    Abstract: 本发明公开了一种基于混合扩展块字典稀疏表示的单样本人脸识别方法,包括步骤(S1):构建非目标对象的通用数据集X;步骤(S2):构建目标对象标准样本集N;步骤(S3):构建测试样本集Y;步骤(S4):构建非目标对象的遮挡块字典和类内差异块字典步骤(S5):根据上述步骤得到的混合完备扩展块字典采用SRC模型中的加权块稀疏表示分类器对目标对象待测样本y的B个块图像进行线性稀疏表示,以进行该待测样本的遮挡人脸识别。本发明首先对人脸图像分块,然后采用KDA算法分别构建目标对象的基本块字典,非目标对象的遮挡块字典和类内差异块字典,最后采用加权块稀疏表示分类器对待测样本进行准确预测,有效提高了单样本人脸识别的准确性。

    基于混合扩展块字典稀疏表示的单样本人脸识别方法

    公开(公告)号:CN113158812A

    公开(公告)日:2021-07-23

    申请号:CN202110321267.0

    申请日:2021-03-25

    Abstract: 本发明公开了一种基于混合扩展块字典稀疏表示的单样本人脸识别方法,包括步骤(S1):构建非目标对象的通用数据集X;步骤(S2):构建目标对象标准样本集N;步骤(S3):构建测试样本集Y;步骤(S4):构建非目标对象的遮挡块字典和类内差异块字典步骤(S5):根据上述步骤得到的混合完备扩展块字典采用SRC模型中的加权块稀疏表示分类器对目标对象待测样本y的B个块图像进行线性稀疏表示,以进行该待测样本的遮挡人脸识别。本发明首先对人脸图像分块,然后采用KDA算法分别构建目标对象的基本块字典,非目标对象的遮挡块字典和类内差异块字典,最后采用加权块稀疏表示分类器对待测样本进行准确预测,有效提高了单样本人脸识别的准确性。

    基于异构多尺度卷积循环网络的回声消除方法及系统

    公开(公告)号:CN119517061A

    公开(公告)日:2025-02-25

    申请号:CN202411576166.8

    申请日:2024-11-06

    Abstract: 本发明公开了基于异构多尺度卷积循环网络的回声消除方法及系统,首先基于多帧上下文提取相关特征模式构建相关编码器,再根据单帧提取频谱模式构建频谱编码器,接着采用相关编码器和频谱编码器组成异构多尺度编码器并获得多路编码特征;本发明实现了具有利用异构双路编码器从输入混合信号频谱和参考信号频谱中提取不同特征的功能,且为适应参考信号和混合信号之间的时延情况而采用相关性编码并从多帧频谱中提取相关性特征表达,同时为了加强当前帧的频谱分辨率而采用频谱编码从当前帧中提取频谱模式表达,还实现了对于双路特征具有进一步采用通道注意力特征软选择机制融合相关性特征编码和频谱编码的功能,适合被广泛推广和使用。

    一种基于融合空间特征的多通道语音增强方法

    公开(公告)号:CN119446166A

    公开(公告)日:2025-02-14

    申请号:CN202411674055.0

    申请日:2024-11-21

    Abstract: 本发明公开了一种基于融合空间特征的多通道语音增强方法,首先从带噪多通道语音中分别提取多通道复频谱特征和融合空间特征,再将提取的多通道复频谱特征和融合空间特征输入深度神经网络进行处理并设定处理目标为理想复值比率掩蔽,再构建基于复卷积编码器解码器结构的深度复卷积循环语音增强网络,再利用深度复卷积循环语音增强网络对多通道复频谱特征和融合空间特征进行处理,输出预测复值比率掩蔽。本发明充分整合光谱信息、方向特征、通道间特征和相关系数特征,并对动态声源进行空间建模,使得网络对于语音信号的理解和处理能力远超传统方法,能够有效应对复杂多变的语音场景,有效地提升静态场景和动态场景下的语音增强效果。

    基于核扩展块字典稀疏表示的遮挡人脸识别方法

    公开(公告)号:CN112966648A

    公开(公告)日:2021-06-15

    申请号:CN202110319459.8

    申请日:2021-03-25

    Abstract: 本发明公开了一种基于核扩展块字典稀疏表示的遮挡人脸识别方法,包括步骤(S1)):构建训练样本集X,将训练样本集X划分为B个训练块样本集步骤(S2):构建标准样本集N;步骤(S3):构建测试样本集Y;步骤(S4):构建训练块样本的遮挡字典和待测块样本的遮挡字典得到混合完备遮挡块字典步骤(S5):根据混合完备遮挡块字典采用SRC模型对待测样本进行线性稀疏表示分类,进行该待测样本的遮挡人脸识别。本发明通过对原始图像分块,构建块图像集,其目的是充分考虑非约束人脸图像数据的复杂性,以及人脸空间拓扑信息在遮挡人脸识别中的重要性,相比原始图像,块图像更集中关注人脸结构特征或遮挡信息,更有利于遮挡人脸的准确识别。

Patent Agency Ranking