基于神经网络的多通道语音分离方法及装置

    公开(公告)号:CN119049500A

    公开(公告)日:2024-11-29

    申请号:CN202411092778.X

    申请日:2024-08-09

    Applicant: 武汉大学

    Abstract: 本申请涉及语音分离与提取技术领域,特别涉及一种基于神经网络的多通道语音分离方法及装置,其中,方法包括:构建特征提取模块;基于频谱建模单元、子带建模单元和全带建模单元,构建初始双路径快速转换器神经网络;构建掩码模块;基于特征提取模块、初始双路径快速转换器神经网络和掩码模块构建初始多通道语音分离模型;将目标多通道语音输入至初始多通道语音分离模型中,以目标掩码作为优化目标,优化目标参数,进而得到多通道语音分离模型,实现目标多通道语音的分离。由此,解决了相关技术中,无法满足轻量化、高鲁棒性和高泛化性等要求,适应复杂多变的声学环境,而参数量和计算量较大,又导致难以适应算力或内存有限的移动端设备等问题。

    一种基于事件相机的流体异常检测方法与系统

    公开(公告)号:CN118334573A

    公开(公告)日:2024-07-12

    申请号:CN202410292090.X

    申请日:2024-03-14

    Applicant: 武汉大学

    Abstract: 本发明属于异常检测技术领域,公开了一种基于事件相机的流体异常检测方法与系统。本发明首先收集事件相机捕捉的流体异常区域的事件数据,然后对采集到的事件数据进行标注并构建数据集,之后构建流体异常区域检测模型并利用数据集进行训练,得到训练好的流体异常区域检测模型,最后将待检测的事件数据输入至训练好的流体异常区域检测模型,输出检测结果信息。本发明能够及时、准确地对流体异常进行检测,还能够减少需要处理的数据量,能够节约存储空间。

    一种基于空间特征聚类的连续语音分离方法、系统及电子设备

    公开(公告)号:CN115171716B

    公开(公告)日:2024-04-19

    申请号:CN202210685077.1

    申请日:2022-06-14

    Applicant: 武汉大学

    Abstract: 本发明提供一种基于空间特征聚类的连续语音分离方法、系统及电子设备,包括以下步骤:读取待分离长语音并进行预处理;将待分离长语音由时域转化到时频域;获取说话人位置清单;将转化到时频域的待分离长语音进行分块获取多个第二分块语音,计算第二分块语音的第二方向向量,将第二方向向量的相位作为第二分块语音的第二空间方位特征;获取该第二分块语音的待分离声源方向向量;使用波束形成算法分离或增强语音;对待分离语音片段估计出的源的频谱进行短时傅里叶逆变换,得到分离语音时域波形,相邻的块通过比较共同的语音部分进行拼接,利用多通道会议语音中的说话人位置清单和空间信息,解决会议语音分离问题,提高会议转录效率与正确率。

    一种基于DFSMN模型的语音增强方法、装置和设备

    公开(公告)号:CN116884426A

    公开(公告)日:2023-10-13

    申请号:CN202310850216.6

    申请日:2023-07-11

    Applicant: 武汉大学

    Abstract: 针对现有的算法参数量和计算量较大的问题,本发明公开了一种基于DFSMN模型的语音增强方法、装置和设备,包括短时傅里叶变换模块、编码器模块、双路径DFSMN模块、掩码估计模块和短时傅里叶逆变换模块,其中短时傅里叶变换模块用于将带噪语音转化为复数谱,编码器模块用于将带噪语音复数谱转化为多尺度编码特征,双路径DFSMN模块用于对特征进行时间维度和频率维度建模,解码器用于对特征降维,掩码估计模块用于估计增强语音掩码。本发明具有较少的参数量和计算量,并且实现了较好的语音增强效果,有较强的实用性。

    一种基于电网频率的事件相机与光学相机时钟同步方法

    公开(公告)号:CN116760501A

    公开(公告)日:2023-09-15

    申请号:CN202310629904.X

    申请日:2023-05-30

    Applicant: 武汉大学

    Abstract: 本发明公开了一种基于电网频率的事件相机与光学相机时钟同步方法,步骤包括:1)提取光学相机记录的电网频率信号;2)提取事件相机记录的电网频率信号;3)采用线性归一化将提取的电网频率信号映射至相同范围;4)计算归一化后两个电网频率信号的互相关函数;5)获取互相关函数最大值点的坐标进行时间变换,变换结果即为事件流与视频图像帧输出的时间差值。本发明通过提取电网频率信号实现不同相机之间高精度的时钟同步,解决了当前由不同设备采集数据时无法高精度有效的时钟同步的问题。该方法不受视场差的影响,普遍适用于含有电网频率信号的事件流与视频图像帧数据,并可灵活的扩展到多相机应用场景,实现多个不同设备之间的高精度时钟同步。

    基于TS-VAD的通用语音提取方法
    36.
    发明公开

    公开(公告)号:CN116229984A

    公开(公告)日:2023-06-06

    申请号:CN202310135769.3

    申请日:2023-02-13

    Applicant: 武汉大学

    Abstract: 本发明公开了基于TS‑VAD的通用语音提取方法,包括:1)预训练的多尺度编码器对输入的混合录音和参考语音进行特征转换。2)预训练的嵌入提取出目标对象的嵌入向量。3)预训练语音提取网络建立目标语音的掩蔽。4)预训练多尺度语音解码器恢复目标语音波形。5)预训练后,固定预训练网络的多尺度编码器、嵌入向量提取网络和部分语音提取网络,6)微调网络的目标语音检测部分实现TS‑VAD概率向量估计。7)微调网络的目标语音提取部分估计出目标语音向量。8)微调网络二值化TS‑VAD概率向量,并与估计的目标语音向量相乘,得到最终输出语音。本发明在通用语音提取方面具有准确性,鲁棒性,并且在目标对象缺席的情况下能够有效地抑制静音对模型的负面影响。

    一种基于立体事件和强度相机的视频插帧方法及系统

    公开(公告)号:CN116208812A

    公开(公告)日:2023-06-02

    申请号:CN202310127298.1

    申请日:2023-02-15

    Applicant: 武汉大学

    Abstract: 本发明提供一种基于立体事件和强度相机的视频插帧方法及系统,属于图像处理技术领域,包括:采集原始图像帧和原始事件流;提取原始图像帧中的任意连续图像帧,基于任意连续图像帧确定帧间事件流;将任意连续图像帧和帧间事件流输入至卷积神经网络中进行训练,并基于模型训练得到的插帧结果与真实图像构建的损失函数,得到视频插帧模型;确定待处理图像帧和待处理帧间事件流输入至视频插帧模型,得到视频插帧结果。本发明综合利用基于卷积神经网络的强度相机和事件相机进行视频插帧,实现了两类数据在空间不对齐条件下的高质量立体视频插帧。

    强混响环境下基于矢量麦克风的多声源测向定位方法

    公开(公告)号:CN115754898A

    公开(公告)日:2023-03-07

    申请号:CN202211365560.8

    申请日:2022-10-31

    Applicant: 武汉大学

    Abstract: 本发明公开了一种强混响环境下基于矢量麦克风的多声源测向定位方法,包括:将矢量麦克风收集到的混合语音信号从波形域转换到时频域,得到观测信号的语谱图;采用频率平滑方法去除虚拟源单源时频点,并迭代生成低混响的自项源时频点集;构造导向向量字典;对自项源时频点集中的任意一个时频点,从导向向量字典中找到最有可能出现在该时频点的导向向量,再根据导向向量计算该视频点对应的源的STFT系数值,根据STFT系数值确定该时频点是否为不受混响干扰的单源时频点,并生成不受混响干扰的单源时频点集;采用平滑直方图方法估计源数目;采用MUSIC得到多源测向结果。本发明在时频域上能够精确提取不受混响干扰的单源时频点,进而实现准确的多源定位。

    一种基于空间特征聚类的连续语音分离方法、系统及电子设备

    公开(公告)号:CN115171716A

    公开(公告)日:2022-10-11

    申请号:CN202210685077.1

    申请日:2022-06-14

    Applicant: 武汉大学

    Abstract: 本发明提供一种基于空间特征聚类的连续语音分离方法、系统及电子设备,包括以下步骤:读取待分离长语音并进行预处理;将待分离长语音由时域转化到时频域;获取说话人位置清单;将转化到时频域的待分离长语音进行分块获取多个第二分块语音,计算第二分块语音的第二方向向量,将第二方向向量的相位作为第二分块语音的第二空间方位特征;获取该第二分块语音的待分离声源方向向量;使用波束形成算法分离或增强语音;对待分离语音片段估计出的源的频谱进行短时傅里叶逆变换,得到分离语音时域波形,相邻的块通过比较共同的语音部分进行拼接,利用多通道会议语音中的说话人位置清单和空间信息,解决会议语音分离问题,提高会议转录效率与正确率。

    一种能够优化楼道通行的报警系统

    公开(公告)号:CN205582198U

    公开(公告)日:2016-09-14

    申请号:CN201620357720.8

    申请日:2016-04-26

    Applicant: 武汉大学

    Abstract: 本实用新型涉及一种能够优化楼道通行的报警系统,包括发送主体盒,接收主体盒,集成电路板1与集成电路板2,集成电路板1包括单片机1、无线收发器芯片、红外线收发传感器,集成电路板2包括单片机2、无线收发芯片、蜂鸣器、指示灯。集成电路板置于接收或发送主体盒内;所述的发送主体盒放在一楼的楼梯口;接收主体盒置于高楼层的显眼处。该装置能够有效避免在楼道通行时人员的堵塞拥挤情况,有效地优化通行效率;通过统计红外线被反射的持续时间来判断楼道的拥挤情况;通过指示灯亮的颜色提醒楼上通行人员具体楼梯口的阻塞情况,以便于做出最优选择;通过蜂鸣器对所有楼梯口都拥堵时发出警告,通行人员可以在高楼层稍等片刻以便缓解通行压力。

Patent Agency Ranking