基于PANNs结构的口吃类型检测方法

    公开(公告)号:CN118969014A

    公开(公告)日:2024-11-15

    申请号:CN202411194757.9

    申请日:2024-08-29

    Inventor: 谭涛 丁卓 邵曦

    Abstract: 本发明涉及医疗检测技术领域,具体涉及一种基于PANNs结构的口吃类型检测方法,包括:获取原始训练数据并进行各种变换处理,生成具有多样性的训练数据,以增加训练数据的多样性,将具有多样性的训练数据置入PANNs‑CNN14模型中对PANNs‑CNN14模型进行预训练,基于预训练好的PANNs‑CNN14模型来提取声音的深层特征,精准的识别和分类不同的口吃类型,将PANNs‑CNN14模型输出进行解码转换为二进制标签,获得具体的口吃事件标签,完成对口吃事件的分类和识别,达到了不依赖于特定语言的语音识别特性,可以适应各种语言的音频数据,提高了系统的通用性和适应性的效果。

    一种拓展孔径双麦克风阵列宽带无模糊DOA估计方法

    公开(公告)号:CN118707439A

    公开(公告)日:2024-09-27

    申请号:CN202410837353.0

    申请日:2024-06-26

    Abstract: 本发明提出了一种拓展孔径双麦克风阵列宽带无模糊DOA估计方法,针对麦克风阵列拓展孔径产生相位模糊的问题,在用窄带MUSIC算法估计宽带信号声源DOA的任务上给出了基于聚类的解模糊方案。以开始出现相位模糊的频率点为界限,将整个频带分为两部分。对于无相位模糊的部分频率点,直接用窄带MUSIC算法估计信号的MUSIC谱,读取峰值坐标为当前频率点信号DOA估计结果;并用这部分频带信号的估计结果初始化聚类中心,引导存在相位模糊的部分频率点,对存在伪峰的谱函数进行修正,从修正后的谱函数上读取峰值坐标为当前频率点信号估计结果。从而实现全频带的无模糊DOA估计。该方法使得双麦克风阵列能够藉由拓展阵列孔径获得更准确的DOA估计结果。

    一种基于自适应步长LMS滤波器的广义旁瓣消除方法

    公开(公告)号:CN118571244A

    公开(公告)日:2024-08-30

    申请号:CN202410615296.1

    申请日:2024-05-17

    Abstract: 本发明提出了一种基于自适应步长最小均方误差滤波器的广义旁瓣消除方法,根据基于循环插值的双通道互相关算法和宽带MUSIC算法,利用麦克风阵列从音频中收集目标语音的波达方向信息,根据波达方向信息补偿麦克风阵列各通道音频间的时延,并将时延补偿后的音频在时频域上表示,作为波束形成部分的输入,分别计算时延补偿后的音频通过固定波束形成滤波器和阻塞矩阵后得到的固定波束形成结果和多路参考噪声信号;估计音频中噪声的功率谱密度。最后计算固定波束形成器输出和噪声抑制后的参考噪声的残差,作为当前帧算法的输出;再将该输出反馈给噪声抑制滤波器,计算下一帧噪声抑制滤波器的权值,从而消除残留的旁瓣噪声,达到降噪的目的。

    基于时频谱遮蔽的待修复语音的判别与修复方法、系统

    公开(公告)号:CN117437937A

    公开(公告)日:2024-01-23

    申请号:CN202311527659.8

    申请日:2023-11-16

    Abstract: 本发明公开了基于时频谱遮蔽的待修复语音的判别与修复方法、系统,该方法包括对原始语音进行处理,并应用掩码分别形成初始训练集的对照数据和性能测试数据集;提取原始语音和对照数据的频谱特征,将时域信号转化为频域信息,分别保存为原始数据集和对照数据集并打标签;构建基于频谱信息的频谱自注意力神经网络模型提取浅层和深层频谱信息特征,通过跳跃链接层链接特征,添加全连接神经网络,得到语音被掩码概率值;构建基于频谱自注意力的卷积神经网络模型,根据损失值进行反向传播,调整模型参数,判断该语音片段是否需要修复;将待修复和已修复音频,忽略时间标记后储存。本发明提高了在固定场景下的判别效率,实现了高精度的判别目标。

    基于空间视觉和统计关系蒸馏的持续语义分割方法及系统

    公开(公告)号:CN118379502B

    公开(公告)日:2024-10-11

    申请号:CN202410815453.3

    申请日:2024-06-24

    Abstract: 本发明公开基于空间视觉和统计关系蒸馏的持续语义分割方法及系统,属于持续语义分割领域;基于空间视觉和统计关系蒸馏的持续语义分割方法包括基于新旧模型的特征提取网络提取图片的多层特征,并划分为多尺度特征子区域;基于划分的特征子区域,建模特征图的空间视觉相似性关系以及空间统计相似性关系;基于知识蒸馏构建新旧模型特征图的空间视觉、统计相似性关系的一致性约束。能够很好地保存持续语义分割模型学习过的旧知识,同时减轻过于严格的特征或置信度一致性约束对于模型学习新知识的阻碍,从而提高持续语义分割任务的准确性。

    基于全局掩码的自监督语音增强方法

    公开(公告)号:CN118298839A

    公开(公告)日:2024-07-05

    申请号:CN202410332076.8

    申请日:2024-03-22

    Abstract: 本发明公开了一种基于全局掩码的自监督语音增强方法,包括训练阶段和测试阶段,构建的语音增强模型,包括特征提取模块、语音增强模块和全局掩码映射器,特征提取模块选用自监督学习模型WavLM,语音增强模块选用BLSTM作为主要框架;在WavLM模型中提出全局掩码,从而实现全局感知,补充语音重建所需要的信息,然后将提取到的声学特征传递到BLSTM模型中进行增强,最后提出全局掩码映射器,对所有被掩码的位置进行采样,并将所有盲点分配到同一层,从而允许损失函数一次性优化所有盲点,加速训练,得到全局去噪后的增强语音。本发明方法能够有效提高语音增强的性能,改善降噪效果,获得更高的语音感知质量和可懂度,实现高质量的语音增强。

    一种基于改进ESPRIT算法的宽带信号DOA估计方法

    公开(公告)号:CN118859102A

    公开(公告)日:2024-10-29

    申请号:CN202410837357.9

    申请日:2024-06-26

    Abstract: 本发明提出了一种基于改进ESPRIT算法的宽带信号DOA估计方法,将ESPRIT算法所需的阵元偶麦克风阵列通过麦克风复用简化为均匀线阵;并针对阵列位移矢量大于信号最小半波长时出现的相位卷绕问题,在用窄带ESPRIT算法估计宽带信号声源DOA的任务上给出了基于聚类的解卷绕方案。以开始出现相位卷绕的频率点为界限,将整个频带分为两部分。统计无相位卷绕的部分频率点信号DOA估计结果作为聚类中心的初始值,利用先验聚类中心对应的方向角引导存在相位卷绕的部分频率点信号进行相位解卷绕,从而避免拓展孔径阵列对中高频率信号DOA估计造成的误差,实现全频带的无相位卷绕DOA估计。该方法使得麦克风阵列能够藉由拓展阵列孔径获得更准确的估计结果。

    基于空间视觉和统计关系蒸馏的持续语义分割方法及系统

    公开(公告)号:CN118379502A

    公开(公告)日:2024-07-23

    申请号:CN202410815453.3

    申请日:2024-06-24

    Abstract: 本发明公开基于空间视觉和统计关系蒸馏的持续语义分割方法及系统,属于持续语义分割领域;基于空间视觉和统计关系蒸馏的持续语义分割方法包括基于新旧模型的特征提取网络提取图片的多层特征,并划分为多尺度特征子区域;基于划分的特征子区域,建模特征图的空间视觉相似性关系以及空间统计相似性关系;基于知识蒸馏构建新旧模型特征图的空间视觉、统计相似性关系的一致性约束。能够很好地保存持续语义分割模型学习过的旧知识,同时减轻过于严格的特征或置信度一致性约束对于模型学习新知识的阻碍,从而提高持续语义分割任务的准确性。

    一种基于局部差异信息辅助的小样本类增量音频分类方法

    公开(公告)号:CN118366475A

    公开(公告)日:2024-07-19

    申请号:CN202410415397.4

    申请日:2024-04-08

    Abstract: 本发明公开了一种基于局部差异信息辅助的小样本类增量音频分类方法,本发明包括计算模块预训练阶段和分类器融合阶段,将音频分类数据集样本按照类别划分为基类、伪新类和新类,这三个类别互不重叠;所述计算模块预训练阶段为训练特征提取网络,基类分类器和小样本分类权重生成器;所述分类器融合阶段为:从基类中选取每个类别的代表性样本与新类样本混合得到混合样本,将基类分类器与新类分类器级联输入到知识保存模块中,基于混合样本训练知识保存模块,输出能够同时识别基类和新类的统一分类器。本发明改善了相似的新类与基类之间的混淆问题,提高了模型同时识别基类和新类的准确率。

Patent Agency Ranking