-
公开(公告)号:CN111956259B
公开(公告)日:2021-07-06
申请号:CN202010815366.X
申请日:2020-08-13
Applicant: 厦门大学
Abstract: 本申请公开了一种基于深度神经网络架构的肺音识别方法,包括:建立支气管仿真模型,设置仿真条件仿真得到肺音的声压级频谱,再计算出声压级频谱包络曲线,其中,声压级频谱包括声压级和频率之间的关系;基于声压级频谱及其包络曲线,确定肺部声学滤波器组;将肺音数据进行傅里叶变换后,通过肺部声学滤波器组得到滤波后的频谱,再进行倒谱分析和离散余弦变换,得到肺音数据的声学特征;利用深度神经网络架构建立端到端肺音识别系统,输入为肺音数据声学特征,输出为肺音类别;将待识别肺音数据的声学特征输入到训练好的端到端系统中,以识别待识别肺音数据的肺音类别。本申请还提供了一种肺音识别装置、一种计算设备以及一种计算机可读存储介质。
-
公开(公告)号:CN112133282A
公开(公告)日:2020-12-25
申请号:CN202011159299.7
申请日:2020-10-26
Applicant: 厦门大学
Abstract: 一种轻量级多说话人语音合成系统及电子设备,该系统包括:文本特征提取和规整模块、说话人特征提取模块、特征融合模块和语音生成模块。文本特征提取和规整模块用于采用轻量级编码器将待处理的文本信息进行编码和特征提取,并采用轻量级时长预测网络对轻量级编码器输出的文本深层特征对应的每个词或音素进行时长预测,以及用于进行长度规整处理,以得到与目标梅尔频谱长度相等的规整的文本特征。说话人特征提取模块用于生成能够表征目标说话人的特征。特征融合模块用于将目标说话人的特征与规整的文本特征进行融合。语音生成模块用于将融合后的特征进行深层特征提取、维度映射、残差整合以及生成语音。该系统支持多说话人语音合成且合成速度快。
-
公开(公告)号:CN110808508A
公开(公告)日:2020-02-18
申请号:CN201911029296.9
申请日:2019-10-28
Applicant: 厦门大学
Abstract: 本发明公开了一种单体全球充转换器,包括外壳、自适应插头、USB接口电源。所述自适应插头,分为固定插销和自适应伸缩插销,所述固定插销用于定位插头插座对接,自适应伸缩插销用于弹性的配各种插座的尺寸大小;所述外壳顶盖设有通用型插座口,可以兼容各国插头标准。该产品的插接方式操作简单方便,结构紧密,应用前景广阔。
-
公开(公告)号:CN110491391A
公开(公告)日:2019-11-22
申请号:CN201910590712.6
申请日:2019-07-02
Applicant: 厦门大学
Abstract: 本发明公开了一种基于深度神经网络的欺骗语音检测方法,包括:步骤A,根据用户已有的已知真伪的语音数据训练并建立基于深度神经网络的欺骗语音检测模型,所述欺骗语音检测模型具有网络参数;步骤B,将待测试的测试语音在所述已训练好网络参数的欺骗语音检测模型进行分类判别,判断出该测试语音是真实语音还是欺骗语音。它具有如下优点:支持检测新型未知的语音合成、语音转换和录音回放等欺骗攻击。
-
公开(公告)号:CN117789692A
公开(公告)日:2024-03-29
申请号:CN202410021101.0
申请日:2024-01-08
Applicant: 厦门大学
Abstract: 本发明公开了一种融合位置和音频通用表征的双耳音频生成方法及系统,其特征在于,包括,S1,制作视频帧数据集和音频数据集;S2,对音频数据集进行短时傅里叶变换和计算,得到对应的复数谱图、幅度谱图和相位谱图;S3,将视频帧数据集、音频数据集及其对应的谱图输入包含相对位置信息提取器、音频通用表征提取器、掩膜生成模块的双耳音频还原模型中进行训练和优化;S4,基于训练好的所述双耳音频还原模型进行双耳音频还原。本发明提出的网络模型能够有效提取视频帧中声音源的相对位置信息,获得更有效的音频通用表征,用于引导双耳音频的生成,从而提升系统性能。
-
公开(公告)号:CN116110403A
公开(公告)日:2023-05-12
申请号:CN202310055469.4
申请日:2023-01-17
Applicant: 厦门大学
Abstract: 本申请提出一种声纹识别模型生成方法,其包括:S1,对无标注的第一音频数据集U进行初始伪标签标注;S2,将U中的每条音频数据切段为时长相同的多段音频数据;继承切段前的伪标签标注,生成第二音频数据集S3,将送入声纹识别模型,并引入标签纠正策略训练声纹识别模型,获得标签纠正的第三音频数据集S4,将送入声纹识别模型进行训练;S5,提取声纹识别模型的表征向量并送入聚类模块,生成标签更新的第二音频数据集重复执行S3‑S5直至完成指定的训练轮次。上述方法利用纠正策略提升伪标签的准确率,缓解错误的伪标签对训练的影响;同时,基于语音预训练模型的子结构(Sub‑PTM)构建表征学习模块,进一步提高模型的声纹识别性能。
-
公开(公告)号:CN111276131B
公开(公告)日:2021-01-12
申请号:CN202010073244.8
申请日:2020-01-22
Applicant: 厦门大学
Abstract: 本申请公开一种基于深度神经网络的多类声学特征整合方法和系统。包括利用已知语音数据训练并建立基于深度神经网络的多类声学特征整合模型,以确定或更新多类声学特征整合模型的网络参数;将从待测语音中提取的多类声学特征输入已训练好的具有网络参数的多类声学特征整合模型中,并提取帧级别深度整合特征向量或段级别深度整合特征向量。该方案支持语音识别、语音唤醒、语种识别、说话人识别、防录音攻击欺骗等语音任务中多种声学特征整合向量的提取,可根据实际语音任务充分挖掘多种声学特征的内在联系,用于改善语音任务应用的识别精准度和稳定性。
-
公开(公告)号:CN111956259A
公开(公告)日:2020-11-20
申请号:CN202010815366.X
申请日:2020-08-13
Applicant: 厦门大学
Abstract: 本申请公开了一种基于深度神经网络架构的肺音识别方法,包括:建立支气管仿真模型,设置仿真条件仿真得到肺音的声压级频谱,再计算出声压级频谱包络曲线,其中,声压级频谱包括声压级和频率之间的关系;基于声压级频谱及其包络曲线,确定肺部声学滤波器组;将肺音数据进行傅里叶变换后,通过肺部声学滤波器组得到滤波后的频谱,再进行倒谱分析和离散余弦变换,得到肺音数据的声学特征;利用深度神经网络架构建立端到端肺音识别系统,输入为肺音数据声学特征,输出为肺音类别;将待识别肺音数据的声学特征输入到训练好的端到端系统中,以识别待识别肺音数据的肺音类别。本申请还提供了一种肺音识别装置、一种计算设备以及一种计算机可读存储介质。
-
公开(公告)号:CN106027261B
公开(公告)日:2018-12-21
申请号:CN201610329181.1
申请日:2016-05-18
Applicant: 厦门大学
Abstract: 基于FPGA的LUKS认证芯片电路及其密码恢复方法。芯片电路设控制、密码生成、3个用户密钥PBKDF2、用户密钥选择、AES128密钥扩展、AES128解密、BRAM存储、反取证合并、哈希校验值PBKDF2和比较共12个模块。密码恢复方法:FPGA处理器解析加密的LUKS镜像文件获取认证需要的数据;处理器将认证需要的数据写入控制模块的寄存器;处理器向LUKS认证芯片电路发送启动信号,芯片电路进行密码恢复;处理器启动芯片电路后监测芯片电路控制模块中状态寄存器,获取认证是否完毕及认证是否成功的信息;处理器监测到认证完毕,若成功,向控制台输出认证恢复的密码;若失败,输出密码恢复失败信息。
-
公开(公告)号:CN120045998A
公开(公告)日:2025-05-27
申请号:CN202510118853.3
申请日:2025-01-24
Applicant: 厦门大学
IPC: G06F18/241 , A61B7/00 , G10L25/66 , G10L25/30 , G10L25/24 , G06F18/2415 , G06F18/22 , G16H50/20 , G16H50/70
Abstract: 本发明提出了一种利用谱图面积对比学习进行肺音分类的方法和系统,包括:先对肺音音频数据进行预处理,包括8kHz重采样、填充至8s,用加噪和变速增强数据,将经过预处理后的肺音音频数据生成MFCC谱图;搭建含肺音分类、上下文预测和正则化分支的模型,投影器由特定层堆叠构成,分类器为全连接层;各分支分别按相应处理和损失计算方式运行,以总损失函数训练模型。系统包含对应上述步骤的模块。该发明减轻域不匹配影响,提升肺音分类系统泛化能力,对正常和异常肺音分类性能均有提升,尤其在异常肺音分类上效果显著。
-
-
-
-
-
-
-
-
-