-
公开(公告)号:CN119170055A
公开(公告)日:2024-12-20
申请号:CN202410951511.5
申请日:2024-07-16
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于师生模型的多任务约束端到端含噪语音情感识别方法,包括:提出一个端到端的基于师生模型的多任务约束网络,借鉴知识蒸馏的思想,完成教师模型的多任务训练后,采用已训练成熟的教师模型提炼出纯净、显著的情感特征,来指导学生模型的训练过程;引入了一种多级增强损失机制,使学生模型能够在中间层学习到教师模型从干净语音中提取的关键情感信息;采用了语音增强辅助任务的思想,将语音增强辅助任务与多级增强损失相结合;在测试阶段时,仅需关注学生模型中特定于语音情感识别分类的核心流程,有效地提升了测试的执行速率。本发明实现了噪声环境下的语音情感识别任务,使情感分类准确率提升,适用于智能客服和心理健康监测。
-
公开(公告)号:CN119170038A
公开(公告)日:2024-12-20
申请号:CN202410951123.7
申请日:2024-07-16
Applicant: 南京邮电大学
IPC: G10L21/0308 , G10L21/0264 , G10L25/30 , G06N3/0442 , G06N3/0455 , G06N3/0464
Abstract: 本发明公开了一种基于通道注意力机制和Transformer的端到端含噪语音分离方法,包括:构建了时序感知上下文通道注意力层,从特征的通道维度对其进行有效地过滤和筛选;同时,由于时序感知和上下文感知特性的存在,进一步提高了含噪下通道权重分配的合理性;其次,为了增强编码器输出的语音潜在特征的全局表达和建模能力,提出双向LSTM‑Transformer编码器层,其中带有双向LSTM的前馈层进一步丰富了多头注意力特征中的全局上下文信息,提升了编码器进行特征编码的有效性。本发明实现了在复杂噪声下语音分离系统性能的提升,并且在各种分离测试指标上均显示出提升,另外合理的特征筛选所带来的模型复杂度的降低和有效性的提升,使得本发明适合大多涉及人机交互的应用场景。
-
公开(公告)号:CN118782065A
公开(公告)日:2024-10-15
申请号:CN202410934275.6
申请日:2024-07-12
Applicant: 南京邮电大学
IPC: G10L21/0208 , G10L25/30 , G06N3/0464 , G06N3/048
Abstract: 本发明公开了一种基于选择性状态空间模型的含噪语音分离方法,属于语音分离技术领域。该方法在时域语音分离框架中引入具有选择机制的Mamba来设计U型选择性语音分离模块(UMamba),以提高模型对噪声和语音的区分能力,从而减少含噪语音分离任务中的信号和噪声的误分配问题,并降低了模型的参数量。该方法首先使用一维卷积提取语音特征,然后利用设计的U型选择性语音分离模块(UMamba)进行语音分离,并通过特征精炼器(FeaturePcs)进一步增强分离后的语音特征,最后通过一维反卷积层恢复语音信号,实现端到端的语音分离。最后对所提出的方法进行性能评估,本发明保持很小的模型参数量但能取得优秀的性能,是一种对资源有限的用户十分友好的方法。
-
公开(公告)号:CN117219109A
公开(公告)日:2023-12-12
申请号:CN202311342274.4
申请日:2023-10-17
Applicant: 南京邮电大学
IPC: G10L21/0216 , G10L21/0264 , G10L25/30 , G10L25/03 , G06N3/0464 , G06N3/044 , G06N3/08
Abstract: 本发明公开一种基于结构化状态空间序列模型的双分支语音增强算法,包括:获取含噪语音的幅度谱和复数谱特征,并将其分别输入幅度粗略估计分支和复数细化估计分支,得到粗略估计的语音和细化之后的语音的实虚分量;引入交互模块实现幅度谱和复数谱特征在两分支之间的流动;将粗略估计的语音和细化之后的语音的实虚分量叠加,重建目标信号复数谱;对基于结构化状态空间序列模型的双分支增强算法进行性能评估。本发明同时估计幅度谱和复数谱并引入交互模块促进信息交流,使从一个分支学习到的特征能补充另一个分支缺失的信息;本发明使用一种对角化的状态空间模型对语音特征序列进行建模,既减少模型的参数量,又提升算法性能。
-
公开(公告)号:CN116721677A
公开(公告)日:2023-09-08
申请号:CN202310892828.1
申请日:2023-07-20
Applicant: 南京邮电大学
IPC: G10L25/63 , G10L25/30 , G10L25/03 , G10L21/0208 , G10L25/18 , G10L21/0216
Abstract: 本发明提供了一种基于多任务协同注意门控网络的含噪语音情感识别方法,通过将语音情感分类主任务与语音增强次任务相结合的多任务协同注意门控网络,提高了特征的鲁棒性,在噪声环境下获得了优异的情绪识别性能;针对语音情感分类主任务,利用情感特征的通道和空间信息,融合局部特征和全局特征,提高了在语音情感识别系统中特征表达的可分辨性;模型中的次任务为语音增强,以降低噪声对深层特征的影响,通过共享表示学习使系统的整体鲁棒性得到加强,实现了噪声环境语音情感分类系统性能的提升。
-
公开(公告)号:CN114974295A
公开(公告)日:2022-08-30
申请号:CN202210533421.5
申请日:2022-05-13
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于共振峰分布的改进MFCC参数语音识别算法,包括分割语音频谱得到不同频谱区间,利用线性预测法和倒谱法分别估算一帧语音的共振峰频率分布;统计不同频谱区间上共振峰频率分布,依据共振峰在不同频谱区间上的分布,利用熵权法求取各个区间在一帧语音音频上的权重;进一步计算MFCC参数,依据Mel频率和实际频率的关系,找到MFCC参数对应的区间权重,进行乘积得到改进的MFCC参数。本发明采用了本发明通过熵权法对各频率区间求得权重系数(以三种方法分别求取的共振峰频率个数为标准),提取共振峰频率特征得到的权重系数与多通道梅尔滤波器组对应频率区间通道输出之间的乘积,从而能够实现较高的语音识别率。
-
公开(公告)号:CN102034478A
公开(公告)日:2011-04-27
申请号:CN201010547953.1
申请日:2010-11-17
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于压缩感知和信息隐藏的语音保密通信系统设计方法,嵌入系统将秘密语音嵌入载体语音得到混合语音,设计针对语音信号的压缩感知过完备字典,并将秘密语音用压缩感知自适应观测矩阵采样,得到降低维数的观测矢量,对观测矢量用LBG矢量量化,作为秘密信息嵌入载体语音,将载体语音经过两级变换得到混合语音;提取系统从混合语音中提取秘密语音,将混合语音进行离散余弦变换和提升小波变换两级变换得到小波变换系数,通过标量Costa解码算法得到秘密比特流,利用LBG矢量量化解码器得到重构的观测矢量,利用压缩感知正交匹配追踪算法重构秘密语音,再利用小波去噪方法改善重构秘密语音的音质。
-
公开(公告)号:CN119128578A
公开(公告)日:2024-12-13
申请号:CN202411050481.7
申请日:2024-08-01
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于状态空间模型跨模态交互的多模态情感识别方法,属于多模态情感识别技术领域,步骤包括:首先,提取语音和文本的低级特征,并采用对角线版本的结构化状态空间序列模型提取S4D特征,以便充分利用其独特的序列建模能力和鲁棒性的特征提取能力,有效捕获声音和文本数据复杂的时间相关性;其次,为了融合声音和文本的模态特征,本发明提出了多种跨模态融合策略来动态学习模态之间的权重;此外,为了更好地区分不同类别的情感,本发明设计了一个三元组损失,并将其与交叉熵损失相结合,以提高模型在情感分类中的准确性;最后,进行了消融实验,验证了该方法的有效性。本发明有效提升了多模态情感识别系统的性能和泛化能力。
-
公开(公告)号:CN119128577A
公开(公告)日:2024-12-13
申请号:CN202411050319.5
申请日:2024-08-01
Applicant: 南京邮电大学
IPC: G06F18/24 , G06F18/213 , G06F18/25 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种基于三模态Mamba交互和级联分层融合的多模态情感识别方法,步骤包括:首先,对语音、文本和视频进行编码提取深度特征,通过本发明提出的基于三模态Mamba交互模块捕获不同模态信息长距离的依赖关系,并利用不同模态信息间互补性得到多模态特征的增强表示;然后利用提出的级联分层融合机制来动态整合不同阶段的语义特征,获得语义丰富的多模态情感表示;最后,进行了消融实验,验证了该方法的有效性。本发明实现了对多模态情感识别的有效并行计算,提高了多模态情感识别系统的识别性能和泛化能力。
-
公开(公告)号:CN117494059A
公开(公告)日:2024-02-02
申请号:CN202311495480.9
申请日:2023-11-10
Applicant: 南京邮电大学
IPC: G06F18/26 , G06F18/214 , G06N3/045 , G06N3/0499 , G06N3/084 , G06Q50/20
Abstract: 本发明公开了一种基于注意力知识追踪的学习路径推荐方法,该方法同时考虑知识水平与知识结构对路径质量的影响,主要分为知识追踪、搜索空间优化与学习路径推荐三个部分。首先通过学习者的历史练习数据来训练知识追踪模型,并融入了注意力机制以精确预测学习者的知识水平变化。其次,基于知识结构在知识图谱中选取与上一步所学知识点相关联的知识点作为推荐候选集,优化学习路径推荐算法的搜索空间。最后,利用训练好的知识追踪模型预测学习者对候选集中知识点的掌握水平,将其作为多种约束规则的重要评判标准,从可解释性、合理性、有效性三个层面推出下一步推荐的知识点,最终形成动态的学习路径。
-
-
-
-
-
-
-
-
-