-
公开(公告)号:CN117425212A
公开(公告)日:2024-01-19
申请号:CN202311372688.1
申请日:2023-10-23
Applicant: 南京邮电大学
IPC: H04W72/0457 , H04W72/0453 , H04W72/54 , H04N19/70 , H04W4/70
Abstract: 本发明公开了一种基于QoE的多模态码流模式选择与资源分配方法,该方法首先给出了视频、音频和触觉三个维度上反映用户体验的量化指标;然后将D2D通信与SVC编码、NOMA技术结合,针对不同场景下的多模态码流,设计对应的通信传输模式;接着,将所设计的传输模式选择与资源分配建立成问题模型,使用MOEA/D多目标遗传算法进行求解该问题模型,得到最优的系统模型。最终,通过在音视频满足度、触觉平均时延、系统吞吐量和能量利用率四个指标上的对比实验与分析,验证该方法能够提升系统性能。本发明很好地解决多模态码流难以高效传输的难点问题,确保了多模态用户在视、听、触多模态码流应用场景下的用户体验。
-
公开(公告)号:CN116405076A
公开(公告)日:2023-07-07
申请号:CN202310352272.7
申请日:2023-04-04
Applicant: 南京邮电大学
Abstract: 本发明公开了一种共生无线电安全传输鲁棒性波束成形方法及系统,有源RIS协助传输从主发射机到主用户的信息,同时作为次用户发射机,通过调制入射信号实现次信号传输。考虑PU周围存在窃听者,与窃听者相关信道的信道状态信息非完美可知。本发明提出联合优化PT处发射波束成形和有源RIS处反射波束成形,设计面向有界信道误差模型的安全传输鲁棒性波束成形方法,在满足安全速率和次用户性能指标的条件下,使得整个系统得的功率消耗最小,并比较本发明方法与无源RIS和单天线反向散射节点辅助方案的性能。仿真结果显示,在满足安全传输限制条件下,本发明方法可以大大减少系统的功率消耗。
-
公开(公告)号:CN119150216A
公开(公告)日:2024-12-17
申请号:CN202410949698.5
申请日:2024-07-16
Applicant: 南京邮电大学
IPC: G06F18/25 , G06F18/21 , G06F18/241 , G06N3/0455 , G06N3/0442 , G06N3/048 , G06N3/084 , G06N3/0985
Abstract: 本发明公开了一种基于Transformer模态内感知和模态间交叉融合的多模态情感识别方法,步骤包括:首先,对语音和文本进行编码提取深度特征,然后基于本发明提出的基于Transformer的模态内感知模块,捕获各个模态内部的长距离依赖关系,实现情感特征的局部感知学习,降低深度特征中的冗余信息;其次,为了融合未对齐的多模态序列信息,充分利用不同模态信息的互补性,本发明提出基于Transformer的模态间交互融合模块来捕捉不同模态间信息依赖关系,获得融合后的多模态全局信息;最后,进行了消融实验,验证了该方法的有效性。本发明实现了对多模态情感识别的有效并行计算,进一步提高多模态情感识别系统的识别性能和泛化能力。
-
公开(公告)号:CN119107963A
公开(公告)日:2024-12-10
申请号:CN202410954745.5
申请日:2024-07-17
Applicant: 南京邮电大学
IPC: G10L21/02 , G10L21/0316
Abstract: 本发明公开了一种基于多头注意力机制和Bi‑LSTM的复数去混响语音增强方法,属于语音增强技术领域。本发明在复数域进行去混响处理,首先将信号进行STFT变换得到复数谱,以充分地利用幅度和相位信息。然后将复数谱特征送入高级通道注意力机制HCA以融合特征。其次,为了能够捕捉输入序列内部不同位置之间的相关性并利用时间和频率信息捕捉语音关键成分,设计了一种时频双路径复多头注意力机制TF‑CMHA,更准确地识别语音成分并抑制混响成分。最后,引入了复乘法运算和联合约束损失函数,模拟幅值和相位之间的相关关系,获得更为精确的长时语音相关性的描述。本发明实现了对去混响语音增强系统性能的提升,使系统去混响后的语音在各种测量指标上均有提升,适用于语音前端处理。
-
公开(公告)号:CN119011084A
公开(公告)日:2024-11-22
申请号:CN202411075761.3
申请日:2024-08-07
Applicant: 南京邮电大学
IPC: H04L1/00 , H04B17/391 , G06F18/25 , G06F18/24 , G06V10/764 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/098 , G06N3/084 , G06F17/14
Abstract: 本发明公开了一种基于信源信道联合编码的触觉信号重建方法,涉及触觉信号生成技术领域,包括:将用于训练的触觉和图像信号通过信源编码器,基于分类任务初步进行触觉和图像的模态内特征提取和模态间特征融合。将融合特征输入神经网络建模的信道编码器用于产生适合信道传输的码流,经过信道传输后,输入信道解码器,通过信道编解码器的联合训练,将恢复的融合特征输入触觉解码器中,重建触觉信号。本发明提供的基于信源信道联合编码的触觉信号重建方法实现了不同模态的语义信息融合,大幅减少数据量,通过单独设计的信道编码器和信道解码器提高了信号对信道变化的鲁棒性,并降低信号通过信道的延迟,从而使得触觉信号的重建质量得到显著提升。
-
公开(公告)号:CN117439642A
公开(公告)日:2024-01-23
申请号:CN202311353002.4
申请日:2023-10-19
Applicant: 南京邮电大学
IPC: H04B7/06 , H04W72/044 , H04W72/543 , H04W72/542 , H04W16/14 , H04L25/03 , G16Y10/75
Abstract: 本发明公开了一种共生与寄生协作的共生无线电传输方法,其中基站向主用户传输主信号,同时两个反向散射设备分别通过寄生模式和共生模式调制主用户信号,从而向各自的次接收机传输次信号。共生模式可以抵消寄生模式对主接收机的干扰,从而提高主传输的性能,同时寄生模式保证了次传输服务质量需求的多样化。为最大化主接收机处的主信号传输速率,在满足次用户处译码主信号和次信号的最小传输速率要求下,本发明设计了一种基于分式规划的全局最优波束成形优化方法。仿真结果表明,在满足不同次用户通信指标的情况下,本发明所提出的共生和寄生协作方案能够有效地提升主系统传输速率。
-
公开(公告)号:CN117095702A
公开(公告)日:2023-11-21
申请号:CN202310909951.X
申请日:2023-07-24
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于门控多级特征编码网络的多模态情感识别方法,首先,对原始输入的语音和文本模态分别进行浅层特征提取;然后,针对不同模态构建深度编码网络,获取与情感相关的深层特征。为了更好的探索语音的空间信息,引入分支网络,获取基于深度卷积网络的谱图信息;设计自适应多模态门控融合模块,实现三个模态特征信息的动态融合,实现基于门控多级特征编码网络的模型搭建;最后,对基于门控多级特征编码网络的多模态情感识别方法进行性能评估;本发明进一步挖掘了输入信号的多层次情感信息并构建了基于门控的多级特征编码网络进行多模态情感识别,使得系统的情感识别性能、泛化能力进一步提升,可以很好地应用于智能人机交互中。
-
公开(公告)号:CN115064180A
公开(公告)日:2022-09-16
申请号:CN202210492452.0
申请日:2022-05-07
Applicant: 南京邮电大学
IPC: G10L21/003 , G10L19/04
Abstract: 本发明公开了一种基于挑选峰的连续语音共振峰提取方法,包括:对输入的单帧语音进行预处理操作;采用线性预测法,初步估算一帧语音频谱包络中的峰值;设立参考点和共振峰槽,然后利用挑选峰方法建立峰值与参考点之间的映射关系;利用峰值和参考点间的映射关系和共振峰槽确定一帧语音的共振峰;针对连续语音进行共振峰估算:将连续语音按照不同帧数进行分帧,利用如上算法循环100次取得不同帧数试验下的共振峰参数,对100次循环后的结果进行平均,经过平滑处理后得到最终结果。本发明方法可消除合并峰和假峰的影响,收敛速度快,鲁棒性强。
-
公开(公告)号:CN119207443A
公开(公告)日:2024-12-27
申请号:CN202411077151.7
申请日:2024-08-07
Applicant: 南京邮电大学
Abstract: 本发明提供了一种基于改进卷积循环网络的单通道语音增强方法,包括:步骤1:下载模型训练和测试所用的数据集,通过采用VoiceBank+DEMAND数据集对数据集的语音进行预处理,并通过短时傅里叶变换(STFT)提取语音信号的幅度谱;步骤2:将幅度谱输入到编码器中,从幅度谱中提取高维特征;步骤3:使用Channel‑S4D block作为模型的递归模块,Channel‑S4D block输出的结果会输入到解码器中,被恢复到原始的维度;步骤4:构造联合损失函数;步骤5:重建和评估增强语音信号。本发明基于对角化状态空间模型构造的Channel‑S4D模块高效地处理语音序列,捕捉通道级别的语音关键信息,更好地建模语音信号的时间依赖关系,在降低模型的参数量和计算量的同时,提高了模型对复杂噪声环境的适应性。
-
公开(公告)号:CN115050395B
公开(公告)日:2024-10-29
申请号:CN202210494189.9
申请日:2022-05-07
Applicant: 南京邮电大学
Abstract: 本发明提出了一种基于多领域统计特征和改进CNN的含噪语音情感识别方法,属于语音识别领域,包括以下步骤:步骤1:首先对语料库中的纯净语音进行加噪处理,其次提取语音信号的相关多领域特征,采用统计函数对已提取的特征进行筛选,降低特征冗余度,得到冗余度低、情感区分度高的多领域统计特征;步骤2:搭建基于语音增强联合约束CNN‑DNN的框架;步骤3:将多领域统计特征作为系统模型的输入,提取与情感分类标签高度相关且对噪声具有鲁棒性的信息,得到输出层的情感分类结果;步骤4:对所提出的一种基于多领域统计特征和语音增强联合约束CNN‑DNN的噪声环境下语音情感识别方法进行性能评估。
-
-
-
-
-
-
-
-
-