-
公开(公告)号:CN112837701A
公开(公告)日:2021-05-25
申请号:CN202011623065.3
申请日:2020-12-31
申请人: 西安电子科技大学
摘要: 本发明提出一种针对语音中的较为模糊情感的识别方法,主要解决现有技术中大多数语音数据为模糊数据,情感识别准确率低及人工注释标签成本较高的问题。其实现方案是:1)通过少量具有精确标签的数据对五个分类器进行初次训练得到五个模型,并用这五个模型为模糊数据构造一个模糊标签;2)用具有模糊标签的数据二次训练五个模型,得到的训练好的五个情感分类模型;3)将少量无标签数据放入训练好的五个模型进行语音情感识别,得到对愤怒、高兴、平静、恐慌和悲伤这五种情感分类判别的准确率;4)选择准确率最高的结果作为数据标签为情感分类结果。本发明提高了模糊数据处理能力,识别准确率高,成本低,可用于健康检索、信息安全及机器人。
-
公开(公告)号:CN117972626A
公开(公告)日:2024-05-03
申请号:CN202311810740.7
申请日:2023-12-26
申请人: 西安电子科技大学 , 陕西国博政通信息科技有限公司
IPC分类号: G06F18/25 , G06F18/22 , G06F18/213 , G06V10/40 , G06N3/045 , G06N3/0455 , G06N3/0499 , G06N3/084
摘要: 本发明公开了一种基于多模态特征融合的关键属性图文匹配方法及其装置,包括:获取文本特征和图像特征,并将图像特征进行扩充,使得扩充后的图像特征与文本特征数量相同;将文本特征和扩充后的图像特征进行第一次融合,获取第一融合特征;其中,第一次融合为元素相加融合;使用Roberta模型对第一融合特征进行处理,获取交互特征;将交互特征与所述图像特征进行第二次融合,获取第二融合特征;其中,第二次融合为元素相乘融合;根据第二融合特征,获取匹配得分,以判断文本和图像的匹配效果。本发明能够提升图文匹配效果。
-
公开(公告)号:CN118690034A
公开(公告)日:2024-09-24
申请号:CN202410829745.2
申请日:2024-06-25
申请人: 西安电子科技大学
IPC分类号: G06F16/53 , G06F16/532 , G06F16/33 , G06F16/332 , G06F40/126 , G06V10/40 , G06V20/70 , G06F18/22 , G06N3/0895 , G06N3/084 , G06N3/04
摘要: 本发明提供基于提示学习的遥感领域的图像‑文本检索方法及装置,涉及遥感图像技术领域。此方法包括:将输入文本和多层文本提示输入文本编码器,输出文本特征向量;根据输入图像、各层文本提示、提示学习模块和图像编码器,确定图像特征向量;将可学习提示、文本特征向量和图像特征向量分别输入适配器模块,对应的输出最终文本特征向量和最终图像特征向量;根据最终文本特征向量、最终图像特征向量,计算图文对比损失和对称性损失,并根据对比损失和对称性损失进行反向传播优化,得到优化的检索模型;将测试数据集输入优化的检索模型,输出相似度矩阵。这样,使得检索所消耗的算力更少和时间更短,使得检索的灵活性较好。
-
公开(公告)号:CN116403609A
公开(公告)日:2023-07-07
申请号:CN202310227888.1
申请日:2023-03-09
申请人: 西安电子科技大学
IPC分类号: G10L25/63 , G10L25/30 , G10L25/03 , G06N3/0499 , G06N3/08
摘要: 本发明公开了一种基于注意力机制的多尺度特征提取的语音情感识别方法,包括:构建训练数据集;构造语音情感识别网络模型,语音情感识别网络模型包括多尺度特征提取器模块、多尺度特征编码器模块、特征融合模块和语音情感识别分类器,其中,多尺度特征提取器模块用于得到不同尺度的多个语音特征,多尺度特征编码器模块用于对语音特征进行编码,得到不同尺度编码后的语音特征;特征融合模块用于得到多尺度语音融合特征;语音情感识别分类器用于利用多尺度语音融合特征得到最终的分类结果;对语音情感识别网络模型进行训练;获得待识别语音的情感识别结果。本发明利用多尺度特征提取器,尽可能地学习语音数据在不同感受野下的特征,保证特征多样性。
-
公开(公告)号:CN112837701B
公开(公告)日:2022-12-27
申请号:CN202011623065.3
申请日:2020-12-31
申请人: 西安电子科技大学
摘要: 本发明提出一种针对语音中的较为模糊情感的识别方法,主要解决现有技术中大多数语音数据为模糊数据,情感识别准确率低及人工注释标签成本较高的问题。其实现方案是:1)通过少量具有精确标签的数据对五个分类器进行初次训练得到五个模型,并用这五个模型为模糊数据构造一个模糊标签;2)用具有模糊标签的数据二次训练五个模型,得到的训练好的五个情感分类模型;3)将少量无标签数据放入训练好的五个模型进行语音情感识别,得到对愤怒、高兴、平静、恐慌和悲伤这五种情感分类判别的准确率;4)选择准确率最高的结果作为数据标签为情感分类结果。本发明提高了模糊数据处理能力,识别准确率高,成本低,可用于健康检索、信息安全及机器人。
-
-
-
-