-
公开(公告)号:CN118153583A
公开(公告)日:2024-06-07
申请号:CN202410442083.3
申请日:2024-04-12
Applicant: 中国科学技术大学
IPC: G06F40/30 , G06N3/0442 , G06N3/0464 , G06N3/0455 , G06N3/084 , G06V20/40 , G06V10/80
Abstract: 本发明公开了一种基于模态间互补性挖掘的多模态情感分析方法,包括:1单模态数据预处理;2构建语义感知的多模态交互模块;3构建多模态语义分离模块;4预测模块;5模型参数优化,得到最优模型。本发明提取视频片段中视觉、文本、语音三种模态的情感线索,并进行相应的单模态编码提取特征,随后通过构建语义感知的多模态交互模块提取模态间的语义关联,挖掘出与情感相关的上下文信息,并通过构建多模态语义分离模块及计算其损失值,获取与模态无关的情感鉴别性特征以及减少模态之间的噪声与冗余信息,并通过模态融合生成兼容的多模态情感特征描述,能够很好地解决不同模态语义的不均衡性,从而提高多模态融合表征的互补性和兼容性。
-
公开(公告)号:CN117475422A
公开(公告)日:2024-01-30
申请号:CN202311431250.6
申请日:2023-10-31
Applicant: 中国科学技术大学
Abstract: 本发明公开了一种基于图池化推理网络的场景文本视觉问答方法,其步骤包括:1.图像和文本编码及图表征;2.单层图池化学习;3.双路多层图的融合;4.答案生成;5.模型优化。本发明采用自适应节点删除策略,动态缩小语义语义相似的节点的尺度,以实现图的演化和更新,为加深对场景文本的理解,逐步将演变的对象图和进化的场景文本图语义聚合成一个图向量以促进答案推理,从而能实现有效和鲁棒的基于场景文本的视觉问题回答。
-
公开(公告)号:CN117292297A
公开(公告)日:2023-12-26
申请号:CN202311251349.8
申请日:2023-09-26
Applicant: 中国科学技术大学
IPC: G06V20/40 , G06V10/774 , G06N3/0442 , G06V10/82 , G06F40/30 , G06F40/289
Abstract: 本发明公开了一种基于层次化情感特征编码的视频情感描述方法,其步骤包括:1视频编码;2层次化情感特征编码;3基于多模态上下文的文本生成;4在视频情感描述数据集上的模型参数优化。本发明能够提取层次化的细粒度视频情感线索,并过滤不相关情感词对模型的干扰,并从视觉、文本、情感三种模态中提取丰富的上下文信息,通过三种与情感相关的损失函数,分别约束情感描述、层次化情感编码和情感对比过程的准确性,以生成语义和情感正确的视频情感描述,从而能提高情感视频描述模型的准确性和鲁棒性。
-
公开(公告)号:CN119785110A
公开(公告)日:2025-04-08
申请号:CN202411967201.9
申请日:2024-12-30
Applicant: 中国科学技术大学
Abstract: 本发明公开了一种基于模型反演与蒸馏的联邦学习图像识别方法,包括:1.在各个客户端上训练本地图像模型并上传到联邦中心服务器;2.联邦中心服务器接收本地图像模型并进行加权聚合;3.联邦中心服务器利用本地图像模型进行深度反演来构建合成数据集;4.联邦中心服务器利用合成数据集进行图元重标记和知识蒸馏;5.对全局图像模型参数进行迭代优化,得到最优参数的全局模型并下发给各个客户端用于图像识别。本发明采用深度反演方法合成数据,并通过注意力权重对生成的不同信息密度的图元进行筛选,并在后续知识蒸馏阶段对信息密度低的图元利用集成模型进行重标记,从而解决针对数据异构场景下单次通信联邦学习的图像识别问题。
-
公开(公告)号:CN113989940A
公开(公告)日:2022-01-28
申请号:CN202111363930.X
申请日:2021-11-17
Applicant: 中国科学技术大学
IPC: G06V40/20 , G06V10/764 , G06K9/62 , G06F17/15
Abstract: 本发明公开了一种视频数据中动作识别方法、系统、设备与存储介质,相关方法包括:采用视频数据多内容依赖建模的方式,对所述原始视频特征张量,从不同方向以不同尺度进行池化,再利用卷积层进行依赖激活,获得相应的依赖表征;利用询问结构的注意力机制,实现依赖表征的聚合,并对原始视频特征张量进行优化,利用优化结果进行动作识别。本发明上述方案,可以直接插入基于卷积的动作识别模型,几乎不带来额外参数与计算量,并且通过实验表明可以明显提升动作识别模型的分类性能。
-
公开(公告)号:CN119089996A
公开(公告)日:2024-12-06
申请号:CN202411231998.6
申请日:2024-09-04
Applicant: 中国科学技术大学
IPC: G06N5/022 , G06N3/045 , G06N3/0475 , G06N3/094 , G06Q50/20
Abstract: 本发明公开了一种知识追踪深度去偏方法、电子设备和存储介质,该方法的步骤包括:1、数据采集;2、搭建知识追踪网络、对抗嵌入生成网络和对抗知识追踪网络;3、交替训练知识追踪网络、对抗嵌入生成网络和对抗知识追踪网络,以得到最优的知识追踪模型。本发明通过结合对抗数据增强和损失重加权,生成对抗偏差的数据,并降低模型训练过程中对偏差样本的学习率,有效避免模型利用偏差属性和标签之间的关联作为预测捷径,从而缓解深度知识追踪模型的偏差问题,以实现更加精准地评估学生知识状态。
-
公开(公告)号:CN119027733A
公开(公告)日:2024-11-26
申请号:CN202411126873.7
申请日:2024-08-16
Applicant: 中国科学技术大学
IPC: G06V10/764 , G06V10/82 , G06V10/774 , G06V10/776
Abstract: 本发明公开了一种基于双网络协作的抗噪音标签图像识别方法,其步骤包括:1、噪音标签数据集的采集和预处理;2、使用噪音数据集对网络进行预热;3、计算每样本的置信度并获取类别自适应阈值;4、筛选样本,构建多个子集;5、基于半监督学习范式对任意一个模型进行训练,从而得到最终的双网络图像识别模型,用于对输入图片进行分类。本发明能在使用包含大量噪音标签的数据集训练的条件下,有效对抗噪音标签的影响,减少模型对噪音标签的拟合,从而提取出样本的真正语义特征,提高模型的鲁棒性和分类准确性。
-
公开(公告)号:CN118354159A
公开(公告)日:2024-07-16
申请号:CN202410469405.3
申请日:2024-04-18
Applicant: 中国科学技术大学
IPC: H04N21/475 , H04N21/466 , G06N3/084
Abstract: 本发明公开了一种基于对比跨模态表征学习的鲁棒视频问答方法,包括:1、获取视频问答数据集,并得到相应的预训练特征;2、构造视频问答模型,包括:视频编码器、文本编码器、跨模态融合模块以及答案解码器;3、定义基本的视频问答目标损失函数;4、构造自监督对比学习损失函数;5、构造时间顺序正则化损失函数;6、构造扰动不变性正则化损失函数;7、计算总体的损失函数;8、使用总体的损失函数对视频问答模型进行反向传播训练以优化模型参数,从而得到训练好的视频问答模型,用于对输入的问题和视频进行推理,得到预测的答案。本发明是一种模型无关的方法,可以将其增加在不同的基线模型方法中,显著提高视频问答模型预测的鲁棒性和泛化性。
-
公开(公告)号:CN113989940B
公开(公告)日:2024-03-29
申请号:CN202111363930.X
申请日:2021-11-17
Applicant: 中国科学技术大学
IPC: G06V40/20 , G06V10/764 , G06V10/82 , G06N3/0464
Abstract: 本发明公开了一种视频数据中动作识别方法、系统、设备与存储介质,相关方法包括:采用视频数据多内容依赖建模的方式,对所述原始视频特征张量,从不同方向以不同尺度进行池化,再利用卷积层进行依赖激活,获得相应的依赖表征;利用询问结构的注意力机制,实现依赖表征的聚合,并对原始视频特征张量进行优化,利用优化结果进行动作识别。本发明上述方案,可以直接插入基于卷积的动作识别模型,几乎不带来额外参数与计算量,并且通过实验表明可以明显提升动作识别模型的分类性能。
-
公开(公告)号:CN119251763A
公开(公告)日:2025-01-03
申请号:CN202411347570.8
申请日:2024-09-26
Applicant: 中国科学技术大学
IPC: G06V20/52 , G06V10/774 , G06V10/82 , G06N3/094 , G06N3/0985 , G06V20/70
Abstract: 本发明公开了一种基于多方面细粒度对齐的域自适应人群计数方法,其步骤包括:1.源域和目标域图像的加权采样;2.源域和目标域的图像编码与密度图生成;3.基于条件域对抗训练的人群密度对齐;4.基于对比学习的图像风格对齐;5.在人群计数数据集上的模型参数优化;6.利用优化后的模型进行人群密度图预测。本发明能够提取与目标域相关的人群特定信息,并过滤不相关源域特征的干扰,从多方面细粒度地对齐源域和目标域的人群分布,通过加权采样和两种与分布对齐相关的损失函数,分别约束源域和目标域的训练样本数量、人群密度、图像风格的一致性,以正确对齐源域和目标域之间的人群分布,从而能提高跨域人群计数模型的泛化性和鲁棒性。
-
-
-
-
-
-
-
-
-