-
公开(公告)号:CN115690875A
公开(公告)日:2023-02-03
申请号:CN202211280372.5
申请日:2022-10-19
Applicant: 桂林电子科技大学
IPC: G06V40/16 , G06V20/40 , G06V20/62 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/084
Abstract: 本发明提供一种情感识别方法、装置、系统以及存储介质,属于视频识别领域,方法包括:对视频数据进行标注得到标注后视频数据;按照预设比例将标注后视频数据以及角色向量划分为视频训练集合和视频测试集合;对标注后视频数据进行融合分析得到融合特征;利用角色向量以及融合特征对情感识别模型进行训练得到训练后特征。本发明有效的结合了视觉和文本的上下文语义信息,能够将上下文与辅助问题连接起来以学习说话者特定的特征,提升了情感识别的准确性,而且具有一定的泛化能力,在其他情感识别任务中具有不错的可靠性和鲁棒性。
-
公开(公告)号:CN116721372A
公开(公告)日:2023-09-08
申请号:CN202310651531.6
申请日:2023-06-02
Applicant: 桂林电子科技大学
IPC: G06V20/40 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/0442 , G06N3/0464 , G06N3/08 , H04N19/503
Abstract: 本发明提供一种视频描述方法、装置、系统以及存储介质,属于视频描述领域,方法包括:S1:构建训练模型,训练模型包括第一编码器、特征提取器以及第一解码器;S2:通过第一编码器对待训练视频进行编码得到待处理视频特征;S3:通过特征提取器对待处理视频特征进行特征提取得到初始视频特征以及视觉特征;S4:通过第一解码器对视觉特征进行解码得到预测标签向量;S5:分析预测标签向量以及初始视频特征与真实标签的损失函数,并根据分析结果得到视频描述模型。本发明能够充分的挖掘视频中的主要信息,同时更好的探索文本语义和视觉内容之间的相关性,有效的提高了视频描述的准确性。
-
公开(公告)号:CN115757873A
公开(公告)日:2023-03-07
申请号:CN202211477636.6
申请日:2022-11-23
Applicant: 桂林电子科技大学
IPC: G06F16/783 , G06N3/0455
Abstract: 本发明提供一种视频文本检索方法、装置、系统以及存储介质,属于视频处理领域,方法包括:将视频随机划分为训练集和测试集;对视频以及自然语言文本描述进行预处理得到目标视频画面块序列;构建视频编码器和视觉语义监督编码器,并利用视觉语义监督编码器以及目标视频画面块序列对视频编码器进行训练得到训练后视频编码器以及视频文本距离。本发明保证了编码器的高效率的同时,能够有效的挖掘出视频数据的时空信息和文本数据的上下文信息,实现了更加精确的语义对齐,能够有效的提升了视频文本检索的效果,而且具有一定的泛化能力,提高了模型的可靠性和稳定性。
-
-