基于自注意力和关键帧的免训练长视频编辑方法及装置

    公开(公告)号:CN119697444A

    公开(公告)日:2025-03-25

    申请号:CN202411887053.X

    申请日:2024-12-20

    Applicant: 厦门大学

    Abstract: 本发明公开了一种基于自注意力和关键帧的免训练长视频编辑方法及装置,涉及视频编辑技术领域,方法包括:使用预训练的扩散模型提取原视频每一帧的扩散特征;根据扩散特征计算原视频各帧之间的相似度,得到任意两帧之间的相似度热图;基于相似度热图判断出各帧内容的相似度,根据相似度对视频进行动态分段,获得多个视频片段;在每个视频片段中采样至少一帧关键帧;基于扩散特征计算当前查询关键帧与其他所有关键帧之间的相似度,对关键帧进行自适应注意力剪枝;将编辑后的关键帧信息传播到视频中的其余帧。本发明通过自适应注意力机制和关键帧选择技术,能够保持视频内容连贯性和一致性,减少计算资源消耗,并提高视频编辑的质量和效率。

    一种面向开集的人物交互检测方法

    公开(公告)号:CN118351566A

    公开(公告)日:2024-07-16

    申请号:CN202410326072.9

    申请日:2024-03-21

    Applicant: 厦门大学

    Abstract: 本发明提供了人工智能技术领域的一种面向开集的人物交互检测方法,包括:步骤S1、获取人物图像以及候选文本集合,检测人物图像中的目标,输出目标的标签以及框坐标,将候选文本集合提取为文本嵌入;步骤S2、对人物图像进行编码,提取人物图像的全局视觉特征,基于全局视觉特征以及框坐标得到各目标的局部视觉特征;步骤S3、基于全局视觉特征以及局部视觉特征,从人物图像中提取目标至下而上的视觉特征;步骤S4、对视觉特征以及文本嵌入进行对齐训练,得到第一特征;步骤S5、对人物的动作进行对齐训练,得到第二特征;步骤S6、对第一特征、第二特征进行融合得到人物交互特征。本发明的优点在于:极大的提升了面向开集的人物交互检测精度。

    基于Transformer结构的分层多尺度图像描述方法

    公开(公告)号:CN117422969A

    公开(公告)日:2024-01-19

    申请号:CN202310211307.5

    申请日:2023-03-07

    Applicant: 厦门大学

    Abstract: 基于Transformer结构的分层多尺度图像描述方法,涉及图像描述技术。针对现有的图像描述方法存在的视觉特征感知尺度单一,从而导致描述效果较差的缺点。提出一种多尺度的分层Transformer结构,可以利用多尺度的视觉特征信息完成准确的图像描述任务。为适应图像描述任务中的多尺度视觉特征设计三种新结构:跨尺度注意、对齐分配解码器和多尺度局部聚合。跨尺度注意是在不同尺度上实现全面的特征交互,并将特征转换为统一的张量形状。多尺度局部聚合的目的是聚合和增强多尺度特征,在此基础上进一步提出对齐分配解码器,自适应地选择最适合的特征尺度完成图像描述任务。

Patent Agency Ranking