-
公开(公告)号:CN116226347A
公开(公告)日:2023-06-06
申请号:CN202310184746.1
申请日:2023-03-01
Applicant: 中国科学院软件研究所
IPC: G06F16/332 , G06F16/33 , G06V20/40 , G06V20/62 , G06V30/148 , G06V10/40 , G06V40/16 , G06V10/82 , G06N3/0442 , G06N3/08 , G06N5/04 , G10L25/63 , G10L25/57 , H04N21/44 , H04N21/439 , H04N21/435
Abstract: 本发明属于视频问答领域,具体涉及一种基于多模态数据的细粒度视频情绪内容问答方法和系统。本发明基于情节记忆网络构建视频情绪推理基线模型,设计针对视觉、音频和文本数据的多分支处理模块,并借助Transformer编码器编码多模态数据中的时序依赖,提取出的多模态特征包含多角度情绪内容,能够精确地完成细粒度视频情绪内容问答任务。本发明利用Transformer编码器在视频、音频和文本序列上学习时序关联关系,并提取与情绪分类相关的高维多模态特征,该时序关联关系对分析视频包含的情绪信息至关重要。本发明能够有效提高基于多模态的细粒度视频情绪内容问答任务结果的准确率。
-
公开(公告)号:CN112069336B
公开(公告)日:2022-10-14
申请号:CN202010860081.8
申请日:2020-08-25
Applicant: 中国科学院软件研究所
IPC: G06F16/532 , G06F16/55 , G06F16/583 , G06V10/75 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种基于场景草图的细粒度图像检索方法及系统,包括:提取场景草图与若干待检索场景图像中的图信息,分别构建场景草图与若干待检索场景图像的图结构;提取各图结构的图特征,分别计算场景草图图特征与各待检索场景图像图特征的图相似度匹配分数;依据所述图信息中的物体类别标签,分别计算场景草图图特征与各待检索场景图像图特征的交并比分数;根据图相似度匹配分数与交并比分数,分别计算场景草图与各待检索场景图像的特征空间距离,并依据各特征空间距离,获取检索结果。本发明利用图来表示场景草图和图像,不仅检索出与输入草图场景类别一致的图像,而且图像中物体细节信息也保持一致,使得检索出来的图像与输入保持布局一致性。
-
公开(公告)号:CN114840107A
公开(公告)日:2022-08-02
申请号:CN202210237615.0
申请日:2022-03-11
Applicant: 中国科学院软件研究所
IPC: G06F3/0481 , G06F16/53 , G06T11/00
Abstract: 本发明公开一种草图数据重用与场景草图辅助构建方法及系统,属于计算机视觉领域,利用草图交互的高效信息表征的优势,基于草图修复以及基于草图的图像检索等草图智能处理技术,对已有的草图素材进行提取和重用;利用提取的草图素材以及数据库中存储的草图数据辅助用户进行场景草图构建,从而用于草图检索、视频定位等后续应用。
-
公开(公告)号:CN108710628B
公开(公告)日:2022-06-17
申请号:CN201810272683.4
申请日:2018-03-29
Applicant: 中国科学院软件研究所
IPC: G06F16/248 , G06F16/2458 , G06F3/04845
Abstract: 本发明公开一种基于草图交互的面向多模态数据的可视分析方法和系统。该方法包括:1)将原始数据集分为多种可视化数据结构;2)进行可视化数据结构与可视形态的匹配;3)根据原始数据集到可视化数据结构到可视形态的映射关系,将原始数据集分解为具有关联的多个信息侧面,每个信息侧面通过一种可视形态呈现于一个视图中,并结合用户选择的布局信息,生成多视角关联视图;4)识别用户根据目标分析需求在多视角关联视图进行草图圈选操作时绘制的草图符号,进而分析由草图符号组成的草图手势的含义,根据草图手势的含义生成新的视图。本发明基于草图交互辅助用户进行多模态数据的可视分析,能够帮助用户快速获取数据知识,挖掘数据关联规律。
-
公开(公告)号:CN113888697A
公开(公告)日:2022-01-04
申请号:CN202111144111.6
申请日:2021-09-28
Applicant: 中国科学院软件研究所
Abstract: 本发明公开了一种双手交互状态下的三维重建方法,其步骤包括:1)输入单张彩色图像,2)检测图像中双手关键点的2.5D热图;3)提取该彩色图像的特征;4)将2.5D热图和所提取的特征输入到ResNet50深层残差模块中提取特征图;5)根据2.5D热图得到左、右手注意力图;6)使用特征图预测双手之间的相对位置关系;7)根据特征图与左、右手注意力图得到左、右手特征图;8)利用左、右手特征图预测左、右手参数化模型的参数;9)根据参数回归双手的三维关键点位置,生成左、右手注意力图更新模型参数;使用最新预测的模型参数生成的左、右手注意力图与特征图生成人手参数化模型。本发明适用于双手交叉或分离状态的三维重建。
-
公开(公告)号:CN113743271A
公开(公告)日:2021-12-03
申请号:CN202110995105.5
申请日:2021-08-27
Applicant: 中国科学院软件研究所
IPC: G06K9/00
Abstract: 本发明公开一种基于多模态情感的视频内容有效性可视分析方法与系统。该方法包括:收集特定类型的视频与其有效性客观指标的标签;抽取视频中各种模态的情感数据;在抽取的情感数据的基础上,结合领域实际需求确定有效性因素,并计算得出不同有效性因素的数值;对有效性因素和有效性客观指标之间的相关性进行分析,得出有效性因素的相关性结果;将抽取得到的情感数据与有效性因素的相关性结果以不同的可视化形式进行展示,供用户进行以情感为主线的从整体到局部的多层次探索。本发明借助可视化方法对视频内容有效性进行分析,在量化视频内容有效性因素及实现客观分析方面具有优势,能够通过直观、有效的方式提供给用户具有视觉冲击力的分析结果。
-
公开(公告)号:CN110933520B
公开(公告)日:2020-10-16
申请号:CN201911255609.2
申请日:2019-12-10
Applicant: 中国科学院软件研究所 , 中国石化销售股份有限公司华南分公司
IPC: H04N21/8549 , H04N7/18
Abstract: 本发明公开了一种基于螺旋摘要的监控视频展示方法及存储介质,本方法包括:1)从待处理监控视频中提取关键帧,得到一关键帧集合;2)对每一关键帧进行感兴趣区域提取;3)根据所确定的感兴趣区域信息生成该监控视频的螺旋视频摘要;并对关键帧进行运动目标检测,将螺旋时间轴上经过感兴趣区域提取后的关键帧以是否存在运动目标,分为多个区间;对监控视频中出现的各类别目标进行统计,定位用户感兴趣的有效信息区域;4)基于有效信息区域,通过螺旋视频摘要导航定位监控视频;5)通过螺旋视频摘要的超链接构建监控视频场景间的关联;通过对螺旋视频摘要进行选取与合并操作实现对监控视频关联场景的剪辑与合并,得到用于展示的监控视频。
-
公开(公告)号:CN108305306B
公开(公告)日:2020-08-21
申请号:CN201810025986.6
申请日:2018-01-11
Applicant: 中国科学院软件研究所
IPC: G06T13/00
Abstract: 本发明公开了一种基于草图交互的动画数据组织方法。本方法为:1)建立面向动画数据草图表征的草图认知模型,基于该草图认知模型建立面向动画数据管理的草图用户界面;2)通过该草图用户界面,以语义网模型和资源描述框架RDF为基础定义动画数据之间的关系,建立描述动画数据关系的交互原语;3)基于情境感知技术和动画数据之间的语义关系,建立动画数据的情境模型;4)通过该草图用户界面对动画数据的情境模型进行编辑,实现对动画数据的组织。对动画数据进行高效的描述和组织,并为动画创作过程中动画数据的检索和重用提供高效的交互方式,加速交互式动画的生成过程。
-
公开(公告)号:CN111191554A
公开(公告)日:2020-05-22
申请号:CN201911347995.8
申请日:2019-12-24
Applicant: 中国科学院软件研究所
Abstract: 本发明公开一种基于隐喻地图的视频情感分析与可视化方法与系统。本发明包括:基于Ekman情感表示模型的视频情感采集工具以及情感建模,可以同时采集到较为准确的情绪类别和情绪数值两种类型的情感数据;利用隐喻地图表达视频中的情感和关系信息,在表达层次、关系信息时具有优势,同时地图的形状、色彩的搭配使其具有一定的美感;通过地图,用户可以快速直观地了解到视频的情绪变化趋势、各情感种类的占比以及视频各事件和情绪之间的关系。本发明可用于视频内容探索、查询、理解的交互式可视化分析,允许用户根据情感信息对视频进行快速地浏览,并能够直观地展现将要到来的情绪转折点或高潮,同时支持对视频中人物情绪和关系的探索。
-
公开(公告)号:CN103067781B
公开(公告)日:2016-03-30
申请号:CN201210557460.5
申请日:2012-12-20
Applicant: 中国科学院软件研究所
IPC: H04N21/472 , H04N21/4728 , G06F3/01
Abstract: 本发明涉及一种多尺度视频表示和浏览方法,其步骤包括:1)在输入端对待处理视频进行预处理,用户可对所述待处理视频进行手势输入和/或注释,2)预处理完成后的视频按照顺序或打破时序限制加载下述表示形式,进行多尺度表示,3)输出端根据用户的手势输入选择上述一种或多种方法对该视频进行浏览,输出浏览结果。本发明提供了多种不同的方式对用户进行表达与浏览,有效克服了单一表达方式的局限,能够按照用户需求较好的表达从较粗尺度到较精细尺度的内容,帮助用户理解与定位视频内容。同时提供了与内容相关的聚类和分层方法,从而给用户提供不同层次内容的表达,更好的满足用户的不同浏览需要。
-
-
-
-
-
-
-
-
-