-
公开(公告)号:CN119323300A
公开(公告)日:2025-01-17
申请号:CN202411306469.8
申请日:2024-09-19
Applicant: 中铁建设集团有限公司 , 中国科学院自动化研究所
IPC: G06Q10/063 , G06Q50/08 , G06N5/022 , G06N3/0455 , G06T3/04 , G06T11/60 , G06V30/422 , G06N5/04
Abstract: 本发明公开了一种建筑施工方案多模型管理系统及其方法,归属于建筑施工管理的技术领域。该系统基于建筑施工方案自然语言处理模型由四个子系统构成:施工行业多模态专业知识问答系统、施工行业专业文档编制系统、施工行业多模态检索系统和施工方案内容审核系统。其中施工行业专业文档编制系统采用多模态扩散大模型技术,由此建立的建造图像生成系统,能智能化地响应用户输入的文本需求,自动生成与之匹配的建筑施工图像,或对用户上传的建筑图像进行风格转换,以创造出满足特定需求的建筑图像,为用户提供即时的建筑建造参考图纸,通过一键生成图像的功能,大幅降低用户在制图时的工作量,显著提升建筑建造方案撰写阶段的工作效率。
-
公开(公告)号:CN119169339A
公开(公告)日:2024-12-20
申请号:CN202411050317.6
申请日:2024-08-01
Applicant: 中国科学院自动化研究所
IPC: G06V10/764 , G06V10/44 , G06V10/75 , G06F18/2431 , G06F18/22 , G06N3/045 , G06N3/0464
Abstract: 本发明提供一种多标签图像分类方法、装置、设备、存储介质及程序产品,应用于图像处理技术领域。该方法包括:获取待分类图像的高分辨率特征图,所述待分类图像中包括至少两个物体类别;确定所述待分类图像的至少两个物体类别的像素掩码,将所述像素掩码映射到所述高分辨率特征图上进行掩码平均操作,得到目标图像特征;将包含类别属性描述与类别名称的文本特征与所述高分辨率特征图进行交互处理,得到包含视觉信息的目标文本特征;将所述目标图像特征与所述目标文本特征进行匹配,以确定所述待分类图像的类别标签。
-
公开(公告)号:CN119027861A
公开(公告)日:2024-11-26
申请号:CN202411507920.2
申请日:2024-10-28
Applicant: 中国科学院自动化研究所
IPC: G06V20/40 , G06F40/205 , G06F40/30 , G06N3/042 , G06N3/0464 , G06N3/08 , G06N5/022 , G06V10/82 , G06V20/70 , G06F16/335 , G06F16/35
Abstract: 本发明提供一种基于开放词汇的视频异常检测方法、装置以及电子设备,应用于视频异常检测技术领域,其中,包括:对区域视频数据进行特征提取,得到视觉信息与文本信息;对视觉信息进行图像编码,得到帧级视觉特征;确定帧级视觉特征的局部时间依赖关系与全局时序依赖关系,得到序列时序特征;对增强文本信息进行文本编码,得到标签文本特征;基于帧级视觉特征、序列时序特征以及标签文本特征,确定区域视频数据的已知类别异常与未见类别异常;对已知类别异常进行特定类别分类,得到特定异常行为;对未见类别异常进行无类别检测,得到未见类别异常行为,通过本申请能够提高视频数据中异常行为检测的准确率。
-
公开(公告)号:CN119003741A
公开(公告)日:2024-11-22
申请号:CN202411465874.4
申请日:2024-10-21
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06N3/0455 , G06N3/084 , G06N5/04 , G06F18/213 , G06F18/22 , G06F18/25
Abstract: 本发明提供一种基于自我问答的可信多模态大模型推理方法及装置,涉及人工智能技术领域,方法包括:获取多模态数据,并进行特征提取得到对应的多模态令牌特征;获取针对多模态数据的提问问题,将提问问题与多模态令牌特征输入到多模态大模型中进行第一问答;并将得到的第一回答文本以及提示词输入到多模态大模型进行第二问答,得到第二回答文本,确定第一回答文本与第二回答文本的相似度得分,当相似度得分大于相似度阈值时,将第一回答文本作为提问问题的回答文本。通过本申请,克服大语言模型在进行问答时过于依赖问答知识库,且生成的回答文本准确性和可信度低的缺陷。
-
公开(公告)号:CN118864876A
公开(公告)日:2024-10-29
申请号:CN202410860540.0
申请日:2024-06-28
Applicant: 中国科学院自动化研究所
IPC: G06V10/42 , G06V10/44 , G06F18/213 , G06V10/764 , G06F40/186 , G06F40/166 , G06F18/25 , G06N3/0464 , G06F18/22
Abstract: 本发明提供一种基于图文预训练模型的零样本异常检测方法、装置,包括:对待检测样本图像进行图像特征提取,得到待检测样本图像的局部特征和全局特征;调用大语言模型生成针对待检测样本图像的正常描述文本和异常描述文本;将正常描述文本、异常描述文本分别与手工编写的文本模板、自适应学习的文本模板结合,对结合后的文本进行文本特征提取处理,得到正常文本特征和异常文本特征;基于局部特征、正常文本特征和异常文本特征进行特征交互,得到异常分数图;基于异常分数的最大值、全局特征、正常文本特征和异常文本特征判断待检测样本图像中是否存在异常。本发明可以在无需样本图像中的物品类别先验数据的情况下有效完成零样本异常检测任务。
-
公开(公告)号:CN117253164A
公开(公告)日:2023-12-19
申请号:CN202211511019.3
申请日:2022-11-29
Applicant: 深圳市腾讯计算机系统有限公司 , 中国科学院自动化研究所
IPC: G06V20/40 , G06V10/80 , G06V10/82 , G06N3/0464 , H04N21/234 , H04N21/2343
Abstract: 本申请涉及一种视频处理方法、装置、计算机设备、存储介质和计算机程序产品。该方法可应用于人工智能领域,包括:对视频集的视频帧和媒体信息进行编码,并对编码所得的视频特征和媒体特征进行融合,得到多模态的第一融合特征;基于第一融合特征,对被掩膜处理的图像块和子媒体信息进行重构;根据重构图像块和图像块确定第一失真损失,根据重构子媒体信息与子媒体信息确定第二失真损失,以及根据视频特征和媒体特征确定对比学习损失;基于第一失真损失、第二失真损失和对比学习损失,对视频处理模型进行参数调整;基于通过收敛的视频处理模型对目标视频提取的多模态的第二融合特征进行视频相似性处理。采用本方法能够提高视频处理的准确性。
-
公开(公告)号:CN117218635A
公开(公告)日:2023-12-12
申请号:CN202211615059.2
申请日:2022-12-14
Applicant: 深圳市腾讯计算机系统有限公司 , 中国科学院自动化研究所
IPC: G06V20/62 , G06V20/40 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/047 , G06N3/08 , G10L15/26 , G10L15/02 , G10L15/04 , G10L15/16 , G10L25/57 , G10L25/30
Abstract: 本申请实施例公开了一种字幕识别方法、装置、设备、存储介质及程序产品;在本申请实施例中,获取待识别视频,以及获取待识别视频的待识别音频;对待识别视频进行视觉特征提取,得到待识别视频的视觉模态特征,以及对待识别音频进行声觉特征提取,得到待识别视频的声觉模态特征;根据视觉模态特征和声觉模态特征中至少一种模态特征,确定待识别视频的文本模态特征;对视觉模态特征、声觉模态特征以及文本模态特征进行特征融合处理,得到待识别视频的多模态特征;根据多模态特征,对待识别视频进行字幕识别,得到待识别视频的字幕识别结果。本申请实施例可以提高字幕识别的准确度。
-
公开(公告)号:CN114140831B
公开(公告)日:2022-07-01
申请号:CN202210113382.3
申请日:2022-01-30
Applicant: 中国科学院自动化研究所
IPC: G06V40/10 , G06V10/40 , G06V10/74 , G06V10/774 , G06K9/62
Abstract: 本发明提供一种人体姿态估计方法、装置、电子设备及存储介质,方法包括:获取目标图像;将所述目标图像输入至人体姿态估计模型,得到所述人体姿态估计模型输出的所述目标图像中人体姿态信息;其中,所述人体姿态估计模型,是基于样本行人场景图像进行训练后得到的,用于估计图像中人体姿态信息;所述人体姿态信息包括人体实例及对应的人体关键点位置,通过人体姿态估计模型实现了端到端的人体姿态估计,提升了人体姿态估计的效率。
-
公开(公告)号:CN113435430A
公开(公告)日:2021-09-24
申请号:CN202110992358.7
申请日:2021-08-27
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于计算机视觉领域,具体涉及一种基于自适应时空纠缠的视频行为识别方法、系统、设备,旨在解决现有的行为识别方法未注意到时空线索对不同动作类的差异化影响,导致行为类别识别鲁棒性较差的问题。本方法包括从输入视频流中获取待行为识别的图像,作为输入图像;通过训练好的行为识别模型获取所述输入图像的行为类别;其中,所述行为识别模型基于卷积神经网络构建。本发明提高了行为类别识别的鲁棒性。
-
公开(公告)号:CN112801238B
公开(公告)日:2021-07-27
申请号:CN202110403926.5
申请日:2021-04-15
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种图像分类方法、装置、电子设备及存储介质,该方法包括:确定待分类图像中每一像素的特征表示;基于每一像素的特征表示,以及各个预设类别对应的全局特征表示,确定每一像素的特征增强表示;基于每一像素的特征表示和特征增强表示,确定所述待分类图像对应的预设类别;其中,所述全局特征表示是基于样本图像,以及样本图像中每一像素对应的预设类别确定的。本发明提供的方法、装置、电子设备及存储介质,采用像素级的特征增强方式提高了对图像中细节的表达能力,提高了图像的分类准确性。
-
-
-
-
-
-
-
-
-