-
公开(公告)号:CN118262411A
公开(公告)日:2024-06-28
申请号:CN202410418093.3
申请日:2024-04-08
Applicant: 中国科学院计算技术研究所
IPC: G06V40/20 , G06V20/40 , G06V10/82 , G06V10/80 , G06V10/764 , G06N3/0475 , G06N3/045 , G06N3/094 , G06N3/0464
Abstract: 本发明提出一种基于协同自监督视频表示学习的视频动作识别方法和装置,包括:将人物动作视频输入视频编码器进行特征提取,得到训练视频特征序列;通过图像编码器对人物动作视频的关键帧信息进行特征提取,得到图像特征序列,训练视频特征序列和图像特征序列通过对比学习损失约束,获取训练视频静态特征序列;融合训练视频静态特征序列和人物动作视频的人物动作特征序列,得到融合特征序列,根据融合特征序列重建恢复视频,根据恢复视频和人物动作视频构建损失函数训练图像编码器;在训练完成后的编码器后添加全连接层,得到中间动作识别模型,通过已标注动作类别标签的视频数据集微调中间动作识别模型,以完成动作识别任务。
-
公开(公告)号:CN117853717A
公开(公告)日:2024-04-09
申请号:CN202211216511.8
申请日:2022-09-30
Applicant: 中国科学院计算技术研究所
IPC: G06V10/26 , G06V10/82 , G06V20/70 , G06N3/0464 , G06N3/048 , G06N3/0895
Abstract: 本发明提出一种平衡涂鸦标注偏好的弱监督语义分割方法,包括:构建语义分割模型;对训练图片进行涂鸦标注;提取该训练图片的深层语义特征,以该深层语义特征,获得对该训练图片的初步预测图;提取该训练图片的浅层特征,对该初步预测图进行局部聚合,获得对该训练图片的最终预测图;获得该训练图片的标注概率图;以该语义分割模型的逐像素加权交叉熵损失和分割预测学习损失加和获得总损失函数;迭代更新该语义分割模型的模型参数,直到该总损失函数收敛,以此时的语义分割模型为最终分割模型。本发明还提出一种平衡涂鸦标注偏好的弱监督语义分割系统,以及一种执行弱监督语义分割的数据处理装置。
-
公开(公告)号:CN116649896A
公开(公告)日:2023-08-29
申请号:CN202310483423.2
申请日:2023-04-28
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种音视结合的发音质量评估方法,包括:采集标准发音状态下某一音位的标准音视频,获取该音位的标准视位和标准舌位;采集用户实际发音状态的该音位的实际音视频,获取该用户发出该音位的实际视位和实际舌位;分别将该实际视位与标准视位、该实际舌位与该标准舌位进行比对,得到该用户对该音位的发音偏差;基于该发音偏差生成矫正建议,并反馈给该用户进行发音矫正。本发明还提出一种音视结合的发音质量评估系统,以及一种用于用户发音质量评估的数据处理装置。
-
公开(公告)号:CN116110088A
公开(公告)日:2023-05-12
申请号:CN202211106186.X
申请日:2022-09-10
Applicant: 中国科学院计算技术研究所
IPC: G06V40/16 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/006 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种基于人脸的族群识别模型的训练方法,族群识别模型包括编码器和族群预测层,训练方法包括:A1、获取包括多张人脸图像样本的第一训练集和第二训练集,其中第二训练集中的人脸图像样本设有指示其所属族群的标签;A2、利用第一训练集中的人脸图像样本对编码器进行多轮自监督迭代训练以训练编码器提取人脸特征,其中,自监督训练时利用解码器根据人脸特征重构得到的人脸图像和对应的人脸图像样本确定的损失值更新编码器的参数;A3、利用第二训练集对族群识别模型进行多轮迭代训练以识别输入的人脸图像样本对应的族群,其中,族群识别模型的编码器的初始参数为经步骤A2训练的编码器的参数。
-
公开(公告)号:CN113658582A
公开(公告)日:2021-11-16
申请号:CN202110800963.X
申请日:2021-07-15
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种音视协同的唇语识别方法和系统,基于视觉‑视觉、音频‑音频、视觉‑音频等三个层面的度量学习,三个度量学习机制的同时进行不仅缩短了训练时间和阶段,还能更好地进行视觉和音频两种模态间的协同学习。通过音频信息的帮助,本发明的视觉模型可以提取更有区分度的特征,从而提升唇语识别模型的性能。
-
公开(公告)号:CN109785298B
公开(公告)日:2021-03-05
申请号:CN201811593474.6
申请日:2018-12-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种多角度物体检测方法,包括:以深度神经网络构建检测模型;对训练图提取特征以获得多个特征图,设置多个垂直矩形锚框,获取该垂直矩形锚框与该训练图的样本物体的相交比,并以该相交比大于正例阈值的垂直矩形锚框标记为该训练图的样本物体的正例;通过该特征图对每个该正例进行回归预测,获取该样本物体的倾斜椭圆锚框的特征参数,以对该检测模型进行学习;以该检测模型检测目标图,获取该目标图中物体的倾斜椭圆锚框。
-
公开(公告)号:CN103970771A
公开(公告)日:2014-08-06
申请号:CN201310035131.9
申请日:2013-01-29
Applicant: 中国科学院计算技术研究所 , 日电(中国)有限公司
IPC: G06F17/30
CPC classification number: G06F17/30256
Abstract: 本发明公开了一种人体的检索方法和系统。包括:图片存在判断步骤,判断是否存在待查询人体的图片,如果存在进入第一检索步骤,否则进入第二检索步骤;第一检索步骤,使用待查询人体的人体底层表观特征对人体数据库中的人体进行筛选,生成第一检索结果;在第一检索结果中,使用待查询人体的人体高层属性特征的集合,对第一检索结果中的人体进行筛选,生成最终检索结果,检索结束;第二检索步骤,确定检索方式,根据检索方式使用待查询人体的人体高层属性特征对人体数据库中的人体进行筛选,生成人体数据库的最终检索结果,检索结束。本发明实现了更准确和更快速地进行人体检索。
-
公开(公告)号:CN102436637A
公开(公告)日:2012-05-02
申请号:CN201010297069.7
申请日:2010-09-29
Applicant: 中国科学院计算技术研究所 , 日电(中国)有限公司
Abstract: 本发明涉及从头部图像中自动分割头发的方法和系统,方法包括:步骤1,通过人脸检测和特征定位算法提取含有人脸和头发的头部图像,并对提取出的头部图像进行归一化;步骤2,对于训练集中标定头发的头部图像,根据各头部图像中标记的头发像素点得出位置先验模型,并提取特征,进行头发和非头发SVM分类器的学习;步骤3,依据位置先验模型和头发和非头发SVM分类器从待分割的图像中选择头发种子和背景种子;步骤4,从头发种子区域和背景种子区域中提取特征,依据特征完成对应于待分割图像的头发和非头发SVM分类器的在线学习;步骤5,依据对应于待分割图像的头发和非头发SVM分类器和位置先验模型进行头发分割。本发明能够提高头发分割准确性。
-
-
公开(公告)号:CN1204531C
公开(公告)日:2005-06-01
申请号:CN03147472.1
申请日:2003-07-14
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及模式识别与人工智能技术,特别是一种自动定位人脸图像中人眼中心位置的方法。本发明方法采用人脸检测算法通过摄像头采集人脸图像,对获取的初始人脸图像,根据人脸图像的大小,选择合适Gabor核函数对人脸图像进行卷积,再进行形态学上的膨胀处理,得到本发明提出的GaborEye模型;基于GaborEye模型,分割出人脸图像中两眼所在的区域;针对分割出来的结果进行合理性分析,如果不符合,重新进行分割;如果分割合理,则利用积分投影的方法精确定位人眼中心的准确位置。本发明方法可以满足多数人脸识别系统的需要,定位特征点后,可获取高可信度的归一化图像,提高识别算法的性能,使人脸识别实际应用能力得到提高。
-
-
-
-
-
-
-
-
-