-
公开(公告)号:CN119672328A
公开(公告)日:2025-03-21
申请号:CN202311227805.5
申请日:2023-09-21
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于合成数据辅助的点云实例分割方法和系统,本发明通过使用三维3D物体模型数据集和3D场景模型数据,生成包含有丰富物体的室内3D场景。在此基础上,通过统计在扫描场景点云时的相机轨迹,在合成场景中模拟该轨迹进行同样的扫描过程得到有标注的合成点云数据。为了能从合成点云数据中学习到语义丰富的特征表示,本发明在合成数据上进行有监督预训练,将语义分割任务作为特征学习的代理任务。本发明在预训练过程中引入无标注的真实场景数据并对其赋予伪标签来指导合成到真实数据的迁移过程。将学到的特征表示用于真实点云实例分割任务时,可以通过预训练模型包含的丰富的语义知识和物体形状知识,实现对真实数据的数据高效性。
-
公开(公告)号:CN117853717A
公开(公告)日:2024-04-09
申请号:CN202211216511.8
申请日:2022-09-30
Applicant: 中国科学院计算技术研究所
IPC: G06V10/26 , G06V10/82 , G06V20/70 , G06N3/0464 , G06N3/048 , G06N3/0895
Abstract: 本发明提出一种平衡涂鸦标注偏好的弱监督语义分割方法,包括:构建语义分割模型;对训练图片进行涂鸦标注;提取该训练图片的深层语义特征,以该深层语义特征,获得对该训练图片的初步预测图;提取该训练图片的浅层特征,对该初步预测图进行局部聚合,获得对该训练图片的最终预测图;获得该训练图片的标注概率图;以该语义分割模型的逐像素加权交叉熵损失和分割预测学习损失加和获得总损失函数;迭代更新该语义分割模型的模型参数,直到该总损失函数收敛,以此时的语义分割模型为最终分割模型。本发明还提出一种平衡涂鸦标注偏好的弱监督语义分割系统,以及一种执行弱监督语义分割的数据处理装置。
-
公开(公告)号:CN116649896A
公开(公告)日:2023-08-29
申请号:CN202310483423.2
申请日:2023-04-28
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种音视结合的发音质量评估方法,包括:采集标准发音状态下某一音位的标准音视频,获取该音位的标准视位和标准舌位;采集用户实际发音状态的该音位的实际音视频,获取该用户发出该音位的实际视位和实际舌位;分别将该实际视位与标准视位、该实际舌位与该标准舌位进行比对,得到该用户对该音位的发音偏差;基于该发音偏差生成矫正建议,并反馈给该用户进行发音矫正。本发明还提出一种音视结合的发音质量评估系统,以及一种用于用户发音质量评估的数据处理装置。
-
公开(公告)号:CN113658582A
公开(公告)日:2021-11-16
申请号:CN202110800963.X
申请日:2021-07-15
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种音视协同的唇语识别方法和系统,基于视觉‑视觉、音频‑音频、视觉‑音频等三个层面的度量学习,三个度量学习机制的同时进行不仅缩短了训练时间和阶段,还能更好地进行视觉和音频两种模态间的协同学习。通过音频信息的帮助,本发明的视觉模型可以提取更有区分度的特征,从而提升唇语识别模型的性能。
-
公开(公告)号:CN109785298B
公开(公告)日:2021-03-05
申请号:CN201811593474.6
申请日:2018-12-25
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种多角度物体检测方法,包括:以深度神经网络构建检测模型;对训练图提取特征以获得多个特征图,设置多个垂直矩形锚框,获取该垂直矩形锚框与该训练图的样本物体的相交比,并以该相交比大于正例阈值的垂直矩形锚框标记为该训练图的样本物体的正例;通过该特征图对每个该正例进行回归预测,获取该样本物体的倾斜椭圆锚框的特征参数,以对该检测模型进行学习;以该检测模型检测目标图,获取该目标图中物体的倾斜椭圆锚框。
-
公开(公告)号:CN103970771A
公开(公告)日:2014-08-06
申请号:CN201310035131.9
申请日:2013-01-29
Applicant: 中国科学院计算技术研究所 , 日电(中国)有限公司
IPC: G06F17/30
CPC classification number: G06F17/30256
Abstract: 本发明公开了一种人体的检索方法和系统。包括:图片存在判断步骤,判断是否存在待查询人体的图片,如果存在进入第一检索步骤,否则进入第二检索步骤;第一检索步骤,使用待查询人体的人体底层表观特征对人体数据库中的人体进行筛选,生成第一检索结果;在第一检索结果中,使用待查询人体的人体高层属性特征的集合,对第一检索结果中的人体进行筛选,生成最终检索结果,检索结束;第二检索步骤,确定检索方式,根据检索方式使用待查询人体的人体高层属性特征对人体数据库中的人体进行筛选,生成人体数据库的最终检索结果,检索结束。本发明实现了更准确和更快速地进行人体检索。
-
公开(公告)号:CN101996405B
公开(公告)日:2012-07-04
申请号:CN201010266615.0
申请日:2010-08-30
Applicant: 中国科学院计算技术研究所 , 圣戈班研发(上海)有限公司
Abstract: 本发明有关于一种快速的玻璃图像缺陷检测及分类方法及其装置,其中该方法包括:步骤1,对于输入的玻璃图像进行窗口扫描,根据窗口内灰度分布的均衡性度量,得到候选缺陷窗口;步骤2,根据所述候选缺陷窗口的位置关系,合并相邻的所述候选缺陷窗口,得到候选缺陷区域;步骤3,获取所述候选缺陷区域的背景信息,并按照所述候选缺陷区域的灰度分布模式提取缺陷域;步骤4,将所述缺陷域按照尺度进行归一化,并提取特征向量,根据所述特征向量进行缺陷分类,得到缺陷分类结果。采用本发明方法能够对包含噪声的玻璃图像帧中的缺陷进行准确检测,并且能够有效地区分缺陷的类别,包括对未定义缺陷的判别。
-
公开(公告)号:CN102436637A
公开(公告)日:2012-05-02
申请号:CN201010297069.7
申请日:2010-09-29
Applicant: 中国科学院计算技术研究所 , 日电(中国)有限公司
Abstract: 本发明涉及从头部图像中自动分割头发的方法和系统,方法包括:步骤1,通过人脸检测和特征定位算法提取含有人脸和头发的头部图像,并对提取出的头部图像进行归一化;步骤2,对于训练集中标定头发的头部图像,根据各头部图像中标记的头发像素点得出位置先验模型,并提取特征,进行头发和非头发SVM分类器的学习;步骤3,依据位置先验模型和头发和非头发SVM分类器从待分割的图像中选择头发种子和背景种子;步骤4,从头发种子区域和背景种子区域中提取特征,依据特征完成对应于待分割图像的头发和非头发SVM分类器的在线学习;步骤5,依据对应于待分割图像的头发和非头发SVM分类器和位置先验模型进行头发分割。本发明能够提高头发分割准确性。
-
公开(公告)号:CN101483542B
公开(公告)日:2011-04-13
申请号:CN200810056069.0
申请日:2008-01-11
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种对网络流媒体音视频的多维度的访问量统计方法,包括步骤:设置不同形式的音视频访问量统计方法,根据不同形式的访问量统计方法,获取相应的音视频的用户访问的反馈信息;根据用户访问的反馈信息,进行不同的处理,得到不同形式的访问量统计方法的音视频访问量。所述设置不同形式的音视频访问量统计方法,包括:音视频被完整访问的访问量统计方法;或者音视频被访问一定时间的访问量统计方法;或者音视频中的一个片断被访问的访问量统计方法;或者音视频中的多个片段被访问多次的访问量统计方法中的一种或者一种以上的组合。
-
公开(公告)号:CN101540041A
公开(公告)日:2009-09-23
申请号:CN200810102495.3
申请日:2008-03-21
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种扫描文档浏览适配方法,包括下列步骤:步骤A,对输入的扫描文档的原始页面图像,进行预处理,去掉噪音和不必要的背景信息;步骤B,判断并将所述原始页面图像划分为多个大横向部分,对每个大横向部分根据电子设备的屏幕宽度大小进行适配的分析处理;步骤C,根据分析处理结果,确定新的适配页面图像的版式安排,生成最后结果。其对扫描的图像格式的电子文档,自动转换为可供小尺寸屏幕阅读的版面模式,方便用户的使用。
-
-
-
-
-
-
-
-
-