-
公开(公告)号:CN110728203B
公开(公告)日:2022-04-12
申请号:CN201910900738.6
申请日:2019-09-23
Applicant: 清华大学 , 中国人民解放军总医院
Abstract: 本发明公开了一种基于深度学习的手语翻译视频生成方法及系统,其中,该方法包括:通过数据集的手语视频循环训练变分自编码器模型和环状生成对抗网络模型,直至达到预设维度,输出图像低维特征序列;通过数据集的语言文本序列训练语言翻译模型,输出与图像低维特征序列对应的文本低维特征序列,以构建语言文本序列与手语视频的映射关系;基于映射关系,将待测语言文本序列输入语言翻译模型,映射出待测语言文本序列对应的图像低维特征序列,视频模型解码图像低维特征序列,生成对应的手语视频。本发明实施例的方法通过构建压缩隐空间来对图像进行降维处理,解决视频生成问题对计算机存储与计算能力的极高要求,可以使用通用语言模型进行翻译训练。
-
公开(公告)号:CN112802080A
公开(公告)日:2021-05-14
申请号:CN202110098807.3
申请日:2021-01-25
Applicant: 清华大学
Abstract: 本发明提出一种基于深度学习的单目绝对深度估计方法和装置,其中,方法包括:获取样本RGB图片对应的深度数据和绝对深度;将样本RGB图片的相对深度输入初始模型,获取初始模型输出的参考绝对深度;根据预设的第一损失函数计算参考绝对深度和相对深度对应的绝对深度的损失值;若损失值大于预设阈值,则调整初始模型,直至损失值小于预设阈值时,训练完成与初始模型对应的目标模型;根据目标模型计算场景的绝对深度。由此,可以较好地应用于自动驾驶等对场景深度测算要求较高的场景中。
-
公开(公告)号:CN109903393B
公开(公告)日:2021-03-16
申请号:CN201910133353.1
申请日:2019-02-22
Applicant: 清华大学
Abstract: 本申请提出基于深度学习的新视角场景合成方法和装置,其中,方法包括:通过控制相机在训练场景下按照预设圆轨道旋转,每旋转预设角度对所述训练场景拍摄一张图像得到训练图像集,获取训练图像集中N张连续训练图像中第一张训练图像和第N张训练图像及其对应的相机位置参数信息;通过计算得到第一张训练图像和第N张训练图像的图像特征以对场景合成模型进行训练,根据合成场景图像和真实训练场景图像对应的损失函数值对场景合成模型的网络参数进行调整,以完成对场景合成模型的训练。由此,通过训练场景中的训练图像的不同图像特征对场景合成模型进行训练,提高了场景合成的准确度。
-
公开(公告)号:CN112486331A
公开(公告)日:2021-03-12
申请号:CN202011506838.X
申请日:2020-12-18
Applicant: 清华大学
IPC: G06F3/0346 , G06F3/01 , G06N3/08
Abstract: 本申请提出一种基于IMU的三维空间手写输入方法和装置,涉及人工智能技术领域,其中,方法包括:获取用户的各个位置上惯性测量单元IMU传感器采集到的多个惯性信息;通过深度神经网络对多个惯性信息进行处理,获取用户的骨骼链姿态信息;通过正向动力学对骨骼链姿态信息进行求解,获取用户的手部位置,并根据手部位置和历史位置信息形成三维手写轨迹。由此,使用户可以在空中徒手作画并实时观看到画出的三维轨迹实现手写输入,满足用户需求。
-
公开(公告)号:CN112102237A
公开(公告)日:2020-12-18
申请号:CN202010794964.3
申请日:2020-08-10
Applicant: 清华大学
IPC: G06T7/00
Abstract: 本发明提出一种基于半监督学习的脑部肿瘤识别模型的训练方法及装置,所述脑部肿瘤识别模型包括检测网络和分类网络,所述方法包括:获取第一训练样本集和第二训练样本集;利用所述第一训练样本集,分别对所述检测网络和所述分类网络进行无监督学习,生成预训练检测网络和预训练分类网络;利用所述第二训练样本集,对所述预训练检测网络和所述预训练分类网络进行训练,生成经过训练后的检测网络和经过训练后的分类网络;输出经过训练后的脑部肿瘤识别模型,所述经过训练后的脑部肿瘤识别模型包括所述经过训练后的检测网络和所述经过训练后的分类网络。本发明通过半监督学习方式充分利用精标与粗标数据,从而得到更加鲁棒的深度卷积神经网络。
-
公开(公告)号:CN111583134A
公开(公告)日:2020-08-25
申请号:CN202010313003.6
申请日:2020-04-20
Applicant: 清华大学
IPC: G06T5/00
Abstract: 本发明公开了一种带标注的手与物体复杂交互真实彩色数据生成方法及装置,该方法包括:通过使用两台相对放置的RGBD相机采集人手与物体交互过程,获得两组彩色-深度数据对序列,使用深度数据对交互过程进行重建,获得人手姿态、物体几何和物体姿态,并将其转换到彩色相机坐标系下,建立单目RGB和人手姿态、物体几何和物体姿态的数据集。该方法在深度序列上分割人手与物体交互部分并重建人手姿态、物体几何和姿态,不会破坏彩色数据。
-
公开(公告)号:CN110705413A
公开(公告)日:2020-01-17
申请号:CN201910903387.4
申请日:2019-09-24
Applicant: 清华大学 , 中国人民解放军总医院
Abstract: 本发明公开了一种基于视线方向和LSTM神经网络的情感预测方法及系统,其中,该方法包括:采集不同人物在不同情感状态下的脸部视频;确定所有视频帧的真实情感标签,并将每一帧的情感标签与该帧中人物的视线方向共同组成情感预测训练集;利用该训练集对长短期记忆深度神经网络进行训练,得到的包含最优参数的深度神经网络;最终向最优参数深度神经网络输入任意视频的人物视线方向,对当前帧进行情感预测。本发明实施例的方法,利用长短期记忆深度神经网络对连续视频帧中的视线方向和人类情感间的关系进行建模,通过该网络预测每个视频帧中人物的情感状况,从而在时域上对人物的情感变化进行判断。
-
公开(公告)号:CN112149717B
公开(公告)日:2022-12-02
申请号:CN202010916992.8
申请日:2020-09-03
Applicant: 清华大学 , 中国人民解放军总医院
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06N3/08 , G06N3/04
Abstract: 本发明提出一种基于置信度加权的图神经网络训练方法及装置,其中,方法包括:从训练样本集中随机选择一个医学图像序列输入至图神经网络模型中,根据从图神经网络模型获取的图像特征向量表示计算医学图像序列中每张医学图像的分类概率值,根据分类概率值计算每张医学图像对应类别的置信度,进而根据分类概率值和置信度计算损失函数,根据损失函数对图神经网络模型的参数进行更新,并在更新参数后的图神经网络模型收敛时输出图神经网络模型。本发明在模型训练过程中分析了医学图像之间的关系,考虑了每张医学图像的分类概率值和分类的置信度,使得标注噪声对损失函数及整个训练过程的影响被减弱,能够得到鲁棒性和准确性都较高的图神经网络。
-
公开(公告)号:CN111582039B
公开(公告)日:2022-12-02
申请号:CN202010283457.3
申请日:2020-04-13
Applicant: 清华大学
Abstract: 本发明公开了一种基于深度学习与大数据的手语识别与转换系统及方法,该系统包括:图像采集模块、图像识别模块、信息匹配模块、内容整理模块、文字输出模块和语音输出模块;通过采集人体影像序列;提取人体影像序列的每一帧图像中的面部关键点坐标和手部关键点坐标;在手语动作数据库中搜索与面部关键点坐标和手部关键点坐标最匹配的自然语言语素,计算匹配值;根据相邻语素间的重复情况与匹配值对自然语言语素进行过滤;将保留的自然语言语素转换为文字并显示在屏幕上;根据文字语言数据库寻找与文字对应的语音,并进行播放。该系统能够方便快捷地将手语图像序列转换成其他语言的文字与语音输出,能够更加容易地理解手语的含义,提高沟通效率。
-
公开(公告)号:CN111583295B
公开(公告)日:2022-08-12
申请号:CN202010348577.7
申请日:2020-04-28
Applicant: 清华大学
IPC: G06T7/20
Abstract: 本发明公开了一种基于图像块二值化哈希表示的实时稠密光流计算方法,包括:输入两帧连续的图像,将其转换为灰度图;根据灰度图构建图像金字塔;通过编码函数处理图像金字塔,得到各个图像块的二值化哈希表示;在图像金字塔中的最小尺寸图像上随机初始化NNF映射;在最小图像尺寸上运行分块式PatchMatch算法,得到该层次的NNF映射;借助上层图像金字塔中计算得到的NNF映射,对当前层NNF映射进行初始化;在当前层运行PatchMatch算法,优化当前层NNF映射;循环执行前两个步骤至原始图像尺寸,得到最终光流估计。该方法提高了图像块特征提取和相似性计算的效率,在不失准确性的前提下,实现高实时性的稠密光流计算。
-
-
-
-
-
-
-
-
-