-
公开(公告)号:CN118055271A
公开(公告)日:2024-05-17
申请号:CN202410133249.3
申请日:2024-01-30
Applicant: 华院计算技术(上海)股份有限公司
IPC: H04N21/24 , H04N21/242 , H04N21/43 , H04N21/442 , H04N21/234 , H04N21/44
Abstract: 本发明公开一种说话人视频音画处理方法及装置,该方法包括:接收待检测说话人视频;依次对所述待检测说话人视频的各片段提取人脸图像特征和语音特征;将每个片段对应的人脸图像特征和语音特征输入预先构建的音画匹配模型,确定所述说话人视频的音画匹配度;根据所述音画匹配度确定所述待检测说话人视频的音画是否同步。利用本发明方案,可以有效地实现说话人视频音画不同步的判别。在确定说话人视频的音画不同步的情况下,还可对所述待检测说话人视频进行修复,实现音画同步,保证说话人视频质量。
-
公开(公告)号:CN116340481B
公开(公告)日:2024-05-10
申请号:CN202310182371.5
申请日:2023-02-27
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 一种自动回复提问的方法及装置、计算机可读存储介质、终端,方法包括:确定问答库,问答库包含多组问题及每组问题对应的一个或多个回答,每组问题包含一个标准问题及其对应的一个或多个相似问题;确定输入提问的第一句向量与所述问答库每个标准问题的第二句向量之间的第一相似度;如果最大第一相似度小于第一阈值,则基于各个第一相似度对问答库进行筛选,得到待匹配问题集;分别确定第一句向量与待匹配问题集的每个问题的第三句向量之间的第二相似度;如果最大第二相似度大于等于第二阈值,则将最大第二相似度所属的问题对应的至少一个回答,作为输入提问的最终回答;其中,第一阈值小于等于第二阈值。上述方案可以提高回答的效率与准确性。
-
公开(公告)号:CN116664731B
公开(公告)日:2024-03-29
申请号:CN202310753806.7
申请日:2023-06-21
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T13/40 , G06V10/774 , G10L15/06
Abstract: 一种人脸动画生成方法及装置、计算机可读存储介质、终端,方法包括:对输入音频进行特征提取,得到语音特征序列;基于语音特征序列、参考人脸动画以及预训练模型,进行多轮迭代,得到多帧人脸生成动画,其中,在每轮迭代中,采用下述方式确定当前轮的人脸生成动画:基于之前各轮得到的人脸生成动画确定当前轮的人脸动画序列,并对当前轮的人脸动画序列、当前轮的初始化人脸动画以及参考人脸动画进行拼接;将当前轮的人脸动画拼接结果与当前轮的语音特征拼接结果输入预训练模型,得到预测噪声;采用预测噪声对当前轮的初始化人脸动画进行去噪处理,得到当前轮的人脸生成动画。上述方案有助于提高生成的人脸动画之间的表情状态的平滑性和连贯性。
-
公开(公告)号:CN117234369A
公开(公告)日:2023-12-15
申请号:CN202311057771.X
申请日:2023-08-21
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F3/0481 , G06T13/40 , G06V10/80
Abstract: 本发明公开一种数字人交互方法及系统、计算机可读存储介质、数字人设备,该方法包括:接收包含语音的用户交互视频;将所述用户交互视频分离为视频帧和语音,将所述语音转换为文本,得到多模态数据;根据所述多模态数据分别获取基于视频、语音、文本的情绪感知结果及感知编码;根据各模态的情绪感知结果或感知编码确定控制标签向量;将所述控制标签向量融合到各模态的感知编码中;根据融合后的各模态的感知编码分别生成基于视频、语音、文本的生成内容;将所述基于视频、语音、文本的生成内容进行合成处理,得到合成视频。利用本发明方案,可以有效提高数字人的情感识别和表达能力,提升用户使用体验和效率。
-
公开(公告)号:CN116385270A
公开(公告)日:2023-07-04
申请号:CN202310412411.0
申请日:2023-04-18
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06T3/40 , G06T3/00 , G06N3/0455 , G06N3/08 , G06N3/0464
Abstract: 本发明公开了一种基于多重损失和分辨率的图像转图像的方法,包括:获取输入图像,并对图像进行多分辨率预处理;将得到的不同分辨率图像输入到已经训练好的深度模型;其中,深度模型根据多个不同的分辨率,先从低分辨率模块至高分辨率模块依次进行训练,再进行整个模型的联合训练;在模型训练中,构造的损失函数包括:每个分辨率下的生成图像和真实图像之间的L1损失、由判别模型判断的生成图像是否真实的损失和生成图像和真实图像之间的风格损失;不同分辨率的图像通过深度模型进行整合最终得到相对应的图像。本发明充分利用图像的不同分辨率信息,结合应用多重损失训练好的深度模型,可以有效提高转换图像的质量。
-
公开(公告)号:CN116384412A
公开(公告)日:2023-07-04
申请号:CN202310172048.X
申请日:2023-02-24
Applicant: 华院计算技术(上海)股份有限公司
IPC: G06F40/35 , G06F40/30 , G06N3/0455
Abstract: 一种对话内容生成方法及装置、计算机可读存储介质、终端,所述方法包括:获取用户输入的当前话语;获取预设人物的多条偏好数据,所述多条偏好数据用于描述所述预设人物的行为偏好和/或认知偏好;根据所述多条偏好数据、所述当前话语和对话上下文历史,生成输入文本;将所述输入文本输入至预先训练得到的回复生成模型,得到所述回复生成模型输出的所述当前话语的回复内容。通过本申请提供的方案,能够在多轮对话中生成对话风格统一的回复内容。
-
公开(公告)号:CN114550239A
公开(公告)日:2022-05-27
申请号:CN202210103257.4
申请日:2022-01-27
Applicant: 华院计算技术(上海)股份有限公司
Abstract: 一种视频生成方法及装置、存储介质、终端,所述方法包括:获取待处理文本;将所述待处理文本转化为音节序列;将所述音节序列输入至视频生成模型,以得到所述视频生成模型输出的虚拟数字对象的视频;其中,所述视频生成模型是采用第一训练数据对第一预设模型进行训练得到的,所述第一训练数据包括第一样本音节序列和第一样本图像序列,所述第一样本音节序列是由第一样本文本转化得到的,所述第一样本图像序列中的图像包含所述虚拟数字对象脸部的影像,且所述第一样本图像序列中所述虚拟数字对象的唇形与所述第一样本文本相匹配。通过本发明的方案,可以高效地生成虚拟数字对象的唇形视频。
-
公开(公告)号:CN112446741B
公开(公告)日:2022-02-15
申请号:CN202011455170.0
申请日:2020-12-10
Applicant: 华院计算技术(上海)股份有限公司
Inventor: 徐清
Abstract: 本发明公开了一种基于概率知识图谱的用户画像方法及系统,包括:获取用户的问卷人格信息和用户行为数据;基于问卷人格信息和用户行为数据,利用线性回归得到行为关于人格的回归系数;对回归系数进行归一化处理,得到归一化回归系数;基于两个行为的归一化回归系数,计算行为之间相似度;将行为和行为之间相似度存入图数据库中,构建概率性知识图谱。发明利用概率性知识图谱进行用户画像,其不仅能解决传统知识图谱“缺乏人类对知识的动态与不确定性表示”的局限,还具有在信息及计算资源不足情况下对不确定事实进行推理的能力,从而对用户进行更有效的画像。
-
公开(公告)号:CN110457590B
公开(公告)日:2021-08-27
申请号:CN201910554801.5
申请日:2019-06-25
Applicant: 华院计算技术(上海)股份有限公司
Inventor: 徐清
IPC: G06F16/9536 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于小数据输入的智能用户画像方法,其中,包括:创建用户基本信息模型、行为纬度模型,输入用户对应数据,生成基本信息行为数据;对基本信息行为数据进行深度学习,获取用户行为高阶信息数据;通过前馈神经网络将用户行为高阶信息数据映射到隐性内驱力模型中,获取隐性内驱力数据;创建用户跨领域行为模型数据;将隐性内驱力数据与用户跨领域行为模型数据匹配,生成用户画像。本发明在完成前期的数据收集处理后,将隐性内驱力数据与用户跨领域行为模型数据匹配,生成用户画像。采用了隐性内驱力(BFI)技术,大大减弱了对数据的依赖量,支持小数据冷启动;输出维度丰富,支持跨领域预测;削弱了马太效应。
-
-
-
-
-
-
-
-