Patent search ap:("华院计算技术(上海)股份有限公司" OR "复旦大学") AND inv:"沈旭立" Page 2

11.

发明公开
一种利用扩散模型的语音驱动人脸图像生成方法及系统有权

公开(公告)号：CN117152283A

公开(公告)日：2023-12-01

申请号：CN202310944172.3

申请日：2023-07-28

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 虞钉钉 , 徐清 , 王晓梅 , 沈伟林 , 沈旭立 , 曹培

IPC: G06T11/00 , G06V40/16 , G06V10/80 , G06N3/0455 , G06N3/0464 , G06N3/08 , G10L25/03 , G10L25/30

Abstract: 本发明提供一种利用扩散模型的语音驱动人脸图像生成方法及系统，涉及AIGC技术领域，包括：输入驱动音频和部分人脸图像；对驱动音频和部分人脸图像分别进行特征提取，得到音频特征和图像特征；将音频特征和图像特征输入到扩散模型，生成完整图像特征；将扩散模型生成的完整图像特征输入解码器，得到完整人脸图像。本发明充分利用扩散模型以及特征融合，实现准确清晰地生成和音频相对应的人脸图像。

12.

发明公开
一种提升扩散模型图片生成效果的方法审中-实审

公开(公告)号：CN116863034A

公开(公告)日：2023-10-10

申请号：CN202310850135.6

申请日：2023-07-11

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 金致宇 , 沈旭立

IPC: G06T11/60 , G06T11/00 , G06T9/00

Abstract: 本发明提供一种提升扩散模型图片生成效果的方法，涉及计算机技术领域，包括：给定预训练的文本编码器并输入文字描述；将文本编码器内部注意力机制的尺度因子替换为稳定尺度因子，得到新的文本编码器；根据文字描述及新的文本编码器得到文本编码，利用扩散模型获得文字编码的编码文本向量；基于编码文本向量，通过解码模型得到输入的文字描述的生成图片。本发明使用稳定尺度因子，在文本生成图像领域中自适应地调节尺度因子，从而实现自然的高保真的生成图片，最终提升扩散模型生成效果。

13.

发明公开
一种人格评估系统设计方法、装置、存储介质和程序产品审中-公开

公开(公告)号：CN119889551A

公开(公告)日：2025-04-25

申请号：CN202510060705.0

申请日：2025-01-14

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 沈伟林 , 徐清 , 蔡华 , 沈旭立

IPC: G16H10/20 , A61B5/16 , G16H10/60 , G16H15/00 , G16H50/30 , G16H50/70

Abstract: 本发明提供一种人格评估系统设计方法、装置、存储介质和程序产品，涉及自然语言处理技术领域及心理学人格评估技术领域。其中，人格评估系统设计方法包括：管理用户注册与登录，并控制对评估结果的访问权限；采集数据并对数据进行预处理；使用大语言模型分析经过预处理的数据，得到评估数据；设定人格评估体系，对所述评估数据进行特征提取，生成实时特征维度评分；根据实时特征维度评分生成定期解析报告，并根据用户反馈调整解析报告；对数据传输和存储进行加密处理，确保数据安全。本发明基于心理学人格评估的相关理论与方法，利用大语言模型的语义理解和情感分析能力进行人格评估，实现了使用指定的人格评估体系进行精准、便捷和实时的评估。

14.

发明公开
一种抠像精度专家判别方法、系统、存储介质和程序产品审中-公开

公开(公告)号：CN119888415A

公开(公告)日：2025-04-25

申请号：CN202411908024.7

申请日：2024-12-23

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 曹培 , 虞钉钉 , 沈旭立 , 罗粤清 , 周邦健 , 沈伟林 , 徐清

IPC: G06V10/776 , G06V10/26 , G06V10/44 , G06V10/764 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/084 , G06T7/11 , G06T7/13

Abstract: 本发明提供一种抠像精度专家判别方法、系统、存储介质和程序产品，其中方法包括：获取真值蒙版图；使用边界检测技术识别真值蒙版图的边界区域，随机决定添加干扰项，得到处理好的训练数据集；对处理好的训练数据集使用ViT模型作为骨干网络进行训练，得到专家判别器；使用专家判别器通过评分机制对抠像模型生成的边界区域进行评估；将专家判别器的评分结果反馈到抠像模型中，作为损失函数的一部分，帮助抠像模型提升边界处理的精确度。本发明能够显著提高细微边界的分割精度，特别是在处理细小、复杂场景时，最终输出的前景图像或视频边界更加清晰、准确，实现了更为精准的边界分割。

15.

发明公开
一种多专家混合模型的决策方法、系统、存储介质和程序产品审中-实审

公开(公告)号：CN119692503A

公开(公告)日：2025-03-25

申请号：CN202411756900.9

申请日：2024-12-02

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 沈旭立 , 曹培 , 虞钉钉 , 徐清 , 宣晓华

IPC: G06N20/20 , G06N3/04 , G06N5/04

Abstract: 本发明提供一种多专家混合模型的决策方法、系统、存储介质和程序产品，属于计算机技术领域。其中方法包括以下步骤：构建多个参数可学习的专家模型；构建一个参数可学习的全局模型；获取多模态任务数据集，分别训练各个专家模型和全局模型，得到全局模型和各个专家模型的输出；根据全局模型和各个专家模型的输出，利用专家模型选择机制，得到多专家混合模型的决策权重；将决策权重点乘各个专家模型的输出，通过加权求和的方式得到模型决策结果。本发明简化了混合专家模型推理阶段的流程，减少了模型的复杂程度和参数量，使得整体模型更加高效。

16.

发明公开
一种奶量检测和建模的方法、系统、存储介质和程序产品审中-实审

公开(公告)号：CN119478518A

公开(公告)日：2025-02-18

申请号：CN202411579032.1

申请日：2024-11-06

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 李辰睿 , 沈旭立 , 王晓梅 , 曹培 , 虞钉钉 , 徐清 , 宣晓华

IPC: G06V10/764 , G06V20/40 , G06T7/10 , G06T5/50 , G06V10/82 , G06N3/08 , G06N3/04

Abstract: 本发明提供一种奶量检测和建模的方法、系统、存储介质和程序产品，属于奶量检测技术领域。其中奶量检测模型建立方法包括以下步骤：收集图像；对图像进行标注，得到初始标注；建立并训练基础图像分割模型；对图像中的部分视频帧进行标注；对基础图像分割模型进行细粒度调节，得到调节后的图像分割模型；使用调节后的图像分割模型对图像进行预测，挑选出正确的预测结果作为新标注；将新标注和初始标注组合成数据集，结合注意力机制训练基础图像分割模型，得到进阶图像分割检测模型；输出奶瓶检测结果、奶瓶的最大容量和液面位置；进行推理结果集成后处理，输出最终结果。本发明构建了一个高准确率、低误报率、高效率、可扩展的奶瓶奶量的检测方法。

17.

发明授权
一种利用扩散模型的语音驱动人脸图像生成方法及系统有权

公开(公告)号：CN117152283B

公开(公告)日：2025-02-11

申请号：CN202310944172.3

申请日：2023-07-28

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 虞钉钉 , 徐清 , 王晓梅 , 沈伟林 , 沈旭立 , 曹培

IPC: G06T11/00 , G06V40/16 , G06V10/80 , G06N3/0455 , G06N3/0464 , G06N3/08 , G10L25/03 , G10L25/30

Abstract: 本发明提供一种利用扩散模型的语音驱动人脸图像生成方法及系统，涉及AIGC技术领域，包括：输入驱动音频和部分人脸图像；对驱动音频和部分人脸图像分别进行特征提取，得到音频特征和图像特征；将音频特征和图像特征输入到扩散模型，生成完整图像特征；将扩散模型生成的完整图像特征输入解码器，得到完整人脸图像。本发明充分利用扩散模型以及特征融合，实现准确清晰地生成和音频相对应的人脸图像。

18.

发明授权
数字人交互方法及系统、计算机可读存储介质、数字人设备有权

公开(公告)号：CN117234369B

公开(公告)日：2024-06-21

申请号：CN202311057771.X

申请日：2023-08-21

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 沈旭立 , 王晓梅 , 虞钉钉 , 蔡华 , 沈伟林 , 徐清

IPC: G06F3/0481 , G06T13/40 , G06V10/80

Abstract: 本发明公开一种数字人交互方法及系统、计算机可读存储介质、数字人设备，该方法包括：接收包含语音的用户交互视频；将所述用户交互视频分离为视频帧和语音，将所述语音转换为文本，得到多模态数据；根据所述多模态数据分别获取基于视频、语音、文本的情绪感知结果及感知编码；根据各模态的情绪感知结果或感知编码确定控制标签向量；将所述控制标签向量融合到各模态的感知编码中；根据融合后的各模态的感知编码分别生成基于视频、语音、文本的生成内容；将所述基于视频、语音、文本的生成内容进行合成处理，得到合成视频。利用本发明方案，可以有效提高数字人的情感识别和表达能力，提升用户使用体验和效率。

19.

发明公开
人脸重建方法及装置、计算机可读存储介质、终端审中-实审

公开(公告)号：CN116664746A

公开(公告)日：2023-08-29

申请号：CN202310620674.0

申请日：2023-05-29

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 虞钉钉 , 徐清 , 王晓梅 , 沈伟林 , 沈旭立 , 曹培

IPC: G06T15/04 , G06T15/00 , G06T3/00 , G06T7/50 , G06T3/40 , G06T7/40 , G06V40/16 , G06V10/80

Abstract: 一种人脸重建方法及装置、计算机可读存储介质、终端，所述方法包括：分别对原始人脸图像及其深度图像进行特征提取，得到人脸特征矩阵以及深度图特征矩阵；对所述人脸特征矩阵以及所述深度图特征矩阵进行拼接处理，得到融合特征矩阵；将所述融合特征矩阵输入预测模型，得到优化形状矩阵和优化表情矩阵；基于所述优化形状矩阵和所述优化表情矩阵，对初始化纹理矩阵和初始化光照控制矩阵进行迭代优化，以确定优化纹理矩阵和优化光照控制矩阵。采用上述方案有助于改进人脸重建的效果。

20.

发明公开
人脸动画生成方法及装置、计算机可读存储介质、终端有权

公开(公告)号：CN116664731A

公开(公告)日：2023-08-29

申请号：CN202310753806.7

申请日：2023-06-21

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 胡航海 , 王晓梅 , 沈旭立 , 徐清 , 戈维峰

IPC: G06T13/40 , G06V10/774 , G10L15/06

Abstract: 一种人脸动画生成方法及装置、计算机可读存储介质、终端，方法包括：对输入音频进行特征提取，得到语音特征序列；基于语音特征序列、参考人脸动画以及预训练模型，进行多轮迭代，得到多帧人脸生成动画，其中，在每轮迭代中，采用下述方式确定当前轮的人脸生成动画：基于之前各轮得到的人脸生成动画确定当前轮的人脸动画序列，并对当前轮的人脸动画序列、当前轮的初始化人脸动画以及参考人脸动画进行拼接；将当前轮的人脸动画拼接结果与当前轮的语音特征拼接结果输入预训练模型，得到预测噪声；采用预测噪声对当前轮的初始化人脸动画进行去噪处理，得到当前轮的人脸生成动画。上述方案有助于提高生成的人脸动画之间的表情状态的平滑性和连贯性。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification