Patent search ap:("华院计算技术(上海)股份有限公司") AND inv:"沈旭立" Page 1

1.

发明公开
一种声音信号转换方法、系统、装置和程序产品审中-公开

公开(公告)号：CN120018042A

公开(公告)日：2025-05-16

申请号：CN202510145075.7

申请日：2025-02-10

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 沈伟林 , 虞钉钉 , 沈旭立 , 蔡华 , 徐清

IPC: H04R25/00

Abstract: 本发明提供一种声音信号转换方法、系统、装置和程序产品，涉及辅助听力技术领域。其中，声音信号转换方法包括：采用声音采集模块监听周围环境；使用声音识别与分类模块进行声音事件识别；使用信号转换模块将识别到的声音事件转换为感官信号指令；使用信号反馈模块执行感官信号指令，产生感官信号，并传递给用户。本发明提出了一种基于感官反馈的辅助听力解决方案，尤其是利用触觉这一更为直接的感官通道，采用便携装置，配合高灵敏度的声音采集模块和快速的声音识别算法，使聋人在不同的场景下都能迅速感知外接的声音信息，提高了信息反馈的实时性、准确性和可辨识度，可适用于各种场景。

2.

发明公开
图像处理方法、系统、设备、介质及程序产品审中-实审

公开(公告)号：CN118657678A

公开(公告)日：2024-09-17

申请号：CN202410588642.1

申请日：2024-05-13

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 王晓梅 , 虞钉钉 , 沈旭立 , 曹培 , 蔡华 , 徐清

IPC: G06T5/70 , G06V10/774 , G06V10/82 , G06V10/764 , G06V10/40 , G06F17/16

Abstract: 本公开提供了一种图像处理方法、系统、设备、介质及程序产品。图像处理方法包括获取待处理图像；将待处理图像输入训练好的目标模型中，得到待处理图像的处理结果；其中，目标模型包括至少一层处理单元，每层处理单元所输出的数据分别输入对应的稀疏化模块，稀疏化模块用于将数据进行稀疏化处理并输出。将待处理图像输入至训练好的包括稀疏化模块的目标模型，从而利用稀疏化模块将所输入的待处理图像在处理过程中进行稀疏化处理，从而减少了待处理图像中的噪音，提升了信噪比，提升了图像处理的准确性。

3.

发明公开
图像分割方法及装置、计算机可读存储介质、终端审中-实审

公开(公告)号：CN118379490A

公开(公告)日：2024-07-23

申请号：CN202410317452.6

申请日：2024-03-19

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 虞钉钉 , 徐清 , 王晓梅 , 沈伟林 , 沈旭立 , 曹培

IPC: G06V10/26 , G06V10/44 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464

Abstract: 一种图像分割方法及装置、计算机可读存储介质、终端，所述方法包括：获取待处理图像；对待处理图像进行预处理；将待处理图像输入至图像分割模型，图像分割模型用于根据预处理的结果对待处理图像进行分割，得到待处理图像的图像分割结果，图像分割结果包括至少一个区域，同一区域中的像素点的类别相同；其中，根据预处理的结果对待处理图像进行分割包括：在使用第一卷积核进行卷积之前执行第一补零操作，在使用第二卷积核进行卷积之前执行第二补零操作，其中，第一卷积核和第二卷积核为属于图像分割模型中的同一个卷积层的不同卷积核，第一补零操作的类型和第二补零操作的类型不同。本申请提供的方案有利于提高图像分割的准确性。

4.

发明公开
抠图模型训练方法、图像抠图处理方法、装置及介质有权

公开(公告)号：CN118379321A

公开(公告)日：2024-07-23

申请号：CN202410476312.3

申请日：2024-04-19

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 曹培 , 虞钉钉 , 王晓梅 , 沈旭立 , 罗粤清 , 周邦健 , 沈伟林 , 徐清

IPC: G06T7/194

Abstract: 本公开提供了一种抠图模型训练方法、图像抠图处理方法、装置及介质，其中，抠图模型训练方法包括以下步骤：将样本图像分别输入人像抠图模型和物体抠图模型中，得到对应的第一图像和第二图像，所述第一图像为包含人像的抠图蒙版，所述第二图像为包含物体的抠图蒙版；对所述第一图像和所述第二图像执行与操作得到所述样本图像对应的标签，所述标签为同时包含人像和物体的抠图蒙版；利用所述样本图像以及所述样本图像对应的所述标签对目标抠图模型进行训练，通过样本图像和样本图像对应的标签构建同时包含人像和物体的多主体数据集对抠图模型进行训练，使抠图模型在面对人像和物体这种多主体抠图的场景下能够得到更加准确的抠图结果。

5.

发明公开
一种基于深度学习的自动切分新闻主播视频数据集的方法、系统及电子设备有权

公开(公告)号：CN118233697A

公开(公告)日：2024-06-21

申请号：CN202410464923.6

申请日：2024-04-17

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 曹培 , 王晓梅 , 虞钉钉 , 沈旭立 , 罗粤清 , 周邦健 , 沈伟林 , 徐清

IPC: H04N21/44 , H04N21/4402 , H04N21/845 , G06V40/16 , G06N3/08

Abstract: 传统的视频数据集切分方法主要依赖于手工标注，这一过程耗时耗力，且难以适应大规模视频数据处理的需求。本发明提供一种基于深度学习的自动切分新闻主播视频数据集的方法、系统及电子设备，包括：获取用户提交的新闻视频；对所述新闻视频进行第一次筛查，得到新闻主播视频和采访观众视频；对所述新闻主播视频和所述采访观众视频进行第二次筛查，过滤所述采访观众视频，得到过滤后的新闻主播视频；使用深度模型对所述过滤后的新闻主播视频进行逐帧筛查，得到精确的新闻主播视频切分结果。以实现高精度、全自动的新闻主播视频切分。

6.

发明授权
图像生成方法及装置、计算机可读存储介质、终端有权

公开(公告)号：CN116071472B

公开(公告)日：2024-04-30

申请号：CN202310099764.X

申请日：2023-02-08

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 虞钉钉 , 徐清 , 王晓梅 , 沈伟林 , 沈旭立 , 曹培

IPC: G06T13/40 , G06T13/20 , G06T3/4038 , G06V40/16 , G06V10/80 , G06V10/77 , G06N3/0464 , G06N3/08

Abstract: 一种图像生成方法及装置、计算机可读存储介质、终端，所述方法包括：根据输入的音频信息，得到模板图像，所述模板图像用于表征和所述音频信息相适配的脸部姿态，所述脸部姿态至少包括唇形；对所述音频信息进行特征提取，得到第一特征信息；对图像信息进行特征提取，得到第二特征信息，所述图像信息通过对所述模板图像和预设脸部图像进行图像融合得到；对第三特征信息进行解码处理，生成目标脸部图像，其中，所述第三特征信息是对所述第一特征信息和第二特征信息进行特征融合得到的。本申请提供的方案能够生成高质量的脸部图像。

7.

发明公开
人体关键点生成方法及装置、计算机可读存储介质、终端审中-实审

公开(公告)号：CN117520762A

公开(公告)日：2024-02-06

申请号：CN202311260150.1

申请日：2023-09-26

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 虞钉钉 , 徐清 , 宣晓华 , 王晓梅 , 沈伟林 , 沈旭立 , 曹培

IPC: G06F18/20 , G06F18/22 , G06V40/10 , G06V20/40 , G06N20/00 , G10L15/02

Abstract: 一种人体关键点生成方法及装置、计算机可读存储介质、终端，所述人体关键点包含人脸关键点和躯体关键点，所述方法包括：对目标音频进行第一特征提取得到第一特征序列，然后解码得到多组人脸关键点，第一特征序列至少包含目标音频的语义信息和韵律信息；对目标音频进行第二特征提取得到第二特征序列，第二特征序列包含目标音频的语义信息且不包含韵律信息；采用第二特征序列与预设的待匹配样本库中的至少一部分样本特征序列进行特征匹配，以确定相似度最高的样本特征序列；基于所述多组人脸关键点，以及相似度最高的样本特征序列对应的一组或多组躯体关键点进行拼接，得到多组人体关键点。上述方案有助于提高生成的人体关键点的准确性和稳定性。

8.

发明公开
人脸情绪图像生成方法及装置、可读存储介质、终端审中-实审

公开(公告)号：CN117218224A

公开(公告)日：2023-12-12

申请号：CN202311057116.4

申请日：2023-08-21

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 王晓梅 , 沈旭立 , 虞钉钉 , 曹培

IPC: G06T11/00 , G06V40/16 , G06V10/80 , G06V10/774 , G06V10/771

Abstract: 一种人脸情绪图像生成方法及装置、可读存储介质、终端，所述方法包括：对目标情绪文本以及输入音频分别进行编码，以得到情绪特征向量和语音特征向量序列；将情绪特征向量分别与每个语音特征向量进行融合，得到融合特征向量序列；将融合特征向量序列输入预训练的表情预测模型，以得到第一人脸表情向量序列；基于第一人脸表情向量序列和第二人脸表情向量序列进行渲染，以得到渲染人脸图像序列，所述第二人脸表情向量序列是根据与所述语音特征向量序列时序对齐的原始人脸图像序列确定的；将渲染人脸图像序列和所述情绪特征向量输入预训练的图像映射模型，以生成人脸情绪图像序列。上述方案有助于获得情绪状态更加自然且符合预期的人脸情绪图像。

9.

发明公开
一种利用扩散模型的语音驱动人脸图像生成方法及系统有权

公开(公告)号：CN117152283A

公开(公告)日：2023-12-01

申请号：CN202310944172.3

申请日：2023-07-28

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 虞钉钉 , 徐清 , 王晓梅 , 沈伟林 , 沈旭立 , 曹培

IPC: G06T11/00 , G06V40/16 , G06V10/80 , G06N3/0455 , G06N3/0464 , G06N3/08 , G10L25/03 , G10L25/30

Abstract: 本发明提供一种利用扩散模型的语音驱动人脸图像生成方法及系统，涉及AIGC技术领域，包括：输入驱动音频和部分人脸图像；对驱动音频和部分人脸图像分别进行特征提取，得到音频特征和图像特征；将音频特征和图像特征输入到扩散模型，生成完整图像特征；将扩散模型生成的完整图像特征输入解码器，得到完整人脸图像。本发明充分利用扩散模型以及特征融合，实现准确清晰地生成和音频相对应的人脸图像。

10.

发明公开
一种提升扩散模型图片生成效果的方法审中-实审

公开(公告)号：CN116863034A

公开(公告)日：2023-10-10

申请号：CN202310850135.6

申请日：2023-07-11

Applicant: 华院计算技术(上海)股份有限公司

Inventor： 金致宇 , 沈旭立

IPC: G06T11/60 , G06T11/00 , G06T9/00

Abstract: 本发明提供一种提升扩散模型图片生成效果的方法，涉及计算机技术领域，包括：给定预训练的文本编码器并输入文字描述；将文本编码器内部注意力机制的尺度因子替换为稳定尺度因子，得到新的文本编码器；根据文字描述及新的文本编码器得到文本编码，利用扩散模型获得文字编码的编码文本向量；基于编码文本向量，通过解码模型得到输入的文字描述的生成图片。本发明使用稳定尺度因子，在文本生成图像领域中自适应地调节尺度因子，从而实现自然的高保真的生成图片，最终提升扩散模型生成效果。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification