Patent search ap:("科大讯飞股份有限公司") AND inv:"周良" Page 6

51.

发明公开
合成视频的方法、电子设备及计算机程序产品有权

公开(公告)号：CN119323625A

公开(公告)日：2025-01-17

申请号：CN202411866722.5

申请日：2024-12-18

Applicant: 科大讯飞股份有限公司

Inventor： 王众 , 李超龙 , 雷新宇 , 庄江腾 , 疏坤 , 周良 , 何山 , 殷兵 , 刘聪

IPC: G06T11/60 , G10L13/08 , G06V40/20 , G06F16/732 , G06F16/783

Abstract: 本申请提出一种合成视频的方法、电子设备及计算机程序产品。该合成视频的方法包括：获取包含第一虚拟对象的第一视频以及包含目标虚拟对象的肢体动作的第二视频，针对第一视频，去除目标视频段中第一虚拟对象的目标肢体部位，得到待合成视频，目标视频段为第一视频中对应动作插入时段的视频段；基于第二视频和目标视频段的时序对应关系，将第二视频各视频帧的目标肢体部位拼接到待合成视频各视频帧的目标肢体部位缺失处，生成合成视频。由于第二视频仅包含目标肢体部位，因此，可以做到虚拟对象与肢体动作的解耦。在虚拟对象为虚拟人物的情况下，制作第二视频/动作视频时，无需考虑人物主要身体部位的穿着打扮，甚至无需考虑人物的身份。

52.

发明公开
三维人体重建方法、装置、设备及存储介质审中-实审

公开(公告)号：CN117808700A

公开(公告)日：2024-04-02

申请号：CN202311858003.4

申请日：2023-12-29

Applicant: 科大讯飞股份有限公司 , 科大讯飞(苏州)科技有限公司

Inventor： 张镇 , 李林 , 何山 , 周良 , 殷兵 , 刘聪

IPC: G06T5/70 , G06T7/50 , G06T7/80 , G06T7/13 , G06T5/50 , G06T17/00

Abstract: 本申请实施例公开了一种三维人体重建方法、装置、设备及存储介质，在获取从不同视角采集的同一人体的图像后，对各张图像进行特征提取，得到各张图像的特征信息；基于各张图像的特征信息，对各张图像的前景和背景分别进行预测，得到各个像素的预测信息，其中，任一像素的预测信息包括：任一像素属于前景的概率，对应前景的该任一像素的深度符合的第一概率分布函数，以及对应背景的该任一像素的深度符合的第二概率分布函数。基于各张图像的像素的预测信息确定各张图像的深度图像，将各张深度图像融合，得到人体的三维点云。本申请减少了人体非参数化模型的边缘的噪声。

53.

发明授权
基于语音的三维人脸模型驱动方法及相关装置有权

公开(公告)号：CN116188649B

公开(公告)日：2023-10-13

申请号：CN202310472056.6

申请日：2023-04-27

Applicant: 科大讯飞股份有限公司

Inventor： 杨硕 , 何山 , 殷兵 , 刘聪 , 周良 , 胡金水

IPC: G06T13/40 , G10L25/57

Abstract: 本申请提出一种基于语音的三维人脸模型驱动方法及相关装置，基于目标语音的语音特征和目标情绪特征，按照偏移预测参数，进行三维模型顶点偏移预测，按照预测得到的三维模型顶点偏移数据，驱动三维基础模型，得到目标语音对应的三维人脸动画。偏移预测参数是通过样本视频对应的4D合成数据、音频特征和情绪特征，进行三维模型顶点偏移预测处理而确定的；4D合成数据是将样本视频的每帧图像对应的三维重建人脸模型，按照样本视频的帧率合成的数据。本方案将样本视频的每帧图像重建为三维人脸模型得到的4D合成数据作为确定偏移预测参数的样本数据，提高了样本数据的数据量和情绪多样性，从而提高了语音驱动三维人脸模型的准确度和情绪化效果。

54.

发明授权
虚拟人交互方法、装置、电子设备及存储介质有权

公开(公告)号：CN115390678B

公开(公告)日：2023-03-31

申请号：CN202211326573.4

申请日：2022-10-27

Applicant: 科大讯飞股份有限公司

Inventor： 江昊宸 , 何山 , 殷兵 , 刘聪 , 周良 , 胡金水

IPC: G06F3/01 , G06T13/20 , G06T13/40

Abstract: 本申请提出一种虚拟人交互方法、装置、电子设备及存储介质，通过对目标对象的音视频数据进行视线追踪和情感分析，确定目标对象的视线轨迹特征和情感状态；根据目标对象的情感状态和虚拟形象的当前情感状态，预测虚拟形象的下一时刻情感状态；根据目标对象和虚拟形象的视线轨迹特征、目标对象的情感状态、虚拟形象的下一时刻情感状态、虚拟形象当前时刻的交互状态参数，预测虚拟形象下一时刻的交互状态参数，交互状态参数包括视线方向。本方案基于目标对象的情感状态与虚拟形象的情感状态，对目标对象和虚拟形象进行视线交互预测，实现了虚拟形象与目标对象在不同情感状态下的视线交互，提高了目标对象与虚拟形象的交互真实感和交互体验。

55.

发明授权
虚拟形象的生成方法、装置、设备及存储介质有权

公开(公告)号：CN115375809B

公开(公告)日：2023-03-14

申请号：CN202211310590.9

申请日：2022-10-25

Applicant: 科大讯飞股份有限公司

Inventor： 吴小燕 , 何山 , 殷兵 , 刘聪 , 周良

IPC: G06T13/40 , G06V10/80 , G06V20/40 , G06V40/16 , G06V40/18 , G10L25/63

Abstract: 本申请提供了虚拟形象的生成方法、装置、设备及存储介质，具体实现方案为：基于获取到的表达信息确定情绪特征以及脸部特征；基于所述情绪特征对特定视频序列进行情绪编辑处理，得到具有所述情绪特征的视频序列；其中，所述特定视频序列，包括特定对象的包含脸部的视频序列；至少基于具有所述情绪特征的视频序列以及所述脸部特征，生成目标对象的虚拟形象。根据本申请的技术方案，能够有效解决生成的虚拟形象表达情绪单一的问题。

56.

发明公开
脸部绑定方法、装置、设备及存储介质有权

公开(公告)号：CN115393532A

公开(公告)日：2022-11-25

申请号：CN202211326540.X

申请日：2022-10-27

Applicant: 科大讯飞股份有限公司

Inventor： 胡诗卉 , 何山 , 周良 , 胡金水 , 殷兵 , 刘聪

IPC: G06T17/00 , G06T13/40 , G06V40/16

Abstract: 本申请提供了一种脸部绑定方法、装置、设备及存储介质，涉及人工智能技术领域，具体实现方案为：利用获取到的目标对象的脸部图像，在目标对象对应的三维人脸模型中确定三维人脸模型的脸部特征区域；在脸部特征区域中确定对应的三维人脸模型顶点与脸部骨骼点的目标连接关系和三维人脸模型顶点与脸部骨骼点的目标运动关系；根据三维人脸模型顶点与脸部骨骼点的目标连接关系和三维人脸模型顶点与脸部骨骼点的目标运动关系，确定目标对象的三维人脸模型顶点与脸部骨骼点的绑定关系根据本申请的技术方案，能够在三维建模软件中实现三维人脸模型顶点与脸部骨骼点的自动绑定，提高脸部绑定效率，进而提升虚拟形象的生成效率。

57.

发明公开
一种虚拟角色模型处理方法、装置、电子设备及存储介质有权

公开(公告)号：CN115393487A

公开(公告)日：2022-11-25

申请号：CN202211327162.7

申请日：2022-10-27

Applicant: 科大讯飞股份有限公司

Inventor： 杨硕 , 何山 , 殷兵 , 刘聪 , 周良 , 胡金水

IPC: G06T13/40 , G06T17/00

Abstract: 本申请提供一种虚拟角色模型处理方法、装置、电子设备及存储介质，所述虚拟角色模型处理方法，在获得具有目标纹理的参考图像，以及虚拟角色三维模型的二维图像后，基于对参考图像的纹理编码和对二维图像的结构编码，获得参考图像的目标纹理特征编码和二维图像的目标结构特征编码，保证了纹理特征和结构特征的精确解耦，从而确保后续在对所述目标结构特征编码和目标纹理特征编码进行联合解码的过程中，参考图像的目标纹理特征能够有效迁移至虚拟角色三维模型，有效的保证了虚拟角色三维模型的纹理真实性。

58.

发明公开
拼音标注方法、装置、服务器及存储介质审中-实审

公开(公告)号：CN111144110A

公开(公告)日：2020-05-12

申请号：CN201911380064.8

申请日：2019-12-27

Applicant: 科大讯飞股份有限公司

Inventor： 周良 , 王志鹍 , 江源 , 胡国平 , 胡郁

IPC: G06F40/289 , G06F40/30 , G06N3/04 , G06N3/08

Abstract: 本申请实施例提供一种拼音标注方法、装置、服务器及存储介质，该方法包括：获取待标注文本，待标注文本包含至少一个多音字；将待标注文本输入训练好的拼音标注模型，对待标注文本进行处理，得到待标注文本的拼音标注；拼音标注模型包括文本编码网络和拼音预测网络；对待标注文本进行处理，得到待标注文本的拼音标注，包括：利用文本编码网络对待标注文本进行编码处理，得到待标注文本中每个字的输出向量；利用拼音预测网络将待标注文本中每个字的输出向量映射到多音字空间，预测目标多音字的拼音；目标多音字为至少一个多音字中的任一个。本申请实施例可以提高拼音标注的效率。

59.

发明公开
一种语音翻译方法及装置有权

公开(公告)号：CN108231062A

公开(公告)日：2018-06-29

申请号：CN201810032112.3

申请日：2018-01-12

Applicant: 科大讯飞股份有限公司

Inventor： 王雨蒙 , 周良 , 江源 , 胡国平

IPC: G10L15/00 , G06F17/28

Abstract: 本申请公开了一种语音翻译方法及装置，所述方法包括：对于需要进行文本翻译的语音数据，通过对该语音数据进行语音识别，生成语音识别文本；并从该语音数据中提取声学特征，根据提取的声学特征对语音识别文本进行翻译，得到携带了该语音数据的语音风格的翻译文本。可见，由于在对语音数据进行文本翻译时，考虑了语音数据本身具有的声学特征，使得翻译文本能够符合该语音数据的风格和特点，从而使得翻译文本更自然、更具有表达力，进而便于文本阅读者理解语义和语境。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification