Patent search ap:("科大讯飞股份有限公司") AND inv:"何山" Page 4

31.

发明公开
开放式问答及多模态大模型的训练方法、装置及相关设备审中-实审

公开(公告)号：CN117235232A

公开(公告)日：2023-12-15

申请号：CN202311377895.6

申请日：2023-10-23

Applicant: 科大讯飞股份有限公司

Inventor： 殷保才 , 潘吉材 , 刘文超 , 盛典 , 吴浩 , 柏航 , 何山 , 殷兵 , 刘权 , 魏思 , 王士进 , 刘聪 , 胡国平

IPC: G06F16/332 , G06V10/774 , G06V20/70

Abstract: 本申请公开了一种开放式问答及多模态大模型的训练方法、装置及相关设备，为了促使多模态大模型关注到空间信息，在预训练阶段针对训练图像生成了匹配的带有空间信息的图像描述文本，空间信息用于表示训练图像中包含的对象在训练图像中的空间位置，采用训练图像及上述添加有显性的对象空间信息的图像描述文本对多模态大模型进行预训练，可以使得多模态大模型在学习图像和内容描述文本的语义对齐关系的基础上，进一步关注到图像中对象的空间位置，也即使得多模态大模型具备检测物体空间位置的能力。在此基础上，当将多模态大模型应用于开放式问答任务，在回答与空间排布相关问题时能够基于掌握的能力准确给出正确回答。

32.

发明授权
一种视频检测方法、装置、电子设备及存储介质有权

公开(公告)号：CN112651319B

公开(公告)日：2023-12-05

申请号：CN202011518646.0

申请日：2020-12-21

Applicant: 科大讯飞股份有限公司

Inventor： 胡诗卉 , 何山 , 胡金水 , 殷兵 , 刘聪

IPC: G06V20/40 , G06V40/16 , G06V40/40 , G06V10/82 , G06N3/0442 , G06N3/049 , G10L15/22

Abstract: 本申请公开了一种视频检测方法、装置、电子设备及存储介质，所述方法包括：获取待检测的视频；提取音频特征数据；提取视频特征数据；确定音频特征数据和视频特征数据之间的特征距离；判断视频的真伪，基于音频特征数据、视频特征数据和特征距离来判断视频的真伪。本方法中，使用音频特征数据对视频特征数据中的嘴部区域执行注意力机制，强化了视频的嘴部区域的特征，同时，由于考虑了音频、视频、音视频多模态特征距离三个维度的虚假视频判别，从而能够有效的提升算法泛化性和鲁棒性，使得该方法具有泛化性好、可靠性高等优点。(56)对比文件肖辉等.融合多特征的视频帧间篡改检测算法《.信号处理》.2020,第6卷(第1期),第84-93页.梁瑞刚等.视听觉深度伪造检测技术研究综述《.信息安全学报》.2020,第5卷(第2期),第1-17页.N. Bhakt et al.A Novel Framework forReal and Fake Smile Detection fromVideos《.2018 Second InternationalConference on Electronics, Communicationand Aerospace Technology 》.2018,第 1327-1330页.张衡等.基于聚类网络的文本-视频特征学习《.计算机科学》.2020,第1-5.肖易明;张海剑;孙洪;丁昊.引入注意力机制的视频声源定位.信号处理.2019,第35卷(第12期),第1969-1978页.

33.

发明授权
基于语音的三维人脸模型驱动方法及相关装置有权

公开(公告)号：CN116188649B

公开(公告)日：2023-10-13

申请号：CN202310472056.6

申请日：2023-04-27

Applicant: 科大讯飞股份有限公司

Inventor： 杨硕 , 何山 , 殷兵 , 刘聪 , 周良 , 胡金水

IPC: G06T13/40 , G10L25/57

Abstract: 本申请提出一种基于语音的三维人脸模型驱动方法及相关装置，基于目标语音的语音特征和目标情绪特征，按照偏移预测参数，进行三维模型顶点偏移预测，按照预测得到的三维模型顶点偏移数据，驱动三维基础模型，得到目标语音对应的三维人脸动画。偏移预测参数是通过样本视频对应的4D合成数据、音频特征和情绪特征，进行三维模型顶点偏移预测处理而确定的；4D合成数据是将样本视频的每帧图像对应的三维重建人脸模型，按照样本视频的帧率合成的数据。本方案将样本视频的每帧图像重建为三维人脸模型得到的4D合成数据作为确定偏移预测参数的样本数据，提高了样本数据的数据量和情绪多样性，从而提高了语音驱动三维人脸模型的准确度和情绪化效果。

34.

发明公开
文图生成方法、装置、设备及存储介质审中-实审

公开(公告)号：CN116863036A

公开(公告)日：2023-10-10

申请号：CN202310865239.4

申请日：2023-07-13

Applicant: 科大讯飞股份有限公司

Inventor： 殷保才 , 何山 , 殷兵 , 刘聪

IPC: G06T11/60 , G06F40/289 , G06F40/30 , G06V10/44 , G06V10/774 , G06V10/86

Abstract: 本申请公开了一种文图生成方法、装置、设备及存储介质，本申请借助大语言模型的语言能力，令大语言模型执行对原始文本描述内容进行加工处理的任务，该任务为使得大语言模型所得到的编辑后文本描述内容相对于原始文本描述内容的丰富度更高的任务，获取大语言模型输出层所提取的文本表征，该文本表征可以作为大语言模型输出的编辑后文本描述内容对应的特征表示，由于编辑后文本描述内容相对于原始文本描述内容的信息丰富度更高，因此获取的输出层所提取的文本表征相对于传统对原始文本描述内容的编码特征，其特征表达能力更强，将该文本表征送入预配置的文图生成模型，得到模型生成图像，该生成图像与文本内容更加匹配，也即图像效果更佳。

35.

发明公开
虚拟形象交互方法及相关装置、设备、系统和介质审中-实审

公开(公告)号：CN116088675A

公开(公告)日：2023-05-09

申请号：CN202211643916.X

申请日：2022-12-20

Applicant: 科大讯飞股份有限公司

Inventor： 疏坤 , 李权 , 刘颖 , 何山 , 郜静文

IPC: G06F3/01 , G10L15/22 , G10L15/30 , G10L13/04 , G10L21/10 , G10L21/18 , H04N5/262 , H04N5/04 , G06T13/40

Abstract: 本申请公开了一种虚拟形象交互方法及相关装置、设备、系统和介质，其中，虚拟形象交互方法包括：获取并播放第一视频流；响应于用户在播放第一视频流时的第二交互请求，发送打断合成请求和第二交互请求至交互应答服务器；其中，交互应答服务器响应于打断合成请求而暂停合成第一视频流，并响应于第二交互请求实时合成第二视频流，以及在第二视频流合成完毕之后，基于标志符，确定是否从打断位置开始继续合成新的第一视频流；获取并播放交互应答服务器新合成的视频流。上述方案，能够提升虚拟形象交互的自然度。

36.

发明授权
虚拟人交互方法、装置、电子设备及存储介质有权

公开(公告)号：CN115390678B

公开(公告)日：2023-03-31

申请号：CN202211326573.4

申请日：2022-10-27

Applicant: 科大讯飞股份有限公司

Inventor： 江昊宸 , 何山 , 殷兵 , 刘聪 , 周良 , 胡金水

IPC: G06F3/01 , G06T13/20 , G06T13/40

Abstract: 本申请提出一种虚拟人交互方法、装置、电子设备及存储介质，通过对目标对象的音视频数据进行视线追踪和情感分析，确定目标对象的视线轨迹特征和情感状态；根据目标对象的情感状态和虚拟形象的当前情感状态，预测虚拟形象的下一时刻情感状态；根据目标对象和虚拟形象的视线轨迹特征、目标对象的情感状态、虚拟形象的下一时刻情感状态、虚拟形象当前时刻的交互状态参数，预测虚拟形象下一时刻的交互状态参数，交互状态参数包括视线方向。本方案基于目标对象的情感状态与虚拟形象的情感状态，对目标对象和虚拟形象进行视线交互预测，实现了虚拟形象与目标对象在不同情感状态下的视线交互，提高了目标对象与虚拟形象的交互真实感和交互体验。

37.

发明授权
虚拟形象的生成方法、装置、设备及存储介质有权

公开(公告)号：CN115375809B

公开(公告)日：2023-03-14

申请号：CN202211310590.9

申请日：2022-10-25

Applicant: 科大讯飞股份有限公司

Inventor： 吴小燕 , 何山 , 殷兵 , 刘聪 , 周良

IPC: G06T13/40 , G06V10/80 , G06V20/40 , G06V40/16 , G06V40/18 , G10L25/63

Abstract: 本申请提供了虚拟形象的生成方法、装置、设备及存储介质，具体实现方案为：基于获取到的表达信息确定情绪特征以及脸部特征；基于所述情绪特征对特定视频序列进行情绪编辑处理，得到具有所述情绪特征的视频序列；其中，所述特定视频序列，包括特定对象的包含脸部的视频序列；至少基于具有所述情绪特征的视频序列以及所述脸部特征，生成目标对象的虚拟形象。根据本申请的技术方案，能够有效解决生成的虚拟形象表达情绪单一的问题。

38.

发明公开
脸部绑定方法、装置、设备及存储介质有权

公开(公告)号：CN115393532A

公开(公告)日：2022-11-25

申请号：CN202211326540.X

申请日：2022-10-27

Applicant: 科大讯飞股份有限公司

Inventor： 胡诗卉 , 何山 , 周良 , 胡金水 , 殷兵 , 刘聪

IPC: G06T17/00 , G06T13/40 , G06V40/16

Abstract: 本申请提供了一种脸部绑定方法、装置、设备及存储介质，涉及人工智能技术领域，具体实现方案为：利用获取到的目标对象的脸部图像，在目标对象对应的三维人脸模型中确定三维人脸模型的脸部特征区域；在脸部特征区域中确定对应的三维人脸模型顶点与脸部骨骼点的目标连接关系和三维人脸模型顶点与脸部骨骼点的目标运动关系；根据三维人脸模型顶点与脸部骨骼点的目标连接关系和三维人脸模型顶点与脸部骨骼点的目标运动关系，确定目标对象的三维人脸模型顶点与脸部骨骼点的绑定关系根据本申请的技术方案，能够在三维建模软件中实现三维人脸模型顶点与脸部骨骼点的自动绑定，提高脸部绑定效率，进而提升虚拟形象的生成效率。

39.

发明公开
一种虚拟角色模型处理方法、装置、电子设备及存储介质有权

公开(公告)号：CN115393487A

公开(公告)日：2022-11-25

申请号：CN202211327162.7

申请日：2022-10-27

Applicant: 科大讯飞股份有限公司

Inventor： 杨硕 , 何山 , 殷兵 , 刘聪 , 周良 , 胡金水

IPC: G06T13/40 , G06T17/00

Abstract: 本申请提供一种虚拟角色模型处理方法、装置、电子设备及存储介质，所述虚拟角色模型处理方法，在获得具有目标纹理的参考图像，以及虚拟角色三维模型的二维图像后，基于对参考图像的纹理编码和对二维图像的结构编码，获得参考图像的目标纹理特征编码和二维图像的目标结构特征编码，保证了纹理特征和结构特征的精确解耦，从而确保后续在对所述目标结构特征编码和目标纹理特征编码进行联合解码的过程中，参考图像的目标纹理特征能够有效迁移至虚拟角色三维模型，有效的保证了虚拟角色三维模型的纹理真实性。

40.

发明授权
神经网络的训练方法及基于神经网络的行人属性识别方法有权转让

公开(公告)号：CN109829356B

公开(公告)日：2021-04-06

申请号：CN201811482879.2

申请日：2018-12-05

Applicant: 科大讯飞股份有限公司

Inventor： 李倩玉 , 何山 , 殷兵 , 刘聪 , 柳林

IPC: G06K9/00 , G06K9/62

Abstract: 本发明提供了一种神经网络的训练方法及基于神经网络的行人属性识别方法，该识别方法包括：获取待识别的目标行人图像；对目标行人图像作身体区域分割，获取与不同身体区域对应的多个局部图像；将多个局部图像分别输入至预先经过训练的与不同身体区域相对应的多个属性识别网络，得到与不同身体区域对应的多组目标行人属性；其中，目标属性识别网络用于结合目标行人图像中行人的性别信息，以及目标局部图像中目标身体区域的方向信息，来识别目标行人图像中行人的全身属性，以及专属于目标身体区域的行人属性；对多组目标行人属性进行汇总处理，得到目标行人图像的多个目标行人属性。本发明能够在识别行人属性时，提升泛化能力以及识别准确度。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification