Patent search ap:("科大讯飞股份有限公司") AND inv:"何山" Page 5

41.

发明公开
一种判断说话人数目的方法及系统有权

公开(公告)号：CN105161093A

公开(公告)日：2015-12-16

申请号：CN201510677237.8

申请日：2015-10-14

Applicant: 科大讯飞股份有限公司

Inventor： 何山 , 殷兵 , 潘青华 , 胡国平 , 胡郁 , 刘庆峰

IPC: G10L15/02 , G10L15/14 , G10L17/02

Abstract: 本发明公开了一种判断说话人数目的方法及系统，包括：接收语音信号；提取所述语音信号的语音信号特征；根据所述语音信号的语音信号特征对所述语音信号进行分割，得到分割信号段；将所述分割信号段聚类成指定个数的语音信号类；根据所述语音信号类中各分割信号段的语音信号特征对所述语音信号进行重分割；计算过程：根据重分割后语音信号类中各分割信号段的语音信号特征计算并比较不同语音信号类之间的相似度；计算过程结束后，根据计算结果确定说话人数目。本发明由于对语音信号进行重分割，可以消除现有技术中对语音信号进行分割时的步长限制的影响，并通过计算比较不同语音信号类之间的相似度，提高后续说话人数目判断的准确度。

42.

发明授权
动作图像生成方法、模型构建方法、设备及存储介质有权

公开(公告)号：CN114299225B

公开(公告)日：2025-04-04

申请号：CN202111524469.1

申请日：2021-12-14

Applicant: 科大讯飞股份有限公司

Inventor： 吴小燕 , 何山 , 殷兵 , 胡金水 , 潘清华

IPC: G06T17/00 , G06V20/40 , G06V40/20 , G06T7/40

Abstract: 本申请提供一种动作图像生成方法、模型构建方法、计算机设备及存储介质，其中，该模型构建方法包括：获取目标人物的第一图像集和第二图像集，第一图像集和第二图像集包括关于目标人物动作的序列图像；根据第一图像集的序列图像进行三维重建，得到多个第一3D模型；获取目标人物的纹理图，根据纹理图对所述多个第一3D模型进行贴图，得到多个纹理贴图；对多个第一3D模型进行投影，得到多个2D投影图像；根据第二图像集的序列图像、2D投影图像和纹理贴图构建动作生成模型。该动作生成模型可以生成更为真实的动作图像，即动作图像包括更多细节，由此可以提高用户的体验度。

43.

发明公开
动作合成方法、装置、设备、系统及程序产品审中-实审

公开(公告)号：CN119648874A

公开(公告)日：2025-03-18

申请号：CN202411486623.4

申请日：2024-10-23

Applicant: 科大讯飞股份有限公司

Inventor： 满森 , 何山 , 周良 , 李超龙 , 刘佳丽 , 孙萍 , 殷兵 , 吴小燕

IPC: G06T13/40 , G06T5/70 , G06V20/40 , G06V10/77 , G06N3/04 , G06N3/08

Abstract: 本说明书实施例提供了一种动作合成方法，该方法通过确定输入视频相应关键点序列；然后基于关键点序列执行加噪处理；并在对噪声序列进行去噪处理的过程中，将噪声序列和特征信息作为条件引导扩散概率模型执行分段训练进程，其第一阶段基于音频特征进行，其第二阶段在第一阶段的隐空间中基于语义特征进行；该训练后的扩散概率模型可以用于合成对象动作。应用上述训练得到的扩散概率模型能够实现多样性的动作合成过程，由于在训练进程中第二阶段在第一阶段隐空间继续生成稳定的序列结构，在音频特征的基础上，细化描述了语义特征，提高了动作合成的准确性。

44.

发明公开
知识问答方法、装置、电子设备及存储介质审中-实审

公开(公告)号：CN119474327A

公开(公告)日：2025-02-18

申请号：CN202510066924.X

申请日：2025-01-16

Applicant: 科大讯飞股份有限公司

Inventor： 黄爽 , 龙明康 , 产拙 , 李飞 , 潘青华 , 何山 , 蔡明琦 , 高建清

IPC: G06F16/3329 , G06F3/16 , G06F40/16 , G06T13/00 , G06F16/338

Abstract: 本发明涉及知识问答技术领域，提供一种知识问答方法、装置、电子设备及存储介质，方法包括：获取第一用户的待回答问题；基于知识库确定与待回答问题对应的目标知识素材；基于目标知识素材，确定目标回答；基于目标回答，生成以第二用户作为虚拟人形象的目标虚拟人视频；目标虚拟人视频中的音频是以第二用户的声纹对目标回答进行语音合成得到的；知识库基于第二用户的音频、文本和文档中的至少一种构建。将个性化语音合成与知识问答系统进行统一，避免现有技术中二者分离带来的体验割裂问题，确保用户从问答到语音输出的整体流程流畅无缝，提高用户的使用体验；灵活利用第二用户的知识库，对用户的个性特征进行深度适配，提高用户的使用体验。

45.

发明公开
一种图像渲染方法、装置、设备和存储介质审中-实审

公开(公告)号：CN119444955A

公开(公告)日：2025-02-14

申请号：CN202510032187.1

申请日：2025-01-09

Applicant: 科大讯飞股份有限公司

Inventor： 孙晓俊 , 王众 , 雷新宇 , 庄江腾 , 李林 , 周良 , 何山 , 殷兵 , 刘聪

IPC: G06T15/00 , G06T15/50 , G06T15/06

Abstract: 本申请公开了一种图像渲染方法、装置、设备和存储介质，该方法包括：获取三维点云，三维点云包括多个三维点，三维点的属性包括位置属性和色彩相关属性，色彩相关属性包括颜色信息，还包括透明度和反射率中的至少一者；从三维点云中确定目标视角下的渲染图中各像素点分别对应的点集；基于各像素点对应的点集中三维点的属性，确定各像素点的像素值。上述方案，能够提升渲染效果。

46.

发明公开
运动仿真方法、装置、电子设备和存储介质审中-实审

公开(公告)号：CN119417956A

公开(公告)日：2025-02-11

申请号：CN202411478902.6

申请日：2024-10-22

Applicant: 科大讯飞股份有限公司

Inventor： 雷新宇 , 疏坤 , 周良 , 何山 , 殷兵 , 高建清 , 刘聪

IPC: G06T13/40 , G06V40/20 , G06V10/82 , G06N3/044 , G06N3/0442

Abstract: 本发明提供一种运动仿真方法、装置、电子设备和存储介质，其中方法包括：基于虚拟运动参数，从各种步态序列中，选取出仿真所需的目标序列，所述各种步态序列是基于真实运动视频中各帧图像的步态识别结果，对所述真实运动视频进行划分得到的；基于所述目标序列，进行运动仿真。本发明提供的方法、装置、电子设备和存储介质，需基础的摄像机即可实现，无需成套的拍摄设备，且一条真实运动视频即可拆分各种步态序列以支持运动仿真，运动仿真所需的视频数据量大减，这使得运动仿真所需的成本大大降低，为运动仿真的实现提供了便利。另外，以步态识别结果拆分所得的步态序列，实现了针对运动仿真的精细化控制，有助于运动仿真的效果优化。

47.

发明授权
一种对象模型的确定方法和相关装置有权

公开(公告)号：CN114332377B

公开(公告)日：2025-01-03

申请号：CN202111675879.6

申请日：2021-12-31

Applicant: 科大讯飞股份有限公司

Inventor： 屈雁秋 , 李林 , 何山

IPC: G06T17/00

Abstract: 本申请实施例公开了一种对象模型的确定方法和相关装置，在针对目标三维对象扫描得到非参数化模型后，使用具有驱动参数的初始参数化模型进行模型顶点扩充，以得到具有和非参数化模型接近的模型顶点数量的注册三维模型。再进行姿态对齐以得到对齐三维模型，对齐三维模型和非参数化模型处于同一姿态下，以此能够确定出相对于非参数化模型的模型顶点偏移参数，通过基于模型顶点偏移参数对该对齐三维模型的调整，得到目标三维对象的目标参数化模型，该目标参数化模型不仅具有与非参数化模型接近的外形精度，而且还具有可用于驱动的驱动参数，实现对扫描得到的高精度非参数化模型向参数化模型的自动化转化，提高了高精度参数化模型的生成效率和精度。

48.

发明授权
交互方法、交互装置、电子设备以及存储介质有权

公开(公告)号：CN114357135B

公开(公告)日：2024-11-01

申请号：CN202111672307.2

申请日：2021-12-31

Applicant: 科大讯飞股份有限公司

Inventor： 胡诗卉 , 何山 , 胡金水 , 殷兵 , 刘聪

IPC: G06F16/332 , G06F16/338 , G06F16/33 , G06V40/16 , G06F40/295 , G06T13/40 , G10L13/08

Abstract: 本申请公开了交互方法、交互装置、电子设备以及存储介质，其中，该交互方法包括：获取到用户的问询文本以及面部表情，并确定用户当前的情感类型标签；基于问询文本与情感类型标签确定问询文本的回复文本，并基于问询文本以及回复文本形成对话文本；利用对话文本以及情感类型标签得到与情感类型标签匹配的情感回应数据；将情感回应数据加载到虚拟形象中，以对用户做出带有情感的交互响应。通过上述方案，本申请交互方法对应的虚拟形象能够进行类人的情感表达，从而能够使用户对应获得更自然，更具趣味性的交互体验。

49.

发明授权
针对教辅图像的图像质量的分类方法、装置及设备有权

公开(公告)号：CN111091158B

公开(公告)日：2024-04-30

申请号：CN201911360386.6

申请日：2019-12-25

Applicant: 科大讯飞股份有限公司

Inventor： 曾大为 , 何山 , 郭涛 , 胡金水 , 殷兵 , 刘聪

IPC: G06V10/764 , G06T7/00

Abstract: 本申请提供了一种针对教辅图像的图像质量的分类方法，获取第一图像块集合以及第二图像块集合。其中，第一图像块集合中包括从待分类的图像中选取的图像块，第二图像块集合中包括从待分类的图像的印刷重建图像中选择的图像块。第一图像块集合中的图像块与第二图像块集合中的图像块一一对应，对应的图像块为位置信息相同的图像块。进一步依据第一图像块集合和第二图像块集合，确定待分类图像的质量分类结果。本申请获取的质量分类结果既可以对待分类的图像的原始数字图像进行质量评估，也可以对待分类的图像的打印图像进行质量评估。并且，在任意一个图像块集合中，图像块之间的结构不相似，由此保证了采样的多样性，从而提高评估结果的准确性。

50.

发明公开
视频合成方法、装置、设备及存储介质审中-实审

公开(公告)号：CN117750125A

公开(公告)日：2024-03-22

申请号：CN202311872648.3

申请日：2023-12-29

Applicant: 科大讯飞股份有限公司 , 科大讯飞(苏州)科技有限公司

Inventor： 何山 , 左童春 , 周良 , 殷兵 , 潘青华 , 刘聪

IPC: H04N21/44 , H04N21/472

Abstract: 本申请公开了一种视频合成方法、装置、设备及存储介质支持多模态条件信息控制下的视频合成，方法包括：获取指定的初始图像，及与待合成视频匹配的多模态条件信息，所述多模态条件信息包括与所述待合成视频匹配的音频信息和/或文本描述信息；提取所述初始图像对应的初始骨架图；以所述多模态条件信息作为控制条件，利用配置的扩散模型在所述控制条件的指导下，生成与所述多模态条件信息语义匹配的连续骨架图，由所述初始骨架图及生成的所述连续骨架图依序组成目标骨架图序列；基于所述目标骨架图序列对所述初始图像的图像特征进行变形，以生成视频序列。实现了根据用户的合成要求，对初始图像进行视频合成的目的，满足用户个性化的合成需求。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification