Patent search ap:("科大讯飞股份有限公司") AND inv:"何山" Page 1

1.

发明授权
合成视频的方法、电子设备及计算机程序产品有权

公开(公告)号：CN119323625B

公开(公告)日：2025-05-09

申请号：CN202411866722.5

申请日：2024-12-18

Applicant: 科大讯飞股份有限公司

Inventor： 王众 , 李超龙 , 雷新宇 , 庄江腾 , 疏坤 , 周良 , 何山 , 殷兵 , 刘聪

IPC: G06T11/60 , G10L13/08 , G06V40/20 , G06F16/732 , G06F16/783

Abstract: 本申请提出一种合成视频的方法、电子设备及计算机程序产品。该合成视频的方法包括：获取包含第一虚拟对象的第一视频以及包含目标虚拟对象的肢体动作的第二视频，针对第一视频，去除目标视频段中第一虚拟对象的目标肢体部位，得到待合成视频，目标视频段为第一视频中对应动作插入时段的视频段；基于第二视频和目标视频段的时序对应关系，将第二视频各视频帧的目标肢体部位拼接到待合成视频各视频帧的目标肢体部位缺失处，生成合成视频。由于第二视频仅包含目标肢体部位，因此，可以做到虚拟对象与肢体动作的解耦。在虚拟对象为虚拟人物的情况下，制作第二视频/动作视频时，无需考虑人物主要身体部位的穿着打扮，甚至无需考虑人物的身份。

2.

发明公开
视频生成方法、装置、电子设备和计算机程序产品审中-实审

公开(公告)号：CN119922351A

公开(公告)日：2025-05-02

申请号：CN202411771790.3

申请日：2024-12-04

Applicant: 科大讯飞股份有限公司

Inventor： 徐六一 , 疏坤 , 蔡佳佳 , 庄江腾 , 周良 , 何山 , 王众 , 殷兵 , 刘聪

IPC: H04N21/234 , G10L25/63 , G10L15/25 , G06T5/50

Abstract: 本申请提出一种视频生成方法、装置、电子设备和计算机程序产品，该方法能够基于复刻对象的音频和参考图像，生成复刻对象的虚拟形象视频。具体可以根据音频和参考图像，生成复刻对象口唇区域的动态图像，结合口唇区域的动态图像、参考图像和音频对应的情绪状态，得到复刻对象的动态图像；或者，从音频和参考图像中提取得到复刻特征，根据复刻特征和音频对应的情绪状态生成复刻对象的动态图像，然后根据音频和复刻对象的动态图像，生成复刻对象的虚拟形象视频，实现复刻特定对象的虚拟形象的目的。

3.

发明公开
图像生成方法、装置、电子设备和存储介质审中-公开

公开(公告)号：CN119784879A

公开(公告)日：2025-04-08

申请号：CN202510279975.0

申请日：2025-03-11

Applicant: 科大讯飞股份有限公司

Inventor： 杨硕 , 王众 , 金玥 , 何山 , 殷兵 , 刘聪 , 周良 , 胡金水 , 支洪平

IPC: G06T11/00 , G06V10/75 , G06V10/80

Abstract: 本发明涉及图像处理技术领域，提供了一种图像生成方法、装置、电子设备和存储介质，其中方法包括：获取图像描述文本，并确定所述图像描述文本中的领域知识和通用知识，以及领域知识和通用知识分别对应的路由权重；基于领域知识，从领域知识库中进行知识检索，得到参考图像；领域知识库动态更新；基于参考图像、通用知识，以及领域知识和通用知识分别对应的路由权重进行图像生成，得到生成的目标图像；其中，路由权重用于反映对应知识在目标图像上的呈现度，利用动态知识检索的优势进行特定领域的知识检索，可以为特定领域的知识生成提供参考，同时借助动态路由策略进行图像生成，不仅保证了生成的图像的准确性，也增强了多样性和细节丰富性。

4.

发明公开
交互式故事绘本生成方法、装置、电子设备及存储介质审中-实审

公开(公告)号：CN117877052A

公开(公告)日：2024-04-12

申请号：CN202311829372.0

申请日：2023-12-26

Applicant: 科大讯飞股份有限公司

Inventor： 杨柳 , 周良 , 何山 , 孙境廷 , 李超龙

IPC: G06V30/41 , G06V30/148 , G06V30/18 , G06V10/82 , G06N3/04 , G10L15/22

Abstract: 本申请提供一种交互式故事绘本生成方法、装置、电子设备及存储介质，该方法包括根据用户的输入构建锚点信息，其中所述锚点信息是与故事绘本内容生成相关的关键信息；基于所述锚点信息和用户个人信息生成并确认故事主人公，以及基于已确认的故事主人公和所述锚点信息生成故事标题，并根据用户交互指令改写或确认所述故事标题；基于已确认的所述故事标题，在预设数据库中抽取故事主旨，并基于所述故事标题和所述故事主旨生成一个段落的故事绘本内容；根据用户交互指令改写或续写下一个段落的故事绘本内容。本申请满足用户个性化需求并提供更丰富多样的故事体验。

5.

发明公开
行为识别方法、装置、设备及存储介质审中-实审

公开(公告)号：CN117711067A

公开(公告)日：2024-03-15

申请号：CN202311789594.4

申请日：2023-12-22

Applicant: 科大讯飞股份有限公司

Inventor： 沈锦瑞 , 林垠 , 陈叶瀚森 , 盛典 , 何山 , 郜静文 , 殷保才 , 殷兵

IPC: G06V40/20 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/045 , G06N3/08

Abstract: 本申请公开了一种行为识别方法、装置、设备及存储介质，本申请考虑到不同类型行为动作所需要时间信息是不同的，改进了现有单一的时序建模方式，同时配置了长时分支网络和短时分支网络，分别对拍摄的连续帧图像在时序维度上提取不同稀疏程度的图像特征，得到长时图像特征和短时图像特征，基于长时图像特征预测第一行为分类结果，基于短时图像特征预测第二行为分类结果，融合两个分类结果得到最终的行为分类结果。本申请方案能够自适应的对不同类型的行为动作进行长短时时序建模，并融合长时分支网络和短时分支网络的分类结果，改善了传统方案时序建模方式单一的弊端，能够适用于对多种不同类型行为动作的识别场景。

6.

发明公开
图像编辑方法、装置、设备及可读存储介质审中-实审

公开(公告)号：CN117372574A

公开(公告)日：2024-01-09

申请号：CN202311378872.7

申请日：2023-10-23

Applicant: 科大讯飞股份有限公司 , 科大讯飞(苏州)科技有限公司

Inventor： 杨硕 , 赖泽强 , 尚嘉慧 , 何山 , 周良 , 殷兵 , 高建清 , 刘聪

IPC: G06T11/60

Abstract: 本申请公开了一种图像编辑方法、装置、设备及可读存储介质，获取待编辑的图像和文本指令之后，先基于图像和文本指令，确定用于指示图像中的待编辑对象和文本指令的图像编辑表征，以及，用于指示待编辑对象中的待编辑区域的待编辑区域图；再基于图像编辑表征以及待编辑区域图对待编辑的图像的待编辑对象中的待编辑区域进行编辑，得到编辑后的图像。基于本方案，能够实现只对待编辑的图像中的局部进行编辑。

7.

发明授权
一种点云处理方法、装置、电子设备及存储介质有权

公开(公告)号：CN115690359B

公开(公告)日：2023-12-15

申请号：CN202211326541.4

申请日：2022-10-27

Applicant: 科大讯飞股份有限公司

Inventor： 孙晓俊 , 李林 , 周良 , 何山 , 胡金水 , 殷兵 , 刘聪

IPC: G06T17/20 , G06T3/00

Abstract: 本申请提供一种点云处理方法、装置、电子设备及存储介质，所述点云处理方法，包括：将目标对象的三维点云投影至预先构建的二维平面，获得所述二维平面中的与各个三维点云点对应的二维投影点；基于所述二维平面中的二维投影点，构建二维投影点网格；根据所述二维投影点网格，以及所述二维投影点与所述三维点云点之间的投影关系，获得所述三维点云的点云网格。该方法通过将三维点云投影至预先构建的二维平面，将对三维点云的点云网格构建问题转化成了二维投影点网格构建问题，并在获得二维投影点网格后，根据二维投影点与三维点云点之间的对应关系，获得三维点云的点云网格，降低了点云网格的构建难度，提高了点云网格的构建效率。

8.

发明公开
视频生成方法、装置、设备和存储介质审中-实审

公开(公告)号：CN117177025A

公开(公告)日：2023-12-05

申请号：CN202311030930.7

申请日：2023-08-14

Applicant: 科大讯飞股份有限公司

Inventor： 刘聪 , 徐浩然 , 高建清 , 姚仕豪 , 何山 , 郜静文 , 杨硕 , 殷保才 , 殷兵 , 刘烨秋 , 付新勇 , 王雨露 , 张若楠 , 管广鹏 , 吕磊 , 陈付国 , 金左雨 , 董飞 , 胡国平 , 魏思 , 王士进 , 刘权

IPC: H04N21/81 , H04N21/44 , G10L13/027 , G10L13/08

Abstract: 本申请公开了一种视频生成方法、装置、设备和存储介质，其中，视频生成方法包括：基于用户关于期望输出文稿的语音数据，得到对应的识别文本；获取原始图像和用于指示视频生成的第一描述文本；获取至少响应于所述第一描述文本而生成的文案文本；获取由所述文案文本合成得到的视频配音；至少基于所述原始图像和所述视频配音，生成目标视频。通过该方式，能够缩短视频制作的时间，降低视频制作的成本，提高视频制作的工作效率。

9.

发明授权
虚拟形象合成方法、装置、电子设备和存储介质有权

公开(公告)号：CN111145282B

公开(公告)日：2023-12-05

申请号：CN201911274701.3

申请日：2019-12-12

Applicant: 科大讯飞股份有限公司

Inventor： 左童春 , 何山 , 胡金水 , 刘聪

IPC: G06T11/00 , G06F16/783 , G06N3/094

Abstract: 本发明实施例提供一种虚拟形象合成方法、装置、电子设备和存储介质，其中方法包括：确定语音数据的相关特征；相关特征用于表征语音数据中包含的与发言人表情相关的特征；将形象数据以及相关特征输入至表情合成模型中，得到表情合成模型输出的虚拟形象视频，虚拟形象视频中的虚拟形象配置有对应于语音数据的表情；其中，表情合成模型是基于样本发言人视频，样本发言人视频对应的样本语音数据的相关特征以及样本形象数据训练得到的。本发明实施例提供的方法、装置、电子设备和存储介质，能够使得虚拟形象表情更好地贴合语音数据，更加自然真实。

10.

发明授权
基于视频的物体平面贴图方法、装置以及设备有权

公开(公告)号：CN112712571B

公开(公告)日：2023-12-01

申请号：CN202011566751.1

申请日：2020-12-25

Applicant: 科大讯飞股份有限公司

Inventor： 林垠 , 刘炎 , 何山 , 胡金水

IPC: G06T11/00

Abstract: 本发明公开了一种基于视频的物体平面贴图方法、装置以及设备。本发明在用户参与交互的前提下不再要求复杂的操作以完成平面选择，而是通过第一阶段由视频物体平面检测技术结合用户简单的交互操作初步选择出候选平面区域，以及第二阶段根据候选平面区域在多帧图像中的图像特征判定出候选平面区域是否可用，从而实现待贴图平面的确定，本发明既可以极大简化用户交互流程的复杂度，又可以全面、可靠地获得待贴图平面区域的特征信息，并且利用图像自身信息进行植入可靠性判断，能够有效规避由于缺乏相关技术知识所带来的处理效果偏差。可见本发明在优化用户体验的同时，能够高效、便捷地确定出待贴图平面，进而极大提升图像植入

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification