Patent search ap:("科大讯飞股份有限公司" OR "咪咕数字传媒有限公司") AND inv:"殷兵" Page 10

91.

发明授权
一种点云处理方法、装置、电子设备及存储介质有权

公开(公告)号：CN115690359B

公开(公告)日：2023-12-15

申请号：CN202211326541.4

申请日：2022-10-27

Applicant: 科大讯飞股份有限公司

Inventor： 孙晓俊 , 李林 , 周良 , 何山 , 胡金水 , 殷兵 , 刘聪

IPC: G06T17/20 , G06T3/00

Abstract: 本申请提供一种点云处理方法、装置、电子设备及存储介质，所述点云处理方法，包括：将目标对象的三维点云投影至预先构建的二维平面，获得所述二维平面中的与各个三维点云点对应的二维投影点；基于所述二维平面中的二维投影点，构建二维投影点网格；根据所述二维投影点网格，以及所述二维投影点与所述三维点云点之间的投影关系，获得所述三维点云的点云网格。该方法通过将三维点云投影至预先构建的二维平面，将对三维点云的点云网格构建问题转化成了二维投影点网格构建问题，并在获得二维投影点网格后，根据二维投影点与三维点云点之间的对应关系，获得三维点云的点云网格，降低了点云网格的构建难度，提高了点云网格的构建效率。

92.

发明公开
视频生成方法、装置、设备和存储介质审中-实审

公开(公告)号：CN117177025A

公开(公告)日：2023-12-05

申请号：CN202311030930.7

申请日：2023-08-14

Applicant: 科大讯飞股份有限公司

Inventor： 刘聪 , 徐浩然 , 高建清 , 姚仕豪 , 何山 , 郜静文 , 杨硕 , 殷保才 , 殷兵 , 刘烨秋 , 付新勇 , 王雨露 , 张若楠 , 管广鹏 , 吕磊 , 陈付国 , 金左雨 , 董飞 , 胡国平 , 魏思 , 王士进 , 刘权

IPC: H04N21/81 , H04N21/44 , G10L13/027 , G10L13/08

Abstract: 本申请公开了一种视频生成方法、装置、设备和存储介质，其中，视频生成方法包括：基于用户关于期望输出文稿的语音数据，得到对应的识别文本；获取原始图像和用于指示视频生成的第一描述文本；获取至少响应于所述第一描述文本而生成的文案文本；获取由所述文案文本合成得到的视频配音；至少基于所述原始图像和所述视频配音，生成目标视频。通过该方式，能够缩短视频制作的时间，降低视频制作的成本，提高视频制作的工作效率。

93.

发明公开
物体识别方法、装置、设备及存储介质审中-实审

公开(公告)号：CN117173483A

公开(公告)日：2023-12-05

申请号：CN202311196008.5

申请日：2023-09-15

Applicant: 科大讯飞股份有限公司

Inventor： 吴嘉嘉 , 张圆 , 赖嘉骏 , 殷兵 , 胡金水

IPC: G06V10/764 , G06V10/74 , G06V10/80 , G06V20/56

Abstract: 本申请公开了一种物体识别方法、装置、设备及存储介质，本申请获取待识别图片对应的文本模态的多条候选类别，多条候选类别包括待识别图片中物体的真实类别；利用多模态大模型分别提取每条候选类别的文本特征，以及，提取待识别图片的视觉特征；计算待识别图片的视觉特征与每条候选类别的文本特征间的相似度，取最高相似度对应的候选类别作为待识别图片中物体的目标类别。本申请借助多模态大模型强大的通用知识的表示能力，可以更加准确地提取特征，进而基于提取的特征进行物体识别，提升识别准确度，避免了传统物体识别模型在训练数据不充足时识别准确率不高的问题，以及面对特殊视角拍摄的图片的识别准确率不高的问题。

94.

发明公开
一种音频生成方法、装置、设备及存储介质审中-实审

公开(公告)号：CN117116247A

公开(公告)日：2023-11-24

申请号：CN202311030882.1

申请日：2023-08-14

Applicant: 科大讯飞股份有限公司

Inventor： 方昕 , 胡亚军 , 高建清 , 殷兵 , 胡国平 , 刘聪 , 魏思 , 王士进 , 刘权

IPC: G10L13/02 , G10L13/08 , G10L13/047

Abstract: 本发明提供了一种音频生成方法、装置、设备及存储介质，音频生成方法包括：获取目标文本；确定目标文本所涉及的角色，得到若干角色；确定与每个角色匹配的发音人信息，并确定目标文本中每个句子所属的角色；根据目标文本、与每个角色匹配的发音人信息以及目标文本中每个句子所属的角色，合成目标文本对应的音频，在合成音频后，还可为合成的音频添加音效和背景音乐。本发明提供的音频生成方法可根据目标文本生成声音丰富的音频，收听者体验较好。

95.

发明授权
一种基于神经网络的视频生成方法及相关装置有权

公开(公告)号：CN114900714B

公开(公告)日：2023-11-21

申请号：CN202210382403.1

申请日：2022-04-12

Applicant: 科大讯飞股份有限公司

Inventor： 胡诗卉 , 何山 , 胡金水 , 殷兵 , 刘聪

IPC: H04N21/234 , H04N19/42 , H04N19/44 , G06T9/00 , G06N3/0455 , G06N3/08

96.

发明公开
图文内容生成方法、装置、设备及存储介质审中-实审

公开(公告)号：CN117032869A

公开(公告)日：2023-11-10

申请号：CN202311030903.X

申请日：2023-08-14

Applicant: 科大讯飞股份有限公司

Inventor： 殷兵 , 吴小燕 , 何山 , 高建清 , 杨硕 , 殷保才 , 郜静文 , 胡国平 , 刘聪 , 魏思 , 王士进 , 刘权

IPC: G06F9/451 , G06T11/60 , G06F40/106

Abstract: 本申请公开了一种图文内容生成方法、装置、设备及存储介质，本申请获取需要生成配图的文本信息，从文本信息中获取到关键信息，作为生成配图时的参考文本信息。调用预配置的文图生成模型，借助文图生成模型强大的基于文本生成匹配语义的图片的能力，可以基于获取的关键信息生成与关键信息匹配的图片，融合文本信息与生成的图片，得到图文内容。本申请方案借助AI文图生成模型的能力，可以自动生成与文本信息匹配的图片，且鉴于文图生成模型所生成图片的多样性和文本一致性，可以保证生成的图片的质量且与文本信息的语义是匹配的，最终得到内容质量较高的图文内容，整个过程不依赖于纸质书籍，生成成本大幅降低。

97.

发明公开
知识问答方法、装置、设备及存储介质审中-实审

公开(公告)号：CN116561276A

公开(公告)日：2023-08-08

申请号：CN202310506317.1

申请日：2023-05-05

Applicant: 科大讯飞股份有限公司

Inventor： 刘权 , 殷兵 , 殷保才 , 丁瑞 , 刘文超 , 胡国平 , 刘聪 , 高建清 , 魏思 , 王士进

IPC: G06F16/332 , G06F3/0483 , G06F16/583

Abstract: 本申请公开了一种知识问答方法、装置、设备及存储介质，方法包括：获取用户输入的图片及与图片相关的问题文本，获取图片的描述信息，并将描述信息作为问答知识提供给大语言模型，使得大语言模型能够理解图片中的图像内容，将其作为知识问答对话的上下文信息，在此基础上，将用户输入的问题文本作为提示指令输入给大语言模型，大语言模型能够基于前述理解的图片中的图像内容，对该问题文本进行理解及回复。本申请支持多模态的问题输入，用户可以基于图片进行知识问答，扩展了知识问答的应用场景。并且，按照本申请的方案可以使得大语言模型能够理解图片的图像内容，基于此能够更加准确的给出问题文本所匹配的答复内容。

98.

发明授权
一种语音识别方法、装置、设备及存储介质有权

公开(公告)号：CN111583916B

公开(公告)日：2023-07-25

申请号：CN202010430127.2

申请日：2020-05-19

Applicant: 科大讯飞股份有限公司

Inventor： 殷兵 , 严哲 , 郭涛 , 胡金水 , 刘聪

IPC: G10L15/20 , G10L15/25 , G10L15/06 , G10L15/26

Abstract: 本申请提供了一种语音识别方法、装置、设备及存储介质，其中，语音识别方法包括：获取目标语音数据和其对应的唇部图像数据，其中，唇部图像数据包括目标语音数据所涉及的每个说话人的唇部图像序列；以目标语音数据对应的唇部图像数据为辅助信息，利用预先建立的混叠语音识别模型，对目标语音数据按说话人进行分离，并对分离后的语音数据进行识别，得到目标语音数据的识别结果；其中，混叠语音识别模型以标注有真实分离结果和真实识别结果的混叠语音数据为训练样本，同时结合训练样本对应的唇部图像数据训练得到。本申请提供的语音识别方案对于嘈杂环境下的混叠语音具有较好的识别效果。

99.

发明公开
文本的识别方法、装置、设备及存储介质审中-实审

公开(公告)号：CN116343235A

公开(公告)日：2023-06-27

申请号：CN202310141914.9

申请日：2023-02-13

Applicant: 科大讯飞股份有限公司

Inventor： 晏黔东 , 刘辰宇 , 吴嘉嘉 , 胡金水 , 殷兵 , 殷保才 , 谢名亮

IPC: G06V30/226 , G06V30/18 , G06V10/80

Abstract: 本申请提供了文本的识别方法、装置、设备及存储介质，具体实现方案为：获取待识别文本的动态笔迹的点级轨迹信息和笔画级轨迹信息；利用所述点级轨迹信息和所述笔画级轨迹信息确定对应的轨迹点特征；基于所述轨迹点特征得到所述待识别文本的识别结果。根据本申请的技术方案，能够有效提升手写文本识别的准确性。

100.

发明公开
一种文档版面要素检测方法、装置、存储介质及设备审中-实审

公开(公告)号：CN116311322A

公开(公告)日：2023-06-23

申请号：CN202310297595.0

申请日：2023-03-23

Applicant: 科大讯飞股份有限公司

Inventor： 吴嘉嘉 , 张银田 , 殷兵 , 胡金水 , 刘聪

IPC: G06V30/416 , G06V30/24 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/0895

Abstract: 本申请公开了一种文档版面要素检测方法、装置、存储介质及设备，该方法包括：首先获取待检测的目标文档所在的目标图像；然后根据预设版面要素类型，构建预设版面要素对应的编码向量；接着将目标图像和编码向量输入预先构建的文档版面要素检测模型，预测得到目标文档对应的版面要素检测结果；其中，文档版面要素检测模型是利用对比学习和掩码预测的预训练方式，根据预设文档混合要素训练得到的。可见，由于本申请是利用预先根据预设文档混合要素训练得到的文档版面要素检测模型对目标文档进行版面要素检测，从而能够有效提高版面要素的检测效率和准确率，并且在检测过程中还可以根据预设版面要素类型按需进行自定义检测，进而能够提高用户体验。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification