Patent search ap:("科大讯飞股份有限公司" OR "广州市讯飞樽鸿信息技术有限公司") AND inv:"刘文超" Page 1

1.

发明公开
图片生成方法、装置、设备及可读存储介质审中-实审

公开(公告)号：CN116597047A

公开(公告)日：2023-08-15

申请号：CN202310200510.2

申请日：2023-02-28

Applicant: 科大讯飞股份有限公司 , 广州市讯飞樽鸿信息技术有限公司

Inventor： 彭英伦 , 程虎 , 刘平平 , 陈锐泽 , 隋依 , 刘文超

IPC: G06T11/60 , G06T11/00 , G06N3/0464 , G06N3/08

Abstract: 本申请公开了一种图片生成方法、装置、设备及可读存储介质。本方案中，首先，获取用户的图片生成请求，图片生成请求中包括用户的至少一个个性化信息；再基于用户的至少一个个性化信息，生成包括与用户的至少一个个性化信息对应的领域元素信息的文本描述信息；最后，基于文本描述信息生成融合有领域元素信息个性化图片，并将个性化图片提供给用户。在本方案中，用户只需输入一些个性化信息，就可以为用户生成包含专业的领域元素信息的文本描述，并生成融合有专业的领域元素信息的个性化图片，该图片生成技术对于专业性较差的用户同样适用，降低了对用户专业性的依赖。

2.

发明授权
话者分离方法、装置、电子设备和存储介质有权

公开(公告)号：CN114187917B

公开(公告)日：2025-01-03

申请号：CN202111530309.8

申请日：2021-12-14

Applicant: 科大讯飞股份有限公司

Inventor： 刘文超 , 殷保才 , 李渊强 , 程虎

IPC: G10L17/02 , G10L21/0216 , G10L21/0272 , G06V40/10

Abstract: 本发明提供一种话者分离方法、装置、电子设备和存储介质，所述方法包括：对视频帧进行人员检测，得到视频帧中人员的人员位置；对视频帧对应的音频段进行声源定位，得到声源位置；基于人员位置和声源位置之间的相对位置关系，对音频段进行话者分离。本发明提供的话者分离方法、装置、电子设备和存储介质，可以避免环境噪声和不同角色话者声纹特征差异程度的影响，进而可以基于人员位置和声源位置之间的相对位置关系，准确对音频段进行话者分离。

3.

发明公开
行为识别方法、训练方法、装置、电子设备和存储介质审中-实审

公开(公告)号：CN117789292A

公开(公告)日：2024-03-29

申请号：CN202311718052.8

申请日：2023-12-13

Applicant: 科大讯飞股份有限公司

Inventor： 程虎 , 殷兵 , 殷保才 , 刘文超 , 林垠

IPC: G06V40/20 , G06V20/40 , G06V10/42 , G06V10/44 , G06V10/62 , G06V10/764 , G06V10/80 , G06V10/82 , G06F40/30 , G06N3/0895 , G06N3/096

Abstract: 本发明涉及计算机技术领域，提供一种行为识别方法、训练方法、装置、电子设备和存储介质，其中行为识别方法包括：获取待识别视频，以及文本特征，所述文本特征是通过对比学习预训练大模型对预设的描述文本进行特征提取得到的；基于行为识别模型，对所述待识别视频中连续帧图像进行时序特征提取，并应用提取到的时序特征和所述文本特征，对所述待识别视频进行行为识别。本发明提供的行为识别方法、训练方法、装置、电子设备和存储介质，能够增强行为识别模型针对细粒度物品的特征表达能力，从而提高识别效果且使泛化性能更好。

4.

发明公开
文本生成方法、装置、设备及可读存储介质审中-实审

公开(公告)号：CN117311866A

公开(公告)日：2023-12-29

申请号：CN202311030871.3

申请日：2023-08-14

Applicant: 科大讯飞股份有限公司

Inventor： 高建清 , 柏航 , 殷保才 , 刘文超 , 盛典 , 殷兵 , 胡国平 , 刘聪 , 魏思 , 王士进 , 刘权

IPC: G06F9/451 , G06F40/106

Abstract: 本申请公开了一种文本生成方法、装置、设备及可读存储介质。首先，显示文本生成页面，该文本生成页面中包括输入框以及第一按钮，第一按钮用于指示启动文本生成；然后，获取用户在输入框输入的图片并确定文本描述信息，该文本描述信息用于指示用户的文本生成需求；再获取用户对第一按钮的触发操作并响应于用户对第一按钮的触发操作，输出与图片对应的满足用户的文本生成需求的第一文本。基于该方案，可以基于图片以及文本描述信息，便捷、快速地生成满足用户的文本生成需求的文本。

5.

发明公开
知识问答方法、装置、设备及存储介质审中-实审

公开(公告)号：CN116561276A

公开(公告)日：2023-08-08

申请号：CN202310506317.1

申请日：2023-05-05

Applicant: 科大讯飞股份有限公司

Inventor： 刘权 , 殷兵 , 殷保才 , 丁瑞 , 刘文超 , 胡国平 , 刘聪 , 高建清 , 魏思 , 王士进

IPC: G06F16/332 , G06F3/0483 , G06F16/583

Abstract: 本申请公开了一种知识问答方法、装置、设备及存储介质，方法包括：获取用户输入的图片及与图片相关的问题文本，获取图片的描述信息，并将描述信息作为问答知识提供给大语言模型，使得大语言模型能够理解图片中的图像内容，将其作为知识问答对话的上下文信息，在此基础上，将用户输入的问题文本作为提示指令输入给大语言模型，大语言模型能够基于前述理解的图片中的图像内容，对该问题文本进行理解及回复。本申请支持多模态的问题输入，用户可以基于图片进行知识问答，扩展了知识问答的应用场景。并且，按照本申请的方案可以使得大语言模型能够理解图片的图像内容，基于此能够更加准确的给出问题文本所匹配的答复内容。

6.

发明公开
图像生成方法、装置、电子设备及存储介质审中-实审

公开(公告)号：CN115861747A

公开(公告)日：2023-03-28

申请号：CN202211457780.3

申请日：2022-11-21

Applicant: 科大讯飞股份有限公司

Inventor： 龚苏明 , 程虎 , 刘文超 , 林垠 , 殷保才 , 胡金水

IPC: G06V10/80 , G06F40/289 , G06V10/764 , G06T3/40 , G06N3/0464 , G06N3/08

Abstract: 本发明提供一种图像生成方法、装置、电子设备及存储介质，其中方法包括：获取待绘制目标的描述文本，从所述描述文本中提取所述绘制目标的预设属性的关键词；基于所述关键词，生成所述预设属性的属性图像；以所述描述文本和所述属性图像为约束，生成所述待绘制目标的目标图像。本发明提供的方法、装置、电子设备及存储介质，以描述文本和属性图像为约束，生成待绘制目标的目标图像，目标图像不仅符合描述文本的限定，还符合属性图像的限定，由此，保证了生成的目标图像中目标的预设属性与描述文本中的关键词一致，目标图像在预设属性的呈现上是符合常识认知的，不会生成稀奇古怪的图像结果，提高了生成的目标图像的准确性和可靠性。

7.

发明公开
多模态说话人身份识别方法、装置和设备有权

公开(公告)号：CN113920560A

公开(公告)日：2022-01-11

申请号：CN202111092312.6

申请日：2021-09-17

Applicant: 科大讯飞股份有限公司

Inventor： 程虎 , 殷保才 , 刘文超 , 李渊强

IPC: G06V40/16 , G06V40/20 , G06V20/40 , G10L17/00 , G10L17/18 , G10L25/30

Abstract: 本发明公开一种多模态说话人身份识别方法、装置和设备，该方法包括：获取会话场景的视频数据和音频数据；对所述视频数据进行人脸检测和唇形检测，得到参会人的子视频数据和所述子视频数据中的人脸框数据和唇形框序列；根据所述参会人的所述唇形框序列和所述音频数据，确定所有参会人中的说话人和所述说话人对应的音频数据；根据所述说话人的所述人脸框数据提取所述说话人的视觉特征，并根据所述说话人对应的音频数据提取所述说话人的音频特征；根据所述视觉特征和所述音频特征对所述说话人进行身份识别。本申请能够在复杂多样的会话场景下提高说话人身份识别的准确性。

8.

发明公开
翻译方法、装置、系统、设备、存储介质和程序产品审中-实审

公开(公告)号：CN119312820A

公开(公告)日：2025-01-14

申请号：CN202411494986.2

申请日：2024-10-24

Applicant: 科大讯飞股份有限公司

Inventor： 殷保才 , 夏鹏程 , 盛典 , 甘文君 , 董健 , 刘文超 , 殷兵

IPC: G06F40/58 , G06F40/30 , G06V20/70 , G06N5/04

Abstract: 本发明提供一种翻译方法、装置、系统、设备、存储介质和程序产品，其中方法包括：基于用户输入中的输入文本和输入图像进行语义分析，基于分析结果确定输出回复；在输出回复为对用户的输入引导的情况下，获取用户对应于输入引导的补充输入；基于用户输入和补充输入进行翻译，得到用户输入对应的翻译结果，采用交互式的方式进行翻译，可以在分析确定当前无法得出准确结果时，提供引导以使用户针对性的进行信息补充，以获取更多有关翻译目标的信息，基于此进行翻译，克服了传统方案中翻译结果不准确、不可靠和不实用的问题，提升了翻译灵活性，可以更好地应对复杂场景，减少歧义，得到准确可靠的翻译结果，并可为用户提供有效帮助，优化用户体验。

9.

发明授权
图像处理方法、装置、电子设备及计算机存储介质有权

公开(公告)号：CN111161268B

公开(公告)日：2024-04-30

申请号：CN201911275373.9

申请日：2019-12-12

Applicant: 科大讯飞股份有限公司

Inventor： 程虎 , 殷保才 , 王凤艳 , 刘文超

IPC: G06T7/10 , G06T7/00 , G06N3/0464

Abstract: 本申请提供了一种图像处理方法、装置、电子设备及计算机存储介质，首先获取目标用户的胸片图像；接着，将所述胸片图像输入训练好的分割模型，根据所述训练好的分割模型的输出确定原始肋骨图像；最后，对所述原始肋骨图像进行分割处理，得到目标肋骨图像，所述分割处理用于获取无粘连的肋骨图像。可以将深度学习的神经网络模型与后续处理结合，自动分割出每一根肋骨都独立的目标肋骨图像，提升图像处理的准确性和效率，也为医生提供了便利。

10.

发明公开
开放式问答方法、装置及相关设备审中-实审

公开(公告)号：CN117725168A

公开(公告)日：2024-03-19

申请号：CN202311381504.8

申请日：2023-10-23

Applicant: 科大讯飞股份有限公司

Inventor： 殷保才 , 吴浩 , 刘文超 , 盛典 , 潘吉材 , 柏航 , 陈明军 , 张银田 , 胡金水 , 殷兵 , 刘聪 , 刘权 , 魏思 , 王士进 , 胡国平

IPC: G06F16/332 , G06V20/62 , G06T9/00

Abstract: 本申请公开了一种开放式问答方法、装置及相关设备，多模态大模型包括图像编码模块和大语言模型，在回答与目标图像相关的问题文本时，可以调用文本识别算法对目标图像进行文本识别，得到文本识别结果，可以通过大语言模型得到该文本识别结果的特征表示，进一步，大语言模型在解码答案文本时其输入除了包含传统的问题文本的特征表示及训练图像的特征表示之外，额外增加了对目标图像的文本识别结果的特征表示，使得大语言模型可以关注到目标图像中文本内容及其位置信息，如此可以使得多模态大模型具备文字空间感知能力，因而在回答与文字空间排布相关问题时能够基于掌握的对文字的空间感知能力准确给出正确回答。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification