Patent search ap:("科大讯飞股份有限公司" OR "广州市讯飞樽鸿信息技术有限公司") AND inv:"刘文超" Page 2

11.

发明公开
一种图像语义匹配方法、装置、设备及存储介质审中-实审

公开(公告)号：CN115830350A

公开(公告)日：2023-03-21

申请号：CN202211710848.4

申请日：2022-12-29

Applicant: 科大讯飞股份有限公司

Inventor： 刘文超 , 殷保才 , 程虎

IPC: G06V10/74 , G06V20/70 , G06V10/40

Abstract: 本发明提供了一种图像语义匹配方法、装置、设备及存储介质，其中，图像语义匹配方法包括：获取待匹配图像和参考图像；以图像变换矩阵为优化对象，以使基于图像变换矩阵对待匹配图像进行变换得到的变换后图像与参考图像的语义匹配为目标，对图像变换矩阵进行优化；将基于最后一次优化后的图像变换矩阵对待匹配图像进行变换得到的图像，确定为与参考图像的语义匹配的图像。本发明提供的图像语义匹配方法以图像变换矩阵为优化对象，通过不断优化得到待匹配图像与参考图像间的图像变换矩阵，优化过程即是对待匹配图像进行变换的过程，优化完成时即完成图像语义匹配，本发明提供的图像语义匹配方法具有较好的匹配效果和较强的泛化能力。

12.

发明公开
一种虚拟换装方法、装置、设备及存储介质审中-实审

公开(公告)号：CN115578487A

公开(公告)日：2023-01-06

申请号：CN202211405675.5

申请日：2022-11-10

Applicant: 科大讯飞股份有限公司

Inventor： 程虎 , 殷保才 , 胡金水 , 殷兵 , 刘文超

IPC: G06T11/60 , G06T5/00 , G06T3/40 , G06T5/50 , G06V40/20 , G06V10/82

Abstract: 本申请提供了虚拟换装方法、装置、设备及存储介质，具体实现方案为：对获取到的服装区域图像进行姿态矫正处理，得到所述服装区域图像中服装的标准形状信息；其中，所述标准形状信息包括所述服装区域图像中服装处于自然平展状态下所呈现的形状信息；从所述服装区域图像中提取得到服装样式信息；利用所述服装样式信息和所述标准形状信息，对目标对象进行换装。根据本申请的技术方案，能够有效提升目标对象的换装效果。

13.

发明公开
语音增强方法、装置、电子设备及计算机可读存储介质审中-实审转让

公开(公告)号：CN114333863A

公开(公告)日：2022-04-12

申请号：CN202111544776.6

申请日：2021-12-16

Applicant: 科大讯飞股份有限公司

Inventor： 李渊强 , 殷保才 , 刘文超 , 程虎 , 陈航

IPC: G10L21/007 , G10L21/0208 , G10L21/0232 , G10L25/21 , G06V10/80

Abstract: 本申请公开了一种语音增强方法、装置、电子设备及计算机可读存储介质，其中，该方法包括：获取目标的视频数据和原始音频数据，其中，视频数据是获取原始音频数据时对目标拍摄得到的；利用视频数据提取视觉特征，以及利用原始音频数据提取语义特征和语音特征；基于视觉特征、语义特征和语音特征进行语音增强处理，得到增强音频数据。通过上述方式，本申请能够提升语音增强的鲁棒性。

14.

发明公开
图像处理方法、装置、电子设备及计算机存储介质有权

公开(公告)号：CN111161268A

公开(公告)日：2020-05-15

申请号：CN201911275373.9

申请日：2019-12-12

Applicant: 科大讯飞股份有限公司

Inventor： 程虎 , 殷保才 , 王凤艳 , 刘文超

IPC: G06T7/10 , G06T7/00 , G06N3/04

Abstract: 本申请提供了一种图像处理方法、装置、电子设备及计算机存储介质，首先获取目标用户的胸片图像；接着，将所述胸片图像输入训练好的分割模型，根据所述训练好的分割模型的输出确定原始肋骨图像；最后，对所述原始肋骨图像进行分割处理，得到目标肋骨图像，所述分割处理用于获取无粘连的肋骨图像。可以将深度学习的神经网络模型与后续处理结合，自动分割出每一根肋骨都独立的目标肋骨图像，提升图像处理的准确性和效率，也为医生提供了便利。

15.

发明公开
表格的还原方法、装置、电子设备和计算机程序产品审中-实审

公开(公告)号：CN119919951A

公开(公告)日：2025-05-02

申请号：CN202411762621.3

申请日：2024-12-03

Applicant: 科大讯飞股份有限公司

Inventor： 晏黔东 , 刘辰宇 , 殷保才 , 殷兵 , 潘嘉 , 刘文超 , 高建清

IPC: G06V30/412 , G06V10/26 , G06V10/44 , G06V10/82 , G06N3/0455 , G06N3/0499 , G06N3/08 , G06F40/18

Abstract: 本申请提出一种表格的还原方法、装置、电子设备和计算机程序产品，该方法从包含待还原表格的目标图像中，提取得到待还原表格的表格位置信息和待还原表格中各单元格的单元格位置信息，根据表格位置信息，从目标图像中提取得到待还原表格的结构信息，其中结构信息包括各单元格的单元格内容和单元格内容在待还原表格中的地址，然后根据单元格位置信息确定各单元格的尺寸和各单元格在待还原表格中的地址，以便于根据结构信息以及各单元格的尺寸、各单元格在待还原表格中的地址进行单元格复原，如此设置可以复原出各单元格的尺寸、各单元格的内容和表格的布局，实现在数字化处理过程中还原该表格的目的。

16.

发明公开
地标识别方法、装置、电子设备和存储介质审中-实审

公开(公告)号：CN118733794A

公开(公告)日：2024-10-01

申请号：CN202410847926.8

申请日：2024-06-27

Applicant: 科大讯飞股份有限公司

Inventor： 刘文超 , 吴浩 , 夏鹏程 , 柏航 , 董健 , 盛典 , 潘吉材 , 叶润春 , 殷保才

IPC: G06F16/387 , G06F16/332 , G06F40/151 , G06V20/56 , G06V10/40 , G10L15/26

Abstract: 本发明提供一种地标识别方法、装置、电子设备和存储介质，其中方法包括：在接收到用户输入的针对待查询地标的语音问题时，基于车外摄像头，采集多张车外图像；将语音问题转换为文本，并对车外图像进行特征提取，得到图像特征；将图像特征和文本进行拼接，得到拼接结果，并将拼接结果输入至地标识别模型，得到地标识别模型输出的针对语音问题的回答，地标识别模型基于拼接结果，确定待查询地标的检索标识，应用检索标识从周边地图数据库中检索得到待查询地标的详细信息，并基于拼接结果和详细信息，生成回答。本发明提供了便捷和直观的地标查询方式，用户可以通过语音针对待查询地标进行自由提问，即可获得地标的相关信息，提升了用户体验。

17.

发明授权
医学图像预处理模型与分析模型的相关方法和装置有权

公开(公告)号：CN113239978B

公开(公告)日：2024-06-04

申请号：CN202110436513.7

申请日：2021-04-22

Applicant: 科大讯飞股份有限公司

Inventor： 殷保才 , 刘文超

IPC: G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/047 , G06N3/084

Abstract: 本申请提供了一种医学图像预处理模型及分析模型的训练方法、识别方法和装置，其中，医学图像预处理模型的训练方法包括：利用医学图像预处理模型对第一医学图像样本进行预处理以获得预处理图像；利用保真判别器和第一医学图像样本对预处理图像进行真实性判定以获得真实性判定结果，并利用领域判别器对预处理图像进行领域标签判定以获得领域判定结果；利用真实性判定结果获得保真判别器反向梯度，并利用领域判定结果获得领域判别器反向梯度；利用保真判别器的反向梯度和领域判别器的反向梯度更新医学图像预处理模型的参数，以使得具有不同领域标签的预处理图像具有相同的外观特征。通过上述方式，本申请可以实现不同成像条件下医学图像数据的标准化。

18.

发明公开
图像处理方法、装置、设备及存储介质审中-实审

公开(公告)号：CN116883700A

公开(公告)日：2023-10-13

申请号：CN202310798362.9

申请日：2023-06-29

Applicant: 科大讯飞股份有限公司

Inventor： 程虎 , 殷兵 , 殷保才 , 林垠 , 刘文超

IPC: G06V10/75 , G06V10/40 , G06V10/774 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08

Abstract: 本申请提供了图像处理方法、装置、设备及存储介质，具体实现方案为：获取第一图像中的各个图形元素的属性信息，所述各个图形元素构成所述第一图像中的第一图形对象，根据所述第一图像中的各个图形元素的属性信息，确定所述第一图形对象的图结构信息，以及，获取第二图像中的第二图形对象的图结构信息；至少根据所述第一图形对象的图结构信息，以及所述第二图形对象的图结构信息，从所述第二图形对象中确定出与所述第一图形对象匹配的图形区域。根据本申请的技术方案，能够有效提升拼图图像匹配的准确性。

19.

发明公开
一种文档信息结构化抽取方法、装置、存储介质及设备审中-实审

公开(公告)号：CN119763139A

公开(公告)日：2025-04-04

申请号：CN202411891668.X

申请日：2024-12-20

Applicant: 科大讯飞股份有限公司

Inventor： 张嘉奥 , 刘辰宇 , 余文鑫 , 殷保才 , 潘嘉 , 胡金水 , 殷兵 , 刘文超

IPC: G06V30/414 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/08

Abstract: 本申请公开了一种文档信息结构化抽取方法、装置、存储介质及设备，该方法包括：首先获取目标文档所在的目标图像；并提取目标图像的目标视觉特征；然后将目标视觉特征输入语义信息提取模型进行OCR信息提取，得到目标OCR信息，并对其进行编码处理，得到目标语义编码向量；接着将目标视觉特征和目标语义编码向量输入预先构建的多模态大语言模型，预测得到目标文档对应的信息结构化抽取结果。可见，由于本申请采用的是结合OCR信息与多模态大语言模型的通用信息结构化抽取方法，并采用了视觉特征和OCR信息分别作为空间和文本语义上的抽取依据，解决了通过纯文本进行结构化抽取时的空间信息匮乏问题，从而能够有效提高文档信息结构化抽取的准确率。

20.

发明公开
模型训练、图文识别方法、装置、电子设备和存储介质审中-实审

公开(公告)号：CN119741501A

公开(公告)日：2025-04-01

申请号：CN202411940447.7

申请日：2024-12-26

Applicant: 科大讯飞股份有限公司

Inventor： 奚昌凤 , 高天 , 万根顺 , 刘文超 , 高建清 , 刘聪

IPC: G06V10/40 , G06V10/764 , G06N3/0455 , G06V30/18 , G06V30/19

Abstract: 本发明提供一种模型训练、图文识别方法、装置、电子设备和存储介质，其中方法包括：基于初始识别模型的视觉分支和语义分支，分别提取样本图像的视觉特征和语义特征；基于字符一致但排序不同的多个样本图像的视觉特征之间的差异，确定视觉约束损失；基于语义一致的多个样本图像的语义特征之间的差异，和/或，语义相近的多个样本图像的语义特征之间的差异，确定语义约束损失；基于视觉约束损失，对视觉分支进行参数迭代，以及，基于语义约束损失，对语义分支进行参数迭代，基于参数迭代完成后的初始识别模型，确定训练完成的图文识别模型。本发明提供的方法、装置、电子设备和存储介质，保证了复杂场景下图文识别的语义合理性和识别准确性。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification