Patent search ap:("科大讯飞股份有限公司") AND inv:"殷兵" Page 2

11.

发明授权
作业学情采集方法、装置、设备及存储介质有权

公开(公告)号：CN115147859B

公开(公告)日：2025-01-03

申请号：CN202210909939.4

申请日：2022-07-29

Applicant: 科大讯飞股份有限公司

Inventor： 吴嘉嘉 , 刘辰宇 , 张银田 , 陈明军 , 杨争艳 , 殷兵 , 胡金水 , 潘青华 , 刘聪

IPC: G06V30/42 , G06V30/142 , G06V30/148

Abstract: 本申请公开了一种文本处理方法、装置、设备及存储介质，通过摄像头对审阅者批注纸质作业文档的场景进行拍摄，获取到拍摄的视频，进而对视频中每一视频帧进行识别，得到每一视频帧中包含的审阅者手写体批注内容以及作答者的身份信息，基于识别到的每一视频帧的作答者的身份信息，对拍摄的视频进行切分，得到与每一身份的作答者对应的视频帧序列，基于每一身份的作答者对应的视频帧序列中各视频帧包含的审阅者手写体批注内容，可以分析得到每一身份的作答者的作业学情。本申请提供的方案对于审阅者而言是无感的，不需要改变审阅者的批注流程和习惯，也不需要审阅者去手动对批注后的纸质作业文档进行拍照操作，因此降低审阅者的工作量。

12.

发明公开
文档识别方法、装置、相关设备及计算机程序产品审中-实审

公开(公告)号：CN119206758A

公开(公告)日：2024-12-27

申请号：CN202411467104.3

申请日：2024-10-21

Applicant: 科大讯飞股份有限公司

Inventor： 刘辰宇 , 余文鑫 , 张嘉奥 , 殷保才 , 殷兵 , 胡金水 , 潘嘉 , 陈明军

IPC: G06V30/414 , G06V30/416 , G06V30/19 , G06N5/04 , G06N3/0464 , G06N3/045 , G06V10/82

Abstract: 本申请公开了一种文档识别方法、装置、相关设备及计算机程序产品，对于待识别文本可以拆分为多页文档图像，并分别提取每页文档图像的视觉特征，可以将多页文档图像的视觉特征同时送入大模型，同时提取第一文档识别指令的文本特征也送入大模型，所述第一文档识别指令用于指示大模型输出文档图像的文档识别结果，如此能够通过大模型端到端地输出多页文档的识别结果。由于大模型具有更强的建模能力，同时将多页文档图像的视觉特征送入大模型，可以保留不同页文档图像之间的上下文信息，进而能够理解文本的上下文语义，更精确地分析文档的层次结构和内容关系，从而提高文本识别和版面理解的准确性，提升多页文档的识别结果准确度。

13.

发明公开
表达式识别方法、装置、电子设备和存储介质审中-实审

公开(公告)号：CN119206733A

公开(公告)日：2024-12-27

申请号：CN202411470781.0

申请日：2024-10-21

Applicant: 科大讯飞股份有限公司

Inventor： 刘辰宇 , 胡金水 , 殷保才 , 潘嘉 , 殷兵 , 陈明军 , 刘聪

IPC: G06V30/148 , G06V30/16 , G06V30/226 , G06V10/82 , G06V30/19 , G06N3/08

Abstract: 本发明提供一种表达式识别方法、装置、电子设备和存储介质，其中方法包括：获取表达式图像；基于表达式图像的图像特征，对表达式图像进行符号识别，得到表达式图像的符号识别结果；基于图像特征和符号识别结果，对表达式图像进行符号校正和符号连通性预测，得到表达式图像的符号校正结果和符号连通关系；基于符号校正结果和符号连通关系，确定表达式图像对应的表达式。本发明提供的方法、装置、电子设备和存储介质，可以充分应用表达式图像的整体视觉特性，从而保证表达式识别的准确性和可靠性；并且，可以一次性输出表达式图像中所有符号的符号校正结果和符号连通关系，这种非自回归的形式能够大大提高表达式的识别效率。

14.

发明授权
交互方法、交互装置、电子设备以及存储介质有权

公开(公告)号：CN114357135B

公开(公告)日：2024-11-01

申请号：CN202111672307.2

申请日：2021-12-31

Applicant: 科大讯飞股份有限公司

Inventor： 胡诗卉 , 何山 , 胡金水 , 殷兵 , 刘聪

IPC: G06F16/332 , G06F16/338 , G06F16/33 , G06V40/16 , G06F40/295 , G06T13/40 , G10L13/08

Abstract: 本申请公开了交互方法、交互装置、电子设备以及存储介质，其中，该交互方法包括：获取到用户的问询文本以及面部表情，并确定用户当前的情感类型标签；基于问询文本与情感类型标签确定问询文本的回复文本，并基于问询文本以及回复文本形成对话文本；利用对话文本以及情感类型标签得到与情感类型标签匹配的情感回应数据；将情感回应数据加载到虚拟形象中，以对用户做出带有情感的交互响应。通过上述方案，本申请交互方法对应的虚拟形象能够进行类人的情感表达，从而能够使用户对应获得更自然，更具趣味性的交互体验。

15.

发明公开
多模态交互方法、装置、电子设备和存储介质审中-实审

公开(公告)号：CN118782044A

公开(公告)日：2024-10-15

申请号：CN202410847026.3

申请日：2024-06-27

Applicant: 科大讯飞股份有限公司

Inventor： 殷保才 , 叶润春 , 柏航 , 董健 , 盛典 , 吴浩 , 夏鹏程 , 潘吉材 , 刘文超 , 殷兵

IPC: G10L15/26 , G10L15/18 , G10L15/22 , G10L15/16 , G06F3/01 , G06V20/58 , G06V20/59 , G06F40/30 , G06F18/25 , G06N3/045 , G06N3/0442 , G06N3/0464

Abstract: 本发明涉及人机交互技术领域，提供一种多模态交互方法、装置、电子设备和存储介质，其中方法包括：接收车内的用户语音；对所述用户语音进行识别，得到识别文本，并对所述识别文本进行意图理解，获得意图信息；基于所述用户语音和/或所述意图信息，获取所述意图信息对应的图像，所述图像基于车内摄像头和/或车外摄像头采集得到；基于所述识别文本和所述图像，确定交互结果。本发明提供的方法、装置、电子设备和存储介质，通过将语音和视觉信息相融合，能够实现多模态交互，使得交互过程更加自然、准确、智能和灵活，从而大大提升用户的交互体验。

16.

发明公开
一种英语固定搭配识别方法及相关装置有权

公开(公告)号：CN118690748A

公开(公告)日：2024-09-24

申请号：CN202411173918.6

申请日：2024-08-26

Applicant: 科大讯飞股份有限公司

Inventor： 殷兵 , 谢智鹏 , 孔常青 , 熊世富 , 潘嘉 , 高建清 , 刘聪 , 李小喜

IPC: G06F40/284 , G06F40/242 , G06F40/30

Abstract: 本申请公开了一种英语固定搭配识别方法及相关装置，先获取以目标英语单词开头且目标英语单词后面包含第一单词的目标英语单词序列，再确定第一单词的词性是否为目标词性；如果第一单词的词性是目标词性，则确定目标英语单词序列是英语固定搭配。考虑到虽然英语的语言多样性、语境复杂性以及文化差异等因素，会导致英语固定搭配的形式可能发生变化，但是，不管怎样变化，英语固定搭配必须符合特定的语法和语义规则，而对于以目标单词开头的英语固定搭配，目标单词后面的词的词性是需要满足条件，才能与特定的语法和语义规则匹配，因此，基于目标单词后的第一单词的词性是否为目标词性，确定目标英语单词序列是否为英语固定搭配，准确率更高。

17.

发明授权
三维重建方法、装置、电子设备和存储介质有权

公开(公告)号：CN118485785B

公开(公告)日：2024-09-24

申请号：CN202410948625.4

申请日：2024-07-16

Applicant: 科大讯飞股份有限公司 , 浙江潮汐力科技有限公司

Inventor： 殷兵 , 胡懋成 , 蔡明琦 , 方昕 , 李俊 , 宫韬

IPC: G06T17/00 , G06V10/75

Abstract: 本发明涉及图像处理技术领域，提供一种三维重建方法、装置、电子设备和存储介质，其中方法包括：获取至少两个视角图像；基于至少两个视角图像的视角图特征之间的相关性，对各视角图特征进行特征增强，得到各视角图像的增强图特征，并基于各视角图像的增强图特征，进行深度预测，得到预测深度范围；将预测深度范围作为立体匹配算法的初始深度范围，应用立体匹配算法在至少两个视角图像的基础上进行三维重建。本发明提供的方法、装置、电子设备和存储介质，将预测深度范围作为初始深度范围，能够缩小初始深度范围与真实深度情况之间的误差，提高在三维重建的迭代优化效率，降低陷入局部最优解的风险，由此提高三维重建效率，保证三维重建质量。

18.

发明公开
生理健康监测方法、装置、车辆、电子设备和存储介质审中-实审

公开(公告)号：CN118675089A

公开(公告)日：2024-09-20

申请号：CN202410847707.X

申请日：2024-06-27

Applicant: 科大讯飞股份有限公司

Inventor： 陈叶瀚森 , 林垠 , 沙文 , 殷兵

IPC: G06V20/40 , G06V40/16 , G06V20/52 , G06F18/25 , G06N20/00 , G06V10/82 , G06N3/0464 , G06N3/044 , G06N3/045 , G06N3/0442 , G16H50/30 , A61B5/0205 , A61B5/00 , A61B5/145

Abstract: 本发明提供一种生理健康监测方法、装置、车辆、电子设备和存储介质，方法包括获取包括待监测对象的视频，对所述视频中的各帧图像进行面部检测，得到所述各帧图像中的面部图块；预测所述面部图块对应的基本属性，提取包括所述基本属性的描述文本的文本特征，并提取各所述面部图块的图像时序特征；基于所述文本特征和所述图像时序特征，对所述待监测对象的生理健康进行监测。本发明提供的生理健康监测方法、装置、车辆、电子设备和存储介质，能够从复杂的视频信号中提取出微弱的生理指标信号，相比于传感器监测的方式更加便捷，能够提高监测效率的同时保证了监测精度。

19.

发明公开
文案生成方法、装置、电子设备和存储介质审中-实审

公开(公告)号：CN118673136A

公开(公告)日：2024-09-20

申请号：CN202410847601.X

申请日：2024-06-27

Applicant: 科大讯飞股份有限公司

Inventor： 殷兵 , 盛典 , 董健 , 潘吉材 , 柏航 , 叶润春 , 吴浩 , 夏鹏程 , 刘文超 , 殷保才

IPC: G06F16/34 , G06F40/211 , G06F40/289 , G06F40/284 , G06N3/045 , G06N3/0475 , G06N3/094

Abstract: 本发明提供一种文案生成方法、装置、电子设备和存储介质，其中方法包括：获取用户输入的多张图像和/或针对待生成文案的初始需求描述；基于文案生成模型，应用所述多张图像和/或所述初始需求描述进行文案生成，得到文案初稿；获取所述用户输入的针对所述文案初稿的修改需求描述；基于所述文案生成模型，应用所述修改需求描述，或者，应用所述多张图像和所述修改需求描述，对所述文案初稿进行修改，生成目标文案。本发明通过支持多模态输入、引入交互性和迭代性机制，不仅可以满足用户自由编辑的交互需求，还可以提高文案生成的效率和准确性，为用户提供更加高效、准确和灵活的文案生成体验。

20.

发明公开
文本识别方法、装置、设备及存储介质审中-实审

公开(公告)号：CN118411733A

公开(公告)日：2024-07-30

申请号：CN202410132276.9

申请日：2024-01-30

Applicant: 科大讯飞股份有限公司

Inventor： 刘辰宇 , 殷保才 , 潘嘉 , 殷兵 , 胡金水 , 谢名亮 , 余文鑫 , 晏黔东 , 崔燕平 , 张晋 , 王士进 , 刘聪 , 胡国平

IPC: G06V30/413 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/0442 , G06N3/09 , G06N3/088 , G06N3/084

Abstract: 本申请实施例公开了一种文本识别方法、装置、设备及存储介质，先对图片进行特征提取，得到视觉特征，然后对视觉特征进行处理，得到文本识别结果，该文本识别结果以标记语言表述图片中的文本内容及其版面信息，也就是说，基于本申请生成了更加丰富的文本识别结果，提高了文本识别的智能性。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification