-
公开(公告)号:CN115147859B
公开(公告)日:2025-01-03
申请号:CN202210909939.4
申请日:2022-07-29
Applicant: 科大讯飞股份有限公司
IPC: G06V30/42 , G06V30/142 , G06V30/148
Abstract: 本申请公开了一种文本处理方法、装置、设备及存储介质,通过摄像头对审阅者批注纸质作业文档的场景进行拍摄,获取到拍摄的视频,进而对视频中每一视频帧进行识别,得到每一视频帧中包含的审阅者手写体批注内容以及作答者的身份信息,基于识别到的每一视频帧的作答者的身份信息,对拍摄的视频进行切分,得到与每一身份的作答者对应的视频帧序列,基于每一身份的作答者对应的视频帧序列中各视频帧包含的审阅者手写体批注内容,可以分析得到每一身份的作答者的作业学情。本申请提供的方案对于审阅者而言是无感的,不需要改变审阅者的批注流程和习惯,也不需要审阅者去手动对批注后的纸质作业文档进行拍照操作,因此降低审阅者的工作量。
-
公开(公告)号:CN119206758A
公开(公告)日:2024-12-27
申请号:CN202411467104.3
申请日:2024-10-21
Applicant: 科大讯飞股份有限公司
IPC: G06V30/414 , G06V30/416 , G06V30/19 , G06N5/04 , G06N3/0464 , G06N3/045 , G06V10/82
Abstract: 本申请公开了一种文档识别方法、装置、相关设备及计算机程序产品,对于待识别文本可以拆分为多页文档图像,并分别提取每页文档图像的视觉特征,可以将多页文档图像的视觉特征同时送入大模型,同时提取第一文档识别指令的文本特征也送入大模型,所述第一文档识别指令用于指示大模型输出文档图像的文档识别结果,如此能够通过大模型端到端地输出多页文档的识别结果。由于大模型具有更强的建模能力,同时将多页文档图像的视觉特征送入大模型,可以保留不同页文档图像之间的上下文信息,进而能够理解文本的上下文语义,更精确地分析文档的层次结构和内容关系,从而提高文本识别和版面理解的准确性,提升多页文档的识别结果准确度。
-
公开(公告)号:CN119206733A
公开(公告)日:2024-12-27
申请号:CN202411470781.0
申请日:2024-10-21
Applicant: 科大讯飞股份有限公司
IPC: G06V30/148 , G06V30/16 , G06V30/226 , G06V10/82 , G06V30/19 , G06N3/08
Abstract: 本发明提供一种表达式识别方法、装置、电子设备和存储介质,其中方法包括:获取表达式图像;基于表达式图像的图像特征,对表达式图像进行符号识别,得到表达式图像的符号识别结果;基于图像特征和符号识别结果,对表达式图像进行符号校正和符号连通性预测,得到表达式图像的符号校正结果和符号连通关系;基于符号校正结果和符号连通关系,确定表达式图像对应的表达式。本发明提供的方法、装置、电子设备和存储介质,可以充分应用表达式图像的整体视觉特性,从而保证表达式识别的准确性和可靠性;并且,可以一次性输出表达式图像中所有符号的符号校正结果和符号连通关系,这种非自回归的形式能够大大提高表达式的识别效率。
-
公开(公告)号:CN114357135B
公开(公告)日:2024-11-01
申请号:CN202111672307.2
申请日:2021-12-31
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06F16/338 , G06F16/33 , G06V40/16 , G06F40/295 , G06T13/40 , G10L13/08
Abstract: 本申请公开了交互方法、交互装置、电子设备以及存储介质,其中,该交互方法包括:获取到用户的问询文本以及面部表情,并确定用户当前的情感类型标签;基于问询文本与情感类型标签确定问询文本的回复文本,并基于问询文本以及回复文本形成对话文本;利用对话文本以及情感类型标签得到与情感类型标签匹配的情感回应数据;将情感回应数据加载到虚拟形象中,以对用户做出带有情感的交互响应。通过上述方案,本申请交互方法对应的虚拟形象能够进行类人的情感表达,从而能够使用户对应获得更自然,更具趣味性的交互体验。
-
公开(公告)号:CN118782044A
公开(公告)日:2024-10-15
申请号:CN202410847026.3
申请日:2024-06-27
Applicant: 科大讯飞股份有限公司
IPC: G10L15/26 , G10L15/18 , G10L15/22 , G10L15/16 , G06F3/01 , G06V20/58 , G06V20/59 , G06F40/30 , G06F18/25 , G06N3/045 , G06N3/0442 , G06N3/0464
Abstract: 本发明涉及人机交互技术领域,提供一种多模态交互方法、装置、电子设备和存储介质,其中方法包括:接收车内的用户语音;对所述用户语音进行识别,得到识别文本,并对所述识别文本进行意图理解,获得意图信息;基于所述用户语音和/或所述意图信息,获取所述意图信息对应的图像,所述图像基于车内摄像头和/或车外摄像头采集得到;基于所述识别文本和所述图像,确定交互结果。本发明提供的方法、装置、电子设备和存储介质,通过将语音和视觉信息相融合,能够实现多模态交互,使得交互过程更加自然、准确、智能和灵活,从而大大提升用户的交互体验。
-
公开(公告)号:CN118690748A
公开(公告)日:2024-09-24
申请号:CN202411173918.6
申请日:2024-08-26
Applicant: 科大讯飞股份有限公司
IPC: G06F40/284 , G06F40/242 , G06F40/30
Abstract: 本申请公开了一种英语固定搭配识别方法及相关装置,先获取以目标英语单词开头且目标英语单词后面包含第一单词的目标英语单词序列,再确定第一单词的词性是否为目标词性;如果第一单词的词性是目标词性,则确定目标英语单词序列是英语固定搭配。考虑到虽然英语的语言多样性、语境复杂性以及文化差异等因素,会导致英语固定搭配的形式可能发生变化,但是,不管怎样变化,英语固定搭配必须符合特定的语法和语义规则,而对于以目标单词开头的英语固定搭配,目标单词后面的词的词性是需要满足条件,才能与特定的语法和语义规则匹配,因此,基于目标单词后的第一单词的词性是否为目标词性,确定目标英语单词序列是否为英语固定搭配,准确率更高。
-
公开(公告)号:CN118485785B
公开(公告)日:2024-09-24
申请号:CN202410948625.4
申请日:2024-07-16
Applicant: 科大讯飞股份有限公司 , 浙江潮汐力科技有限公司
Abstract: 本发明涉及图像处理技术领域,提供一种三维重建方法、装置、电子设备和存储介质,其中方法包括:获取至少两个视角图像;基于至少两个视角图像的视角图特征之间的相关性,对各视角图特征进行特征增强,得到各视角图像的增强图特征,并基于各视角图像的增强图特征,进行深度预测,得到预测深度范围;将预测深度范围作为立体匹配算法的初始深度范围,应用立体匹配算法在至少两个视角图像的基础上进行三维重建。本发明提供的方法、装置、电子设备和存储介质,将预测深度范围作为初始深度范围,能够缩小初始深度范围与真实深度情况之间的误差,提高在三维重建的迭代优化效率,降低陷入局部最优解的风险,由此提高三维重建效率,保证三维重建质量。
-
公开(公告)号:CN118675089A
公开(公告)日:2024-09-20
申请号:CN202410847707.X
申请日:2024-06-27
Applicant: 科大讯飞股份有限公司
IPC: G06V20/40 , G06V40/16 , G06V20/52 , G06F18/25 , G06N20/00 , G06V10/82 , G06N3/0464 , G06N3/044 , G06N3/045 , G06N3/0442 , G16H50/30 , A61B5/0205 , A61B5/00 , A61B5/145
Abstract: 本发明提供一种生理健康监测方法、装置、车辆、电子设备和存储介质,方法包括获取包括待监测对象的视频,对所述视频中的各帧图像进行面部检测,得到所述各帧图像中的面部图块;预测所述面部图块对应的基本属性,提取包括所述基本属性的描述文本的文本特征,并提取各所述面部图块的图像时序特征;基于所述文本特征和所述图像时序特征,对所述待监测对象的生理健康进行监测。本发明提供的生理健康监测方法、装置、车辆、电子设备和存储介质,能够从复杂的视频信号中提取出微弱的生理指标信号,相比于传感器监测的方式更加便捷,能够提高监测效率的同时保证了监测精度。
-
公开(公告)号:CN118673136A
公开(公告)日:2024-09-20
申请号:CN202410847601.X
申请日:2024-06-27
Applicant: 科大讯飞股份有限公司
IPC: G06F16/34 , G06F40/211 , G06F40/289 , G06F40/284 , G06N3/045 , G06N3/0475 , G06N3/094
Abstract: 本发明提供一种文案生成方法、装置、电子设备和存储介质,其中方法包括:获取用户输入的多张图像和/或针对待生成文案的初始需求描述;基于文案生成模型,应用所述多张图像和/或所述初始需求描述进行文案生成,得到文案初稿;获取所述用户输入的针对所述文案初稿的修改需求描述;基于所述文案生成模型,应用所述修改需求描述,或者,应用所述多张图像和所述修改需求描述,对所述文案初稿进行修改,生成目标文案。本发明通过支持多模态输入、引入交互性和迭代性机制,不仅可以满足用户自由编辑的交互需求,还可以提高文案生成的效率和准确性,为用户提供更加高效、准确和灵活的文案生成体验。
-
公开(公告)号:CN118411733A
公开(公告)日:2024-07-30
申请号:CN202410132276.9
申请日:2024-01-30
Applicant: 科大讯飞股份有限公司
IPC: G06V30/413 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/0442 , G06N3/09 , G06N3/088 , G06N3/084
Abstract: 本申请实施例公开了一种文本识别方法、装置、设备及存储介质,先对图片进行特征提取,得到视觉特征,然后对视觉特征进行处理,得到文本识别结果,该文本识别结果以标记语言表述图片中的文本内容及其版面信息,也就是说,基于本申请生成了更加丰富的文本识别结果,提高了文本识别的智能性。
-
-
-
-
-
-
-
-
-