-
公开(公告)号:CN119941648A
公开(公告)日:2025-05-06
申请号:CN202411974152.1
申请日:2024-12-30
Applicant: 安徽影联云享医疗科技有限公司 , 科大讯飞华南人工智能研究院(广州)有限公司 , 讯飞医疗科技股份有限公司 , 科大讯飞股份有限公司
Abstract: 本发明涉及医学影像分析,具体涉及一种基于先验位置信息的医学影像分析方法,根据不同部位的重要性程度,初始化分管不同区域的可学习Queries;输入3D医学影像,根据先验位置信息在相应区域提取3D视觉特征,并在所有3D视觉特征中提取特定区域的局部特征;对各区域的可学习Queries与各区域的局部特征进行特征交互学习,得到各区域的视觉交互特征;利用分类头基于目标区域的视觉交互特征进行分类,并对分类结果进行文本化处理,得到目标区域的分类结果文本化描述;根据目标区域的视觉交互特征、分类结果文本化描述和用户指令文本得到目标区域的文本报告;本发明提供的技术方案能够有效克服难以准确生成目标区域文本报告的缺陷。
-
公开(公告)号:CN119784897A
公开(公告)日:2025-04-08
申请号:CN202411979165.8
申请日:2024-12-31
Applicant: 科大讯飞股份有限公司
IPC: G06T11/60 , G06V30/19 , G06V30/146 , G06V30/18
Abstract: 本申请公开了一种图像中文本的处理方法及相关装置,涉及图像处理技术领域,图像中文本的处理方法包括:获取包含文本的目标图像;对目标图像进行文本行属性检测,得到目标图像中文本行的文本行属性;对目标图像中的文本行进行文字属性识别,得到目标图像中文本行的文字属性;获取用户从文本行属性和文字属性中选取的属性,作为目标文本属性;对目标图像中目标文本属性的文本行进行擦除处理或编辑处理。本申请公开的图像中文本的处理方法,通过对目标图像进行文本属性检测,可获得目标图像中文本行的文本属性,在此基础上,用户可指定文本属性,进而可对目标图像中用户指定的文本属性的文本行进行擦除或编辑处理,从而可得到满足用户要求的图像。
-
公开(公告)号:CN119360417A
公开(公告)日:2025-01-24
申请号:CN202411459811.8
申请日:2024-10-18
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种单目手势识别方法及相关装置,涉及手势识别技术领域,单目手势识别方法包括:获取目标手部图像序列;基于预先训练得到的单目3D手部姿态估计模型,获取目标手部图像序列的每个目标手部图像对应的手部3D关键点位置信息,得到目标手部3D关键点位置信息序列,其中,单目3D手部姿态估计模型采用标注有手部3D关键点位置信息的训练手部图像,同时辅以训练手部图像的手部姿态描述文本和/或真实手部3D重建标签训练得到;根据目标手部3D关键点位置信息序列,进行手势识别,得到手势识别结果。本申请公开的单目手势识别方法具有较高的识别精度。
-
公开(公告)号:CN119206758A
公开(公告)日:2024-12-27
申请号:CN202411467104.3
申请日:2024-10-21
Applicant: 科大讯飞股份有限公司
IPC: G06V30/414 , G06V30/416 , G06V30/19 , G06N5/04 , G06N3/0464 , G06N3/045 , G06V10/82
Abstract: 本申请公开了一种文档识别方法、装置、相关设备及计算机程序产品,对于待识别文本可以拆分为多页文档图像,并分别提取每页文档图像的视觉特征,可以将多页文档图像的视觉特征同时送入大模型,同时提取第一文档识别指令的文本特征也送入大模型,所述第一文档识别指令用于指示大模型输出文档图像的文档识别结果,如此能够通过大模型端到端地输出多页文档的识别结果。由于大模型具有更强的建模能力,同时将多页文档图像的视觉特征送入大模型,可以保留不同页文档图像之间的上下文信息,进而能够理解文本的上下文语义,更精确地分析文档的层次结构和内容关系,从而提高文本识别和版面理解的准确性,提升多页文档的识别结果准确度。
-
公开(公告)号:CN119206733A
公开(公告)日:2024-12-27
申请号:CN202411470781.0
申请日:2024-10-21
Applicant: 科大讯飞股份有限公司
IPC: G06V30/148 , G06V30/16 , G06V30/226 , G06V10/82 , G06V30/19 , G06N3/08
Abstract: 本发明提供一种表达式识别方法、装置、电子设备和存储介质,其中方法包括:获取表达式图像;基于表达式图像的图像特征,对表达式图像进行符号识别,得到表达式图像的符号识别结果;基于图像特征和符号识别结果,对表达式图像进行符号校正和符号连通性预测,得到表达式图像的符号校正结果和符号连通关系;基于符号校正结果和符号连通关系,确定表达式图像对应的表达式。本发明提供的方法、装置、电子设备和存储介质,可以充分应用表达式图像的整体视觉特性,从而保证表达式识别的准确性和可靠性;并且,可以一次性输出表达式图像中所有符号的符号校正结果和符号连通关系,这种非自回归的形式能够大大提高表达式的识别效率。
-
公开(公告)号:CN118782044A
公开(公告)日:2024-10-15
申请号:CN202410847026.3
申请日:2024-06-27
Applicant: 科大讯飞股份有限公司
IPC: G10L15/26 , G10L15/18 , G10L15/22 , G10L15/16 , G06F3/01 , G06V20/58 , G06V20/59 , G06F40/30 , G06F18/25 , G06N3/045 , G06N3/0442 , G06N3/0464
Abstract: 本发明涉及人机交互技术领域,提供一种多模态交互方法、装置、电子设备和存储介质,其中方法包括:接收车内的用户语音;对所述用户语音进行识别,得到识别文本,并对所述识别文本进行意图理解,获得意图信息;基于所述用户语音和/或所述意图信息,获取所述意图信息对应的图像,所述图像基于车内摄像头和/或车外摄像头采集得到;基于所述识别文本和所述图像,确定交互结果。本发明提供的方法、装置、电子设备和存储介质,通过将语音和视觉信息相融合,能够实现多模态交互,使得交互过程更加自然、准确、智能和灵活,从而大大提升用户的交互体验。
-
公开(公告)号:CN118673136A
公开(公告)日:2024-09-20
申请号:CN202410847601.X
申请日:2024-06-27
Applicant: 科大讯飞股份有限公司
IPC: G06F16/34 , G06F40/211 , G06F40/289 , G06F40/284 , G06N3/045 , G06N3/0475 , G06N3/094
Abstract: 本发明提供一种文案生成方法、装置、电子设备和存储介质,其中方法包括:获取用户输入的多张图像和/或针对待生成文案的初始需求描述;基于文案生成模型,应用所述多张图像和/或所述初始需求描述进行文案生成,得到文案初稿;获取所述用户输入的针对所述文案初稿的修改需求描述;基于所述文案生成模型,应用所述修改需求描述,或者,应用所述多张图像和所述修改需求描述,对所述文案初稿进行修改,生成目标文案。本发明通过支持多模态输入、引入交互性和迭代性机制,不仅可以满足用户自由编辑的交互需求,还可以提高文案生成的效率和准确性,为用户提供更加高效、准确和灵活的文案生成体验。
-
公开(公告)号:CN118411733A
公开(公告)日:2024-07-30
申请号:CN202410132276.9
申请日:2024-01-30
Applicant: 科大讯飞股份有限公司
IPC: G06V30/413 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/0442 , G06N3/09 , G06N3/088 , G06N3/084
Abstract: 本申请实施例公开了一种文本识别方法、装置、设备及存储介质,先对图片进行特征提取,得到视觉特征,然后对视觉特征进行处理,得到文本识别结果,该文本识别结果以标记语言表述图片中的文本内容及其版面信息,也就是说,基于本申请生成了更加丰富的文本识别结果,提高了文本识别的智能性。
-
公开(公告)号:CN118334686A
公开(公告)日:2024-07-12
申请号:CN202410515507.4
申请日:2024-04-26
Applicant: 科大讯飞股份有限公司
IPC: G06V30/41 , G06V30/148 , G06V30/19
Abstract: 本发明提供一种文档识别方法、装置、电子设备和存储介质,涉及人工智能技术领域,其中方法包括:获取用户输入的识别需求信息,所述识别需求信息包括至少一个第一待识别要素;针对各所述第一待识别要素,在确定识别模式为精细模式的情况下,基于所述第一待识别要素对待识别文档图片进行要素分割,得到所述第一待识别要素对应的要素分割结果;基于所述要素分割结果生成第一提示信息;从所述待识别文档图片中确定与所述第一提示信息对应的第一待识别要素信息;基于所述第一提示信息对所述第一待识别要素信息进行识别,得到第一识别结果。本发明实现了文档图片的个性化识别,且降低了识别结果的序列长度。
-
公开(公告)号:CN117909459A
公开(公告)日:2024-04-19
申请号:CN202311693737.1
申请日:2023-12-06
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06F18/213 , G06F18/22 , G06N3/045 , G06N3/096
Abstract: 本申请公开了一种问题回答方法及相关装置、设备和存储介质,其中,问题回答方法包括:将待回答问题的问题特征输入至在问题回答任务上经参数微调的大语言模型;其中,参数微调时冻结大语言模型的网络参数;获取大语言模型中目标网络层的输出特征,并获取大语言模型在参数微调时为目标网络层确定的特征迁移参数;基于目标网络层的输出特征和特征迁移参数,得到目标网络层的输出特征迁移至问题回答任务之后的迁移特征;其中,迁移特征用于供大语言模型中目标网络层之后的网络层继续处理,直至大语言模型中输出层;获取由输出层所输出的问题回答。上述方案,能够提升大语言模型的问题回答精度。
-
-
-
-
-
-
-
-
-