-
公开(公告)号:CN118673136A
公开(公告)日:2024-09-20
申请号:CN202410847601.X
申请日:2024-06-27
Applicant: 科大讯飞股份有限公司
IPC: G06F16/34 , G06F40/211 , G06F40/289 , G06F40/284 , G06N3/045 , G06N3/0475 , G06N3/094
Abstract: 本发明提供一种文案生成方法、装置、电子设备和存储介质,其中方法包括:获取用户输入的多张图像和/或针对待生成文案的初始需求描述;基于文案生成模型,应用所述多张图像和/或所述初始需求描述进行文案生成,得到文案初稿;获取所述用户输入的针对所述文案初稿的修改需求描述;基于所述文案生成模型,应用所述修改需求描述,或者,应用所述多张图像和所述修改需求描述,对所述文案初稿进行修改,生成目标文案。本发明通过支持多模态输入、引入交互性和迭代性机制,不仅可以满足用户自由编辑的交互需求,还可以提高文案生成的效率和准确性,为用户提供更加高效、准确和灵活的文案生成体验。
-
公开(公告)号:CN118411733A
公开(公告)日:2024-07-30
申请号:CN202410132276.9
申请日:2024-01-30
Applicant: 科大讯飞股份有限公司
IPC: G06V30/413 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/0442 , G06N3/09 , G06N3/088 , G06N3/084
Abstract: 本申请实施例公开了一种文本识别方法、装置、设备及存储介质,先对图片进行特征提取,得到视觉特征,然后对视觉特征进行处理,得到文本识别结果,该文本识别结果以标记语言表述图片中的文本内容及其版面信息,也就是说,基于本申请生成了更加丰富的文本识别结果,提高了文本识别的智能性。
-
公开(公告)号:CN118334686A
公开(公告)日:2024-07-12
申请号:CN202410515507.4
申请日:2024-04-26
Applicant: 科大讯飞股份有限公司
IPC: G06V30/41 , G06V30/148 , G06V30/19
Abstract: 本发明提供一种文档识别方法、装置、电子设备和存储介质,涉及人工智能技术领域,其中方法包括:获取用户输入的识别需求信息,所述识别需求信息包括至少一个第一待识别要素;针对各所述第一待识别要素,在确定识别模式为精细模式的情况下,基于所述第一待识别要素对待识别文档图片进行要素分割,得到所述第一待识别要素对应的要素分割结果;基于所述要素分割结果生成第一提示信息;从所述待识别文档图片中确定与所述第一提示信息对应的第一待识别要素信息;基于所述第一提示信息对所述第一待识别要素信息进行识别,得到第一识别结果。本发明实现了文档图片的个性化识别,且降低了识别结果的序列长度。
-
公开(公告)号:CN111091158B
公开(公告)日:2024-04-30
申请号:CN201911360386.6
申请日:2019-12-25
Applicant: 科大讯飞股份有限公司
IPC: G06V10/764 , G06T7/00
Abstract: 本申请提供了一种针对教辅图像的图像质量的分类方法,获取第一图像块集合以及第二图像块集合。其中,第一图像块集合中包括从待分类的图像中选取的图像块,第二图像块集合中包括从待分类的图像的印刷重建图像中选择的图像块。第一图像块集合中的图像块与第二图像块集合中的图像块一一对应,对应的图像块为位置信息相同的图像块。进一步依据第一图像块集合和第二图像块集合,确定待分类图像的质量分类结果。本申请获取的质量分类结果既可以对待分类的图像的原始数字图像进行质量评估,也可以对待分类的图像的打印图像进行质量评估。并且,在任意一个图像块集合中,图像块之间的结构不相似,由此保证了采样的多样性,从而提高评估结果的准确性。
-
公开(公告)号:CN117789239A
公开(公告)日:2024-03-29
申请号:CN202311564044.2
申请日:2023-11-20
Applicant: 科大讯飞股份有限公司
IPC: G06V30/42 , G06V30/414 , G06V30/413 , G06V30/226 , G06V30/19 , G06V30/146
Abstract: 本申请公开了一种二维图形速算题作答批改方法、装置、设备及存储介质,获取对纸质作答试卷拍摄的图片,从图片中识别出包含二维图形速算题的二维速算块区域;识别二维速算块区域包含的基础结构,及每一基础结构中包含的字符,基础结构为预先定义的组成二维图形速算题的最小结构单元,字符包括印刷体字符和/或手写体字符;针对识别出的每一基础结构,按照预配置的与基础结构对应的批改规则,结合基础结构包含的字符进行作答批改,得到基础结构的批改结果,由各基础结构的批改结果组成二维图形速算题的第一作答批改结果。本申请无需提前录入试题的答案,通过对二维图形速算题对应图像进行分析,即可实现自动批改,成本更低、泛化性更强。
-
公开(公告)号:CN117750125A
公开(公告)日:2024-03-22
申请号:CN202311872648.3
申请日:2023-12-29
Applicant: 科大讯飞股份有限公司 , 科大讯飞(苏州)科技有限公司
IPC: H04N21/44 , H04N21/472
Abstract: 本申请公开了一种视频合成方法、装置、设备及存储介质支持多模态条件信息控制下的视频合成,方法包括:获取指定的初始图像,及与待合成视频匹配的多模态条件信息,所述多模态条件信息包括与所述待合成视频匹配的音频信息和/或文本描述信息;提取所述初始图像对应的初始骨架图;以所述多模态条件信息作为控制条件,利用配置的扩散模型在所述控制条件的指导下,生成与所述多模态条件信息语义匹配的连续骨架图,由所述初始骨架图及生成的所述连续骨架图依序组成目标骨架图序列;基于所述目标骨架图序列对所述初始图像的图像特征进行变形,以生成视频序列。实现了根据用户的合成要求,对初始图像进行视频合成的目的,满足用户个性化的合成需求。
-
公开(公告)号:CN117671707A
公开(公告)日:2024-03-08
申请号:CN202311543468.0
申请日:2023-11-15
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种提供一种文字识别方法、系统以及相关装置,该方法包括:获取待识别图像的初始特征;基于上一解码轮次对应的解码区域,获取当前解码轮次中所述待识别图像对应的解码步长;其中,所述解码区域与所述待识别图像中的部分区域匹配;基于所述解码步长和所述初始特征,获取所述当前解码轮次对应的当前解码特征;基于所述当前解码特征,获取所述当前解码轮次对应的解码文字。通过上述方式,本申请能够提高文字识别的效率和准确性。
-
公开(公告)号:CN117612190A
公开(公告)日:2024-02-27
申请号:CN202311362989.6
申请日:2023-10-19
Applicant: 科大讯飞股份有限公司
IPC: G06V30/412 , G06V30/413
Abstract: 本发明提供一种表格全要素抽取方法、装置、电子设备及存储介质,该方法包括:获取目标表格中各初始单元格和各单元格文本;基于各初始单元格的各第一顶点的位置,确定与初始单元格对应的单元格,并基于各单元格的相对位置确定目标表格的结构信息,单元格之间具有公共的顶点;基于目标表格的结构信息和各单元格文本,确定目标表格中各单元格的属性信息,属性信息包括键或值;基于目标表格的结构信息和各单元格的属性信息,抽取目标表格中的全要素。基于目标表格的结构信息和各单元格的属性信息,可以正确抽取属性信息相对应的各要素,避免抽取的各要素的属性信息不对应的情况,进而可以提高要素抽取的准确度。
-
公开(公告)号:CN117576700A
公开(公告)日:2024-02-20
申请号:CN202311512589.9
申请日:2023-11-10
Applicant: 科大讯飞股份有限公司
IPC: G06V30/19 , G06V30/146 , G06F16/9032 , G06V30/42
Abstract: 本发明提供一种要素内容抽取方法、装置、电子设备及存储介质,该方法包括:获取目标图片中各文本行的文本;分别提取各文本行的文本各自对应的第一句子级token,以及至少一个问题文本对应的第二句子级token,各问题文本包括要素字段;将各第一句子级token和各第二句子级token均输入要素抽取模型,得到要素抽取模型输出的要素字段对应的要素内容。针对文本行整体提取该文本行对应的第一句子级token,可实现第一句子级token与文本行一一对应,因此,有效增加了token表征的文本内容的长度,即使在输入的token总数量受限的情况下,也能输入较长的文本,并能对该文本进行要素内容提取,提高了适用性。
-
公开(公告)号:CN111192346B
公开(公告)日:2024-02-13
申请号:CN201911368067.X
申请日:2019-12-26
Applicant: 科大讯飞股份有限公司
IPC: G06T11/60
Abstract: 本发明公开了一种电子菜单生成方法、装置和设备。其中方法具体是基于文本检测识别技术与图像处理技术,针对原始菜单图像进行结构化分析,根据菜单上的排版特征信息将菜单上的文本块识别为菜名和价格,然后将菜名与对应价格关联起来,并根据关联关系生成电子菜单,由于无需事先准备包含产品信息的数据库用以识别和检测,因此可以极大地拓宽了其适用范围,而且提高电子菜单生成效率,能够快速将纸质菜单转换为电子菜单,供商家和用户使用。并且,本发明还相应地提供了一种计算机可读存储介质以及一种计算机程序产品。
-
-
-
-
-
-
-
-
-