-
公开(公告)号:CN119337109A
公开(公告)日:2025-01-21
申请号:CN202411227489.6
申请日:2024-09-03
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种模型优化方法、数据处理方法、装置、设备及程序产品,该模型优化方法包括:在获取到任务模型对第一任务数据进行处理得到的第i处理结果时,将所述第一任务数据和所述第i处理结果输入用于对所述任务模型的处理结果进行评价的评价模型,得到对应所述第i处理结果的第i评价结果;所述第一任务数据包括文本数据、图像数据、语音数据中的至少一种,所述任务模型用于执行文本处理任务、图像处理任务、语音处理任务中的至少一种任务;在基于所述第i评价结果确定需要对所述第i处理结果进行优化时,将所述第i评价结果输入所述任务模型,以使所述任务模型基于所述第i评价结果,对所述第一任务数据进行处理得到第i+1处理结果。
-
公开(公告)号:CN119990314A
公开(公告)日:2025-05-13
申请号:CN202510056814.5
申请日:2025-01-14
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供一种题目解答方法、装置、设备、介质及程序产品,该题目解答方法包括:基于决策树的根节点选择下一个子节点,直至到达一个叶子节点;决策树的节点包括由待解答题目的至少一个解答步骤组成的解答内容;在叶子节点不是终端节点的情况下,扩展叶子节点的各个子节点;确定叶子节点的各个子节点各自对应的特征,并基于各个特征,删除叶子节点的部分子节点,获得叶子节点的被保留子节点;基于叶子节点的被保留子节点,进行模拟和回溯,确定根节点的目标子节点,将目标子节点确定为决策树的根节点,返回执行基于决策树的根节点选择下一个子节点的步骤,直至生成待解答题目的完整解答内容。本申请能够提升多步骤题目解答的效率和准确率。
-
公开(公告)号:CN116343246A
公开(公告)日:2023-06-27
申请号:CN202310436283.3
申请日:2023-04-19
Applicant: 科大讯飞股份有限公司
IPC: G06V30/412 , G06V30/413 , G06V30/148 , G06V30/18 , G06V30/19
Abstract: 本发明提供了一种表格结构识别方法、装置、设备及存储介质,表格结构识别方法包括:获取目标表格图像;获取目标表格图像在列维度的全局视觉特征和在行维度的全局视觉特征;基于目标表格图像在列维度的全局视觉特征预测表格列线,并基于目标表格图像在行维度的全局视觉特征预测表格行线;基于预测的表格列线和表格行线,将目标表格图像分割成基础网格;对通过分割得到各基础网格进行归并处理,得到目标表格图像对应的表格结构。本发明基于目标表格图像在行维度的全局视觉特征和在行维度的全局视觉特征,能够预测出较为精准的表格行列线,在此基础上进行表格图像的划分和基础网格的归并,可获得较为精准的表格结构。
-
公开(公告)号:CN118520085A
公开(公告)日:2024-08-20
申请号:CN202410648333.9
申请日:2024-05-23
Applicant: 科大讯飞股份有限公司
IPC: G06F16/332 , G06F16/33 , G06F16/338
Abstract: 本申请实施例公开了一种题目解答方法、装置、设备、存储介质及程序产品,在获得目标题目后,基于生成式模型对目标题目进行处理,以获得目标题目的解题结果;解题结果以自然语言表述目标题目的解题步骤;其中,在解题结果中包括算术表达式及其计算结果的情况下,计算结果通过调用计算器计算得到,解题结果中除计算结果外的内容由生成式模型生成,由于算术表达式的计算结果不再由生成式模型生成,而是由计算器计算得到,从而提高解答目标题目过程中的计算能力,进一步保证了解答目标题目过程中的逻辑推理能力的提高。
-
公开(公告)号:CN119990313A
公开(公告)日:2025-05-13
申请号:CN202510056782.9
申请日:2025-01-14
Applicant: 科大讯飞股份有限公司
Abstract: 本申请涉及数据处理技术领域,具体涉及一种题目解答方法、装置、设备及程序产品。方法包括:将目标题目输入答题模型,获得答题模型输出的初始答复,其中,初始答复包括至少一个答题步骤;将目标题目和初始答复输入评语模型,获得评语模型输出的评语,其中,评语包括对初始答复中各个答题步骤的评价信息;基于评语对初始答复进行修正,获得目标题目对应的目标答复,其中,答题模型为大语言模型基于至少一对第一问答对进行训练后得到的,第一问答对中的第一答案包括基于评语模型输出的第一评语进行修正后得到的答案。本申请能够通过评语,实现在答题步骤的层面对模型输出的答案进行修正,获得正确度更高的题目答案。
-
公开(公告)号:CN114255346B
公开(公告)日:2025-01-07
申请号:CN202111646060.7
申请日:2021-12-29
Applicant: 科大讯飞股份有限公司
IPC: G06V30/412 , G06V30/414 , G06F40/30
Abstract: 本申请公开了一种表格图像处理方法、相关设备及可读存储介质,在获取待处理的表格图像之后,先对该表格图像进行分割,得到该表格图像对应的基础网格单元,然后,确定出各基础网格单元的视觉特征以及各基础网格单元的文本语义特征,再基于各基础网格单元的视觉特征以及各基础网格单元的文本语义特征,确定各基础网格单元的结构信息,最后,根据各基础网格单元的结构信息,生成该表格图像对应的表格。本方案中,在将表格图像转化为表格时,同时考虑了表格图像的视觉信息以及文本语义信息,相对于仅利用表格图像的视觉信息转化表格,提升了转化的表格的精度。
-
公开(公告)号:CN116453139A
公开(公告)日:2023-07-18
申请号:CN202310434116.5
申请日:2023-04-19
Applicant: 科大讯飞股份有限公司
IPC: G06V30/19 , G06V30/412 , G06V30/146 , G06N3/044
Abstract: 本发明提供了一种预训练方法及相关方法和设备,预训练方法包括:获取训练数据集,对训练数据集中的训练文档图片进行文本检测和识别,得到文本检测框和文本检测框对应的文本,以训练文档图片作为预训练模型的输入,基于预训练模型获取文本检测框的特征,基于文本编码器获取文本检测框对应的文本的语义特征,以使文本检测框的特征趋近于文本检测框对应的文本的语义特征为目标,对预训练模型进行参数更新,训练得到的预训练模型作为目标预训练模型。由于目标预训练模型以文档图片为输入,可从文档图片中挖掘文本语义信息,进而输出富含文本语义的特征,而无需输入文本,因此,将其应用于下游任务时,无需进行文本识别,从而节省了OCR引擎开销。
-
公开(公告)号:CN117690144A
公开(公告)日:2024-03-12
申请号:CN202311580044.1
申请日:2023-11-21
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种文本问答方法、视觉语言模型的训练方法及其相关装置,该方法包括:获取目标文本图像以及关于目标文本图像的目标问题;利用视觉语言模型中的视觉编码器对目标文本图像进行视觉编码,得到第一目标特征;以及,利用视觉语言模型中的文本编码网络对目标文本图像进行文本编码,得到第二目标特征;利用视觉语言模型基于第一目标特征、第二目标特征和目标问题,得到目标问题的目标答案。通过上述方式,本申请能够提高问答准确率。
-
公开(公告)号:CN114255346A
公开(公告)日:2022-03-29
申请号:CN202111646060.7
申请日:2021-12-29
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种表格图像处理方法、相关设备及可读存储介质,在获取待处理的表格图像之后,先对该表格图像进行分割,得到该表格图像对应的基础网格单元,然后,确定出各基础网格单元的视觉特征以及各基础网格单元的文本语义特征,再基于各基础网格单元的视觉特征以及各基础网格单元的文本语义特征,确定各基础网格单元的结构信息,最后,根据各基础网格单元的结构信息,生成该表格图像对应的表格。本方案中,在将表格图像转化为表格时,同时考虑了表格图像的视觉信息以及文本语义信息,相对于仅利用表格图像的视觉信息转化表格,提升了转化的表格的精度。
-
-
-
-
-
-
-
-