-
公开(公告)号:CN119398161A
公开(公告)日:2025-02-07
申请号:CN202410562170.2
申请日:2024-05-08
Applicant: 上海处理器技术创新中心
Abstract: 本申请公开了一种构建数据集的方法、设备和计算机可读存储介质,包括:获取原始数据集的推理路径;提取所述推理路径中的主路径和剩余路径;根据所述主路径和剩余路径进行数据生成,以获取增强数据;以及合并所有增强数据作为新的数据集。通过本申请的方案,可以自动构建数据集,增强构建数据集的鲁棒性,提高数据集的质量。
-
公开(公告)号:CN119397083A
公开(公告)日:2025-02-07
申请号:CN202311472641.2
申请日:2023-11-06
Applicant: 上海处理器技术创新中心 , 上海最知科技有限公司
IPC: G06F16/9535 , G06F16/36 , G06Q50/20
Abstract: 本披露公开了一种基于知识图谱来推荐教育内容的方法及相关产品,其中知识图谱在包含与多个知识点对应的信息和例题的知识库中被构建,使得知识图谱的多个实体和边分别表示多个知识点及其相互关系。所述方法包括:由用户输入推荐请求;基于所述数据在知识图谱中识别表示该起始知识点的起始实体;按照推荐策略,从起始实体开始在知识图谱中沿一条或多条边来查找一个或多个另外实体;以及输出知识库中与起始知识点和扩展知识点对应的信息或例题作为推荐的教育内容。本披露的实施例通过由用户输入包括推荐策略和对应于起始知识点的数据的推荐请求,使得用户可指定学习起点和推荐策略,从而满足其各种学习要求。
-
公开(公告)号:CN119398162A
公开(公告)日:2025-02-07
申请号:CN202410563556.5
申请日:2024-05-08
Applicant: 上海处理器技术创新中心
Abstract: 本申请公开了一种数据集构建方法、电子设备及存储介质。该方法包括:获取预设开源模型和多个待求解问题类型对应的多个原始数据集;基于多个原始数据集和预设开源模型确定多个原始数据集对应的多个初始监督数据集和多个原始数据集对应的多个问题词向量表示;分别对多个初始监督数据集进行清洗处理,得到多个中间监督数据集;基于多个问题词向量表示确定多个中间监督数据集中的多个待混合数据集;将多个待混合数据集进行合并,得到目标监督数据集。利用本申请提供的技术,能够形成高质量的监督数据来进行监督微调,提升问题求解模型的鲁棒性和泛化能力。
-
公开(公告)号:CN119398056A
公开(公告)日:2025-02-07
申请号:CN202311220587.2
申请日:2023-09-20
Applicant: 上海处理器技术创新中心 , 中国科学技术大学
Abstract: 本披露公开了一种用于自动求解数学题目的相关方法和装置。本披露的一些实施例通过将数学题目的自然语言分为两部分以先后用不同方式将其转换为形式化语言,可更简单且精确地为数学题目构建易于机器理解的表示。所述转换的形式化语言进而由本披露的一些实施例通过使用通用人工智能大模型来分析,可更轻松准确地理解题意,从而促进所述大模型对题目的自动求解。
-
公开(公告)号:CN119397265A
公开(公告)日:2025-02-07
申请号:CN202410529696.0
申请日:2024-04-29
Applicant: 上海处理器技术创新中心
IPC: G06F18/214 , G06F40/16 , G06F40/30
Abstract: 本申请公开了一种数据增强方法、电子设备及存储介质。该数据增强方法包括:基于预设底层逻辑语言构建逻辑表达式格式;基于逻辑表达式格式中的每一变量元素生成每一变量元素分别对应的多个元素值;基于逻辑表达式格式和每一变量元素分别对应的多个元素值构建多个逻辑表达式;基于多个逻辑表达式生成多个自然语言文本以构成目标增强数据集。利用本申请的方案,能够降低人工标注的成本,提升数据集的多样性和构建效率,有利于语义解析模型的构建。
-
公开(公告)号:CN119415666A
公开(公告)日:2025-02-11
申请号:CN202311262667.4
申请日:2023-09-27
Applicant: 上海处理器技术创新中心 , 上海最知科技有限公司
IPC: G06F16/334 , G06N5/025
Abstract: 本披露公开了一种用于验证显性知识的方法、电子设备及存储介质。该方法包括:将语言模型中的隐性知识转化成显性知识;根据显性知识的前提字段及其字段值,从模型知识库中查找出反映隐性知识的数据内容;判断显性知识的结论字段的字段值与数据内容是否匹配;以及响应于显性知识的结论字段与数据内容匹配,确定显性知识通过验证。通过本披露的方案,可以通过显性知识中的前提字段进行模型知识库的数据定位,以高效查找到能够反映出相应的隐性知识的数据内容,再通过显性知识的结论字段进行数据比对,进而生成可靠、准确的验证结果。
-
公开(公告)号:CN119399783A
公开(公告)日:2025-02-07
申请号:CN202311464987.8
申请日:2023-11-06
Applicant: 上海处理器技术创新中心 , 上海最知科技有限公司
IPC: G06V30/412 , G06V30/414
Abstract: 本披露公开了一种用于生成及处理答题卡的方法、电子设备及存储介质。其中,前述的方法包括:获取关于答题卡的组卷信息和样式文件;基于组卷信息和样式文件生成所述答题卡,并记录答题卡的生成信息;以及响应于获取到包含目标答题卡的待处理图片,根据生成信息对待处理图片中的目标答题卡进行检测和/或识别处理,其中目标答题卡包括经使用后的答题卡。通过本披露的技术方案,可以利用组卷信息和样式文件自动生成答题卡,同时可以利用生成答题卡过程中记录到的生成信息辅助后续的答题卡检测和/或识别处理,使得答题卡的生成和处理能够有效联动,实现答题卡的生成及处理的一体化设计,提高了整体的智能化程度。
-
公开(公告)号:CN119398057A
公开(公告)日:2025-02-07
申请号:CN202311388559.1
申请日:2023-10-24
Applicant: 上海处理器技术创新中心 , 上海最知科技有限公司
IPC: G06F40/30 , G06F40/289 , G06F40/211
Abstract: 本申请公开了一种基于大语言模型的数据处理方法及相关产品。该数据处理方法包括:采集原始文本数据;提取所述原始文本数据的语义标签;生成与所述语义标签相关的多条关联文本;以及将所述语义标签和对应的多条关联文本组合,以构建出语义标注数据集。本申请可以提取文本数据中的语义标签,并生成与所提取的语义标签相关的多条关联文本。此后,将多条关联成本与语义标签组合,可以构建内容丰富且多样的语义标注数据集,这样构建的语义标注数据集能够提供充足的上下文信息。由此,在进行数据处理时,大语言模型能够利用丰富的上下文语义信息来消解词语的多义性所带来的问题,有效解决数据增强中词语多义所引发的语义偏移问题。
-
公开(公告)号:CN119399772A
公开(公告)日:2025-02-07
申请号:CN202410477653.2
申请日:2024-04-19
Applicant: 上海处理器技术创新中心
IPC: G06V30/18 , G06V30/19 , G06N3/0455
Abstract: 本申请公开了一种识别公式的方法、设备和计算机可读存储介质,其中该方法包括:从包含公式的图片中提取隐变量;对所述隐变量进行打包,以获取初始公式序列;以及对所述初始公式序列进行解包,以获取完整公式序列。通过本申请的方案对公式序列的打包和解包,可以提高模型在公式识别中对公式结构的解析能力。
-
公开(公告)号:CN117237211A
公开(公告)日:2023-12-15
申请号:CN202311070911.7
申请日:2023-08-23
Applicant: 上海处理器技术创新中心 , 上海最知科技有限公司
IPC: G06T5/00 , G06V10/764 , G06V10/762 , G06N3/0464 , G06N3/0499 , G06N20/10
Abstract: 本公开的发明名称是“移除手写文档图像中涂抹的方法及相关产品”。本公开提供一种用于移除手写文档图像中涂抹的方法,包括使用深度学习检测模型来检测所述涂抹的边界框,以及基于所述边界框内的笔迹和所述边界框之间的关系来移除所述涂抹。本公开还提供与所述方法对应的装置、设备和机器可读存储介质。采用本公开提供的方法、装置、设备和机器可读存储介质,至少能够提高涂抹移除的准确度。
-
-
-
-
-
-
-
-
-