-
公开(公告)号:CN119293193B
公开(公告)日:2025-03-21
申请号:CN202411812389.X
申请日:2024-12-10
Applicant: 之江实验室
IPC: G06F16/3329 , G06F40/186
Abstract: 本说明书公开了一种问答对生成方法、装置、存储介质及电子设备。在本说明书提供的问答对生成方法中,获取用于生成问答对的文本素材;将所述文本素材输入大语言模型,使所述大语言模型根据所述文本素材输出伪问答对;响应于接收到用户输入的真实问题,在各伪问答对中确定与所述真实问题匹配的目标伪问答对;将所述目标伪问答对嵌入所述大语言模型的提示模板,并将所述真实问题输入所述大语言模型,得到所述大语言模型输出的优化答案;将所述真实问题与所述优化答案确定为待定问答对,并对所述待定问答对进行质量评测;响应于所述待定问答对通过所述质量评测,将所述待定问答对确定为可用问答对。
-
公开(公告)号:CN119621999A
公开(公告)日:2025-03-14
申请号:CN202510151574.7
申请日:2025-02-11
Applicant: 之江实验室
IPC: G06F16/36 , G06F16/35 , G06F16/334 , G06N5/02 , G06N5/04
Abstract: 本申请公开了一种数据处理方法、装置及介质,该方法包括:获取指定领域的知识图谱;对知识图谱中的实体节点进行聚类,得到聚类结果;根据知识图谱和聚类结果,构建用于数据知识扩充的数据增强体;将数据增强体嵌入指定大语言模型的预设推理模板中,以通过指定大语言模型进行数据推理,得到目标合成数据;对目标合成数据进行可信度评估。由此,基于不同领域的知识图谱构建数据增强体,可以满足各个领域对数据知识准确性、可用性和多样性的要求。此外,通过该数据增强体对数据知识进行扩充,并利用大语言模型丰富的知识结构和强大的学习推理能力进行数据推理,得到目标合成数据,可以进一步提升合成数据的准确性。
-
公开(公告)号:CN118865393B
公开(公告)日:2024-12-10
申请号:CN202411343007.3
申请日:2024-09-25
Applicant: 之江实验室
Abstract: 本发明提出了一种面向大模型训练的地质图语料标注方法和装置,其方法在待标注地质图中定义了多层级标注要素,并提出了具体标注流程,包括1)对地质图的一级要素进行区域性标注,2)对空间标识包含的二级要素进行标注,3)对图例包含的二级要素进行标注,4)导出标准化标注结果。本发明构造了符合地质图图件要素表达逻辑的标注架构和方法,提高了标注效率,提升地质图的可用性,推动地学研究与人工智能技术的深度融合,为大模型支持地球科学研究提供基础语料的支持。
-
公开(公告)号:CN119046468A
公开(公告)日:2024-11-29
申请号:CN202411525965.2
申请日:2024-10-30
Applicant: 之江实验室
Abstract: 本发明公开了一种基于大语言模型的垂直领域实体扩充方法和装置,包括:基于收集的开源数据文本构建包括头实体、关系和尾实体的知识图谱三元组及其来源文本语句;输入大模型生成尾实体的解释,选取部分包括尾实体及其解释的词条输入大语言模型并结合人工判断进行辅助分类并对词条进行打标;将采集的非实体中性词汇、标准垂直领域实体、标准非垂直领域实体、以及打标的词条转换为嵌入特征向量输入垂直领域实体分类模型进行训练;将未打标的词条转换为嵌入特征向量输入训练好的垂直领域实体分类模型进行判断,将所有确认为垂直领域实体的尾实体添加到垂直领域实体库中。本发明能高质高效地更新垂直领域实体库,显著提升垂直领域实体库的广度和质量。
-
公开(公告)号:CN117009252B
公开(公告)日:2024-01-02
申请号:CN202311285981.4
申请日:2023-10-07
Applicant: 之江实验室
IPC: G06F11/36
Abstract: 本说明书公开了一种基于函数替换的故障注入测试方法及装置,可以获取待测试代码,并基于所述待测试代码,确定函数调用链,根据该函数调用链,确定待替换函数,而后,对该待替换函数的函数代码进行修改,以将需要注入的故障代码添加到该待替换函数中,得到修改后函数,并生成修改后函数对应的动态链接库,进而,将动态链接库注入到待替换函数所在的进程,以将进程中的待替换函数替换为修改后函数,最后,响应于预设的触发规则,触发修改后函数以完成故障触发,根据故障触发后得到的系统相关信息,完成故障注入测试,从而达到了灵活、安全的进行故障注入。(56)对比文件史毅龙;薛长斌.基于“龙芯”的VxWorks系统函数在轨更新研究.电子设计工程.2015,(第21期),全文.
-
公开(公告)号:CN116089414B
公开(公告)日:2023-09-08
申请号:CN202310372120.3
申请日:2023-04-10
Applicant: 之江实验室
IPC: G06F16/215 , G06F16/22 , G06F16/27
Abstract: 本发明公开了一种基于海量数据场景的时序数据库写入性能优化方法及装置,该方法包括:首先基于Apache Calcite将数据库读写请求对应的读写线程池分离,并建立独立的写任务线程池;然后通过哈希策略对写任务线程池中的写任务进行分片,并根据负载值对分片任务进行调度,以将写任务的数据写入集群中的节点;最后根据节点的写任务获取写入请求,为该写入请求分配内存数组,并基于海量时间线对写任务所需的内存进行动态分配,对写任务的数据进行刷盘。本发明能够缓解时序数据库写多读少场景下写线程被读线程阻塞的情形,本发明具有更好的集群负载均衡效果,增强了任务的并发度,有利于减少海量数据写入时的刷盘频率,提升写入效率。
-
公开(公告)号:CN113988203A
公开(公告)日:2022-01-28
申请号:CN202111298174.7
申请日:2021-11-01
IPC: G06K9/62
Abstract: 本发明涉及数据挖掘领域,具体涉及一种基于深度学习的轨迹序列聚类方法,包括以下步骤:步骤1,预训练层:使用序列到序列的自编码器模型,学习轨迹数据的低维特征表示;步骤2,初始聚类层:对预训练层获得的轨迹特征表示执行多次K‑Means聚类算法,并选择最优聚类结果中的聚类中心作为初始的簇中心。步骤3,联合训练优化层:联合轨迹聚类和深度特征提取方法,提出结合序列到序列自编码器模型重构误差和聚类误差的优化损失函数,将轨迹特征表示映射到更加适合聚类的特征空间。
-
公开(公告)号:CN119047458B
公开(公告)日:2025-04-04
申请号:CN202411525964.8
申请日:2024-10-30
Applicant: 之江实验室
IPC: G06F40/205 , G06F40/253 , G06V30/148 , G06F40/154
Abstract: 本发明公开了一种面向科学领域大模型训练语料的可视化方法和系统,包括:在服务端将从对象存储服务器获取的markdown格式的科学领域大模型训练语料分段流式传输到客户端;在客户端对接收到的markdown文本中的富文本内容进行解析和渲染得到还原结果;在客户端生成markdown文本的PDF原文内容与还原结果的对比图,并在对比图上附加语料元数据、用户信息水印和语料质量评分。本发明能够高效、准确、安全地传输、解析、渲染和分享markdown格式的科学领域大模型训练语料,并将语料质量评估结果分享到内外部专家,从而帮助科学领域大模型训练提供高质量语料数据,提高科学领域大模型准确率。
-
公开(公告)号:CN119047458A
公开(公告)日:2024-11-29
申请号:CN202411525964.8
申请日:2024-10-30
Applicant: 之江实验室
IPC: G06F40/205 , G06F40/253 , G06V30/148 , G06F40/154
Abstract: 本发明公开了一种面向科学领域大模型训练语料的可视化方法和系统,包括:在服务端将从对象存储服务器获取的markdown格式的科学领域大模型训练语料分段流式传输到客户端;在客户端对接收到的markdown文本中的富文本内容进行解析和渲染得到还原结果;在客户端生成markdown文本的PDF原文内容与还原结果的对比图,并在对比图上附加语料元数据、用户信息水印和语料质量评分。本发明能够高效、准确、安全地传输、解析、渲染和分享markdown格式的科学领域大模型训练语料,并将语料质量评估结果分享到内外部专家,从而帮助科学领域大模型训练提供高质量语料数据,提高科学领域大模型准确率。
-
公开(公告)号:CN118823186A
公开(公告)日:2024-10-22
申请号:CN202411279998.3
申请日:2024-09-12
Applicant: 之江实验室
IPC: G06T11/60 , G06F3/0484 , G06F3/0481 , G06T7/13 , G06V30/422
Abstract: 本说明书公开了一种地质图的标注方法、装置、存储介质及电子设备,可以对地质图图像进行处理和信息提取,实现自动识别生成标注项、便捷选区、选区自动打标等能力,自动识别生成标注和选区自动打标能够省去创建和检索繁多标签的过程,通过便捷选区快速创建和编辑选区,不再需要手动或借助边缘拟合算法进行重复的描边操作,为标注流程提供了大量助力,能够大幅提高标注效率。
-
-
-
-
-
-
-
-
-