-
公开(公告)号:CN118839053B
公开(公告)日:2025-02-11
申请号:CN202411321148.5
申请日:2024-09-23
Applicant: 之江实验室
IPC: G06F16/951 , G06F16/955 , G06N3/0455 , G06F40/186
Abstract: 本申请涉及一种网页数据采集方法、系统、计算机设备和可读存储介质。该方法采集到的网页数据用于对目标领域的大语言模型进行预训练,所述方法包括:确定目标场景模板和目标关键词;将所述目标关键词填充到所述目标场景模板中,调用通用的大语言模型,生成多个搜索词句;调用搜索服务,基于所述搜索词句生成第一URL列表;基于爬虫技术和所述第一URL列表采集得到网页数据。采用本方法能够降低硬件资源消耗成本、人力成本以及提高预训练数据的获取效率。
-
公开(公告)号:CN119357275A
公开(公告)日:2025-01-24
申请号:CN202411920576.X
申请日:2024-12-25
Applicant: 之江实验室
IPC: G06F16/25 , G06F16/28 , G06N5/04 , G06N3/0455 , G06N3/08
Abstract: 基于异构数据库和大语言模型的训练数据管理系统及方法,系统包括:异构数据库系统模块,包括多个支持不同数据类型的数据库;数据管理注册中心模块,用于管理所述多个数据库及所注册的数据服务的节点信息;前置大语言模型模块,用于解析客户端发送的自然语言指令,对应生成用于描述所述数据服务的标准执行语句;数据服务控制器模块,用于解析所述标准执行语句并转换为目标执行语句,基于所述目标执行语句从所述数据管理注册中心模块中对应的节点信息调用对应的数据服务,以在对应的数据库上执行对应的操作。本申请可提升查询并收集特定训练数据等数据服务的效率,并大大降低数据管理的复杂性。
-
公开(公告)号:CN118798189B
公开(公告)日:2024-12-17
申请号:CN202411260476.9
申请日:2024-09-10
Applicant: 之江实验室
IPC: G06F40/284
Abstract: 本申请涉及一种提取大语言模型微调数据的方法、系统和计算机设备。包括:获取原始文本数据,构建语料库;语料库包括多条文本语料,文本语料以原始文本数据的最小标题作为语料输入、以最小标题对应的正文数据作为语料输出;基于语料库对各文本语料的语料输入进行非停用词划分,并计算各非停用词的逆文本频率指数;获取语料库的最小逆文本频率指数均值;基于逆文本频率指数计算每条文本语料的逆文本频率指数均值;将逆文本频率指数均值与最小逆文本频率指数均值进行比较得到比较结果,从而确定该文本语料是否为大语言模型的微调数据。采用本方法实现了高质量的大语言模型微调数据的提取,提高了微调数据的提取效率,降低了微调数据集的构建成本。
-
公开(公告)号:CN118798189A
公开(公告)日:2024-10-18
申请号:CN202411260476.9
申请日:2024-09-10
Applicant: 之江实验室
IPC: G06F40/284
Abstract: 本申请涉及一种提取大语言模型微调数据的方法、系统和计算机设备。包括:获取原始文本数据,构建语料库;语料库包括多条文本语料,文本语料以原始文本数据的最小标题作为语料输入、以最小标题对应的正文数据作为语料输出;基于语料库对各文本语料的语料输入进行非停用词划分,并计算各非停用词的逆文本频率指数;获取语料库的最小逆文本频率指数均值;基于逆文本频率指数计算每条文本语料的逆文本频率指数均值;将逆文本频率指数均值与最小逆文本频率指数均值进行比较得到比较结果,从而确定该文本语料是否为大语言模型的微调数据。采用本方法实现了高质量的大语言模型微调数据的提取,提高了微调数据的提取效率,降低了微调数据集的构建成本。
-
公开(公告)号:CN117575010A
公开(公告)日:2024-02-20
申请号:CN202311591719.2
申请日:2023-11-24
Applicant: 之江实验室
IPC: G06N5/022 , G06F16/36 , G06F16/332
Abstract: 本说明书公开了一种基于托卡马克核聚变智能控制本体的数据构建方法,可以可以获取与托卡马克核聚变相关的预设知识领域、预设用途和预设问题,从而确定数据源和个人信息来源,进而通过数据源和个人信息来源,确定与预设知识领域相关的各术语,将每个术语作为一个类的类名称,以构建各类和各类之间的层次结构,而后,可以针对每个类,构建该类对应的数据属性和对象属性,根据获取到的与托卡马克核聚变相关的实验数据,对各类对应的数据属性和对象属性进行修正,得到各类对应的修正后的数据属性和对象属性,从而提高了构建本体数据的效率和准确性,并便于从大语言模型或维基百科中获取所需知识。
-
公开(公告)号:CN119201746B
公开(公告)日:2025-05-13
申请号:CN202411494940.0
申请日:2024-10-24
Applicant: 之江实验室
IPC: G06F11/3604 , G06F11/3668
Abstract: 本说明书公开了一种智能飞行体的飞行测试方法、装置、介质及电子设备,包括:确定智能飞行体的测试需求,将测试需求输入预先训练的初始态生成模型,确定智能飞行体的第一初始态。根据第一初始态,确定智能飞行体的第一测试用例。根据第一测试用例,对智能飞行体进行飞行测试。通过基于测试需求,采用初始态生成模型,生成智能飞行体的第一初始态,并基于第一初始态,对智能飞行体进行飞行测试,使得可覆盖更多飞行姿态,最大化测试覆盖面,减少飞行测试盲区,缩短测试周期,提高智能飞行体的性能。
-
公开(公告)号:CN119201746A
公开(公告)日:2024-12-27
申请号:CN202411494940.0
申请日:2024-10-24
Applicant: 之江实验室
IPC: G06F11/36
Abstract: 本说明书公开了一种智能飞行体的飞行测试方法、装置、介质及电子设备,包括:确定智能飞行体的测试需求,将测试需求输入预先训练的初始态生成模型,确定智能飞行体的第一初始态。根据第一初始态,确定智能飞行体的第一测试用例。根据第一测试用例,对智能飞行体进行飞行测试。通过基于测试需求,采用初始态生成模型,生成智能飞行体的第一初始态,并基于第一初始态,对智能飞行体进行飞行测试,使得可覆盖更多飞行姿态,最大化测试覆盖面,减少飞行测试盲区,缩短测试周期,提高智能飞行体的性能。
-
公开(公告)号:CN117079480A
公开(公告)日:2023-11-17
申请号:CN202311328296.5
申请日:2023-10-13
Applicant: 之江实验室
Abstract: 本说明书公开了一种快速路上匝道交通信号灯的控制方法及装置,由于本说明书提供的快速路上匝道交通信号灯的控制方法是基于真实的交通状态数据来确定的,并且,通过构建出的交通状态变化因果图,明确确定出除上匝道以外的会对目标主干道的上游路段拥堵产生影响的混淆因子,以此来准确的确定出触发目标主干道的上游路段拥堵时目标主干道的上匝道处的临界车流量,从而通过这一临界车流量,可以对交通信号灯进行有效控制,使得目标主干道的上匝道的车流量维持在该临界车流量以下,以保证目标主干道的上游路段尽可能的不会出现拥堵情况,进而保证了交通的正常运行。
-
公开(公告)号:CN118378592A
公开(公告)日:2024-07-23
申请号:CN202410803845.8
申请日:2024-06-20
Applicant: 之江实验室
IPC: G06F40/117 , G06N5/04 , G06F40/151
Abstract: 本说明书公开了一种基于公式学习的大模型微调方法、装置及存储介质,获取包含公式的原始文本中的公式和公式的候选变量。针对每个公式,根据该公式的上下文内容,确定目标文本并确定目标文本中的候选变量,在该公式中确定与候选变量一致的匹配变量,根据包含候选变量的语句确定解释文本。将目标文本的解释文本和匹配变量屏蔽,得到任务文本,根据公式和解释文本确定任务文本的标注。将任务文本和任务提示输入大模型得到预测文本,根据预测文本与标注的差异微调大模型。通过屏蔽目标文本的解释文本和匹配变量,对大模型进行微调,使大模型学习到公式中的变量与其解释之间的对应关系,从而在问答任务中提高大模型对涉及公式计算问题的回答准确率。
-
公开(公告)号:CN117911712A
公开(公告)日:2024-04-19
申请号:CN202410056442.1
申请日:2024-01-15
Applicant: 之江实验室
IPC: G06V10/44 , G06V20/64 , G06V10/80 , G06N3/0464 , G06N3/08
Abstract: 本说明书公开了一种特征提取方法、装置、存储介质及电子设备。通过特征提取模型中的卷积神经网络可获取大尺寸的时空数据的初次提取的特征,即第一特征图。将第一特征图作为待提取特征图,对待提取特征图进行区域的划分,并使用区域特征提取模型对不同区域独立地进行特征提取,得到局部特征,即区域特征。将所有区域特征进行融合,得到第二特征图。将第二特征图作为新的待提取特征图,并重复以上区域特征提取与融合过程,直至达到预设次数。通过对融合后的特征图重新划分区域并重新提取特征,可使得相邻区域的特征信息能够在不同时空位置间传播,从而提取时空数据的全局特征及隐蔽的局部特征,以提高天文目标识别的准确性。
-
-
-
-
-
-
-
-
-