一种数据存储方法、装置、存储介质及电子设备

    公开(公告)号:CN117591625B

    公开(公告)日:2024-04-12

    申请号:CN202410076461.0

    申请日:2024-01-18

    Abstract: 本说明书公开了一种数据存储方法、装置、存储介质及电子设备,在此方法中,通过对目标数据源进行周期性数据采集,来得到目标数据源中的非结构化数据,并将根据每个非结构化数据对应的元数据生成该非结构化数据对应的数据标识,进而,使用数据标识作为判断依据对每次采集到的非结构化数据进行筛选,以得到待存储数据,同时对预设的数据标识表进行实时更新,并将每个待存储数据对应的数据标识作为结构化数据的标识,对各待存储数据进行存储。使用数据标识作为判断依据来确定待存储的非结构数据,减少了数据冗余,并将这些待存储的非结构数据转化为结构化数据进行存储,大大提高了非结构化数据的存储效率以及查询效率。

    一种非结构化数据的元数据存储方法、装置、介质及设备

    公开(公告)号:CN117349401B

    公开(公告)日:2024-03-15

    申请号:CN202311665185.3

    申请日:2023-12-06

    Abstract: 在本说明书提供的一种非结构化数据的元数据存储方法、装置、介质及设备中,通过响应于第一用户输入的包含非结构化数据的元数据存储请求,对非结构化数据的提取,确定符合预设元数据分类的原始数据。再通过对原始数据的解析,确定原始数据中对应预设元数据分类的结构化元数据。最后将结构化元数据存储在湖仓一体存储平台中,供第二用户检索并管理。使得不同权限的用户能够高效的检索并管理非结构化数据中需要管理的结构化元数据。

    一种数据存储方法、装置、存储介质及电子设备

    公开(公告)号:CN117591625A

    公开(公告)日:2024-02-23

    申请号:CN202410076461.0

    申请日:2024-01-18

    Abstract: 本说明书公开了一种数据存储方法、装置、存储介质及电子设备,在此方法中,通过对目标数据源进行周期性数据采集,来得到目标数据源中的非结构化数据,并将根据每个非结构化数据对应的元数据生成该非结构化数据对应的数据标识,进而,使用数据标识作为判断依据对每次采集到的非结构化数据进行筛选,以得到待存储数据,同时对预设的数据标识表进行实时更新,并将每个待存储数据对应的数据标识作为结构化数据的标识,对各待存储数据进行存储。使用数据标识作为判断依据来确定待存储的非结构数据,减少了数据冗余,并将这些待存储的非结构数据转化为结构化数据进行存储,大大提高了非结构化数据的存储效率以及查询效率。

    一种基于预训练大语言模型的蛋白质功能注释方法和装置

    公开(公告)号:CN119479836B

    公开(公告)日:2025-05-06

    申请号:CN202510058985.1

    申请日:2025-01-15

    Abstract: 本申请涉及一种基于预训练大语言模型的蛋白质功能注释方法和装置,应用于人工智能驱动的计算生物领域,其中,该蛋白质功能注释方法包括:将待注释蛋白质序列输入目标蛋白质功能域分类模型,得到待注释蛋白质序列所包含的功能域类别;将待注释蛋白质序列所包含的功能域类别和待注释蛋白质序列,输入目标蛋白质功能域识别模型,得到待注释蛋白质序列的功能域类别所在的目标位置;根据待注释蛋白质序列的功能域类别所在的目标位置,对待注释蛋白质序列进行功能注释。通过本申请,实现了准确且高效识别完整蛋白质序列上的功能域的效果。

    一种基于预训练大语言模型的蛋白质功能注释方法和装置

    公开(公告)号:CN119479836A

    公开(公告)日:2025-02-18

    申请号:CN202510058985.1

    申请日:2025-01-15

    Abstract: 本申请涉及一种基于预训练大语言模型的蛋白质功能注释方法和装置,应用于人工智能驱动的计算生物领域,其中,该蛋白质功能注释方法包括:将待注释蛋白质序列输入目标蛋白质功能域分类模型,得到待注释蛋白质序列所包含的功能域类别;将待注释蛋白质序列所包含的功能域类别和待注释蛋白质序列,输入目标蛋白质功能域识别模型,得到待注释蛋白质序列的功能域类别所在的目标位置;根据待注释蛋白质序列的功能域类别所在的目标位置,对待注释蛋白质序列进行功能注释。通过本申请,实现了准确且高效识别完整蛋白质序列上的功能域的效果。

    一种面向分布式训练的缓存加载系统、方法、装置及设备

    公开(公告)号:CN117555697B

    公开(公告)日:2024-04-05

    申请号:CN202410043642.3

    申请日:2024-01-11

    Abstract: 本说明书公开的一种面向分布式训练的缓存加载系统、方法、装置及设备中,管理节点确定各计算节点对应的数据加载任务,并将待训练模型的向无环图以及数据加载任务发送给各计算节点。然后第一子节点用于负责数据加载,先根据有向无环图确定无依赖关系的计算节点需要的数据并进行加载,再当接受到第二子节点的加载请求时,判断该数据是否被加载过,若是,将加载了该数据的第一子节点的标识发送给该第二子节点,若否,则获取待加载的数据后返回给对应的第二子节点,第二子节点根据第一子节点的返回,获取待加载数据,执行训练任务。减少了计算节点向远计算端数据源的访问,降低了远计算端的I/O口堵塞、资源抢占等状况的出现,提高了模型训练的效率。

    一种非结构化数据的元数据存储方法、装置、介质及设备

    公开(公告)号:CN117349401A

    公开(公告)日:2024-01-05

    申请号:CN202311665185.3

    申请日:2023-12-06

    Abstract: 在本说明书提供的一种非结构化数据的元数据存储方法、装置、介质及设备中,通过响应于第一用户输入的包含非结构化数据的元数据存储请求,对非结构化数据的提取,确定符合预设元数据分类的原始数据。再通过对原始数据的解析,确定原始数据中对应预设元数据分类的结构化元数据。最后将结构化元数据存储在湖仓一体存储平台中,供第二用户检索并管理。使得不同权限的用户能够高效的检索并管理非结构化数据中需要管理的结构化元数据。

    一种面向分布式训练的缓存加载系统、方法、装置及设备

    公开(公告)号:CN117555697A

    公开(公告)日:2024-02-13

    申请号:CN202410043642.3

    申请日:2024-01-11

    Abstract: 本说明书公开的一种面向分布式训练的缓存加载系统、方法、装置及设备中,管理节点确定各计算节点对应的数据加载任务,并将待训练模型的向无环图以及数据加载任务发送给各计算节点。然后第一子节点用于负责数据加载,先根据有向无环图确定无依赖关系的计算节点需要的数据并进行加载,再当接受到第二子节点的加载请求时,判断该数据是否被加载过,若是,将加载了该数据的第一子节点的标识发送给该第二子节点,若否,则获取待加载的数据后返回给对应的第二子节点,第二子节点根据第一子节点的返回,获取待加载数据,执行训练任务。减少了计算节点向远计算端数据源的访问,降低了远计算端的I/O口堵塞、资源抢占等状况的出现,提高了模型训练的效率。

Patent Agency Ranking