-
公开(公告)号:CN117171381B
公开(公告)日:2024-02-09
申请号:CN202311448874.9
申请日:2023-11-02
Applicant: 之江实验室
IPC: G06F16/58 , G06F16/51 , G06F16/54 , G06F16/901 , G06F16/903 , G06F40/194
Abstract: 本发明公开了一种基于结构化数据表的交互式图数据构建方法,包括:获取包含多个数据表的原始数据;基于原始数据中的字段构建对应的节点实体和节点实例;将字段与对应的节点实体和节点实例组成图数据组件;根据用户选取的若干字段生成对应的图数据组件,并基于两个图数据组件之间的相似度匹配,以获得两个图数据组件之间边实体以及相应的边实例,将图数据组件下所有的节点实例与边实例输出至显示界面,以获得可视化的图数据。本发明还提供了一种交互式图数据构建系统和装置。本发明提供的方法将schema的构建与数据加载过程相结合,从而有效减少用户的手动操作,显著提高构建图数据的效率。
-
公开(公告)号:CN117079447B
公开(公告)日:2024-01-09
申请号:CN202311328289.5
申请日:2023-10-13
Applicant: 之江实验室
Abstract: 本说明书公开了一种基于公交车拥挤度检测的调度方法及装置,可以获取公交车座椅数量以及获取公交车的前后监控视频,从前后监控视频中按照预设时间间隔抽取视频帧进行目标检测,以确定视频帧对应的站立乘客数量以及空闲座椅数量;确定上一站点与下一站点之间的平均通行时间,并确定当前时间与上一站点发车时间的时间间隔是否满足该平均通行时间的预设比例,若是,根据公交车到达上一站点后各视频帧对应的站立乘客数量和空闲座椅数量,确定平均站立乘客数量以及平均空闲座椅数量,而后,根据公交车座椅数量、平均站立乘客数量以及平均空闲座椅数量,确定公交车拥挤度,以根据该公交车拥挤度进行公交车调度,从而提高了公交车拥挤度确定的准确性。
-
公开(公告)号:CN117171381A
公开(公告)日:2023-12-05
申请号:CN202311448874.9
申请日:2023-11-02
Applicant: 之江实验室
IPC: G06F16/58 , G06F16/51 , G06F16/54 , G06F16/901 , G06F16/903 , G06F40/194
Abstract: 本发明公开了一种基于结构化数据表的交互式图数据构建方法,包括:获取包含多个数据表的原始数据;基于原始数据中的字段构建对应的节点实体和节点实例;将字段与对应的节点实体和节点实例组成图数据组件;根据用户选取的若干字段生成对应的图数据组件,并基于两个图数据组件之间的相似度匹配,以获得两个图数据组件之间边实体以及相应的边实例,将图数据组件下所有的节点实例与边实例输出至显示界面,以获得可视化的图数据。本发明还提供了一种交互式图数据构建系统和装置。本发明提供的方法将schema的构建与数据加载过程相结合,从而有效减少用户的手动操作,显著提高构建图数据的效率。
-
公开(公告)号:CN116720124A
公开(公告)日:2023-09-08
申请号:CN202311010093.1
申请日:2023-08-11
Applicant: 之江实验室
IPC: G06F18/241 , G06F18/214 , G06F40/289 , G06F18/2415 , G06N3/0464 , G06N3/08
Abstract: 本说明书公开了一种教育文本分类方法、装置、存储介质及电子设备。在采用本说明书提供的教育文本分类方法对教育文本进行分类时,可获取多模态教育数据并提取多模态教育数据中的教育文本,并采用编码模型得到教育文本的编码特征;通过预先训练的分类模型中的特征处理子网与分类子网,根据教育文本的编码特征确定出教育文本所属的分类并输出对应的标签。通过本方法可精准地对教育领域中的文本数据进行分类,具有较高的准确率。
-
公开(公告)号:CN118277645B
公开(公告)日:2024-08-09
申请号:CN202410710728.7
申请日:2024-06-04
Applicant: 之江实验室
IPC: G06F16/953 , G06N5/022
Abstract: 本发明公开了一种基于大语言模型的数据增强方法和装置,方法包括以下步骤:获取领域种子实体,将种子实体在原始语料数据中进行实体筛查以得到对应种子实体的上下文片段数据;以种子实体和上下文片段数据为基础,通过大语言模型进行用于网页信息查询的检索增强生成,生成扩展后的检索语句;将检索语句输入搜索引擎进行网页信息查询,获得返回结果中的TopN网页,解析TopN网页得到检索数据集;将检索语句与检索数据集一并输入大语言模型进行摘要总结,输出得到总结后的增强语料数据。本发明能够高质量地对原始语料数据进行自动化补充和扩展,实现更加高效和准确的数据增强。
-
公开(公告)号:CN119621999B
公开(公告)日:2025-05-02
申请号:CN202510151574.7
申请日:2025-02-11
Applicant: 之江实验室
IPC: G06F16/36 , G06F16/35 , G06F16/334 , G06N5/02 , G06N5/04
Abstract: 本申请公开了一种数据处理方法、装置及介质,该方法包括:获取指定领域的知识图谱;对知识图谱中的实体节点进行聚类,得到聚类结果;根据知识图谱和聚类结果,构建用于数据知识扩充的数据增强体;将数据增强体嵌入指定大语言模型的预设推理模板中,以通过指定大语言模型进行数据推理,得到目标合成数据;对目标合成数据进行可信度评估。由此,基于不同领域的知识图谱构建数据增强体,可以满足各个领域对数据知识准确性、可用性和多样性的要求。此外,通过该数据增强体对数据知识进行扩充,并利用大语言模型丰富的知识结构和强大的学习推理能力进行数据推理,得到目标合成数据,可以进一步提升合成数据的准确性。
-
公开(公告)号:CN118170933B
公开(公告)日:2024-08-13
申请号:CN202410585594.0
申请日:2024-05-13
Applicant: 之江实验室
IPC: G06F16/45 , G06F16/483 , G06F16/41 , G06F16/215 , G06F40/30 , G06N3/045
Abstract: 本发明公开了一种面向科学领域多模态语料数据的构建方法和装置,方法包括以下步骤:按语料主题分类采集待处理的科学领域相关多模态原始语料数据;构建任务处理流管线对原始语料数据依次进行预处理、内容解析、数据清洗和结构化得到整体语料数据;对包括文本、图片、表格和公式的不同子类型语料数据进行语料评测,基于语料评测结果对整体语料数据进行质量评估;根据质量评估结果优化整体语料数据完成科学领域语料数据库构建。本发明通过自动化任务处理流管线高效处理并生成语料数据,同时提供统一存储与质量评测,通过不断优化处理流程得到高质量科学领域语料数据库,能够为大模型训练提供可靠的数据基础,推动科学研究和应用技术的不断发展。
-
公开(公告)号:CN118170933A
公开(公告)日:2024-06-11
申请号:CN202410585594.0
申请日:2024-05-13
Applicant: 之江实验室
IPC: G06F16/45 , G06F16/483 , G06F16/41 , G06F16/215 , G06F40/30 , G06N3/045
Abstract: 本发明公开了一种面向科学领域多模态语料数据的构建方法和装置,方法包括以下步骤:按语料主题分类采集待处理的科学领域相关多模态原始语料数据;构建任务处理流管线对原始语料数据依次进行预处理、内容解析、数据清洗和结构化得到整体语料数据;对包括文本、图片、表格和公式的不同子类型语料数据进行语料评测,基于语料评测结果对整体语料数据进行质量评估;根据质量评估结果优化整体语料数据完成科学领域语料数据库构建。本发明通过自动化任务处理流管线高效处理并生成语料数据,同时提供统一存储与质量评测,通过不断优化处理流程得到高质量科学领域语料数据库,能够为大模型训练提供可靠的数据基础,推动科学研究和应用技术的不断发展。
-
公开(公告)号:CN117391150B
公开(公告)日:2024-03-12
申请号:CN202311673951.0
申请日:2023-12-07
Applicant: 之江实验室
IPC: G06N3/0464 , G06N3/08 , G06F16/901 , G16C20/30 , G16C20/70
Abstract: 本说明书公开了一种基于分层池化图哈希的图数据检索模型训练方法,待训练的检索模型包含编码子模型和预测子模型,所述编码子模型包含卷积层和编码层,所述卷积层包含嵌入子层、分配子层以及输出子层。在编码子模型的各层卷积过程中,实现了对上一层卷积层特征矩阵表示的节点特征的聚合,以及对上一层卷积层邻接矩阵表示的节点个数的聚合,使得每个卷积层得到的特征矩阵都保留了图数据的结构信息。根据特征矩阵得到图特征,再根据图特征得到图数据的图哈希码,因为特征矩阵保留了图数据的结果信息,所以得到的图哈希码更加准确,在根据图哈希码进行图数据检索时,得到的检索结果也更加准确。
-
公开(公告)号:CN117391150A
公开(公告)日:2024-01-12
申请号:CN202311673951.0
申请日:2023-12-07
Applicant: 之江实验室
IPC: G06N3/0464 , G06N3/08 , G06F16/901 , G16C20/30 , G16C20/70
Abstract: 本说明书公开了一种基于分层池化图哈希的图数据检索模型训练方法,待训练的检索模型包含编码子模型和预测子模型,所述编码子模型包含卷积层和编码层,所述卷积层包含嵌入子层、分配子层以及输出子层。在编码子模型的各层卷积过程中,实现了对上一层卷积层特征矩阵表示的节点特征的聚合,以及对上一层卷积层邻接矩阵表示的节点个数的聚合,使得每个卷积层得到的特征矩阵都保留了图数据的结构信息。根据特征矩阵得到图特征,再根据图特征得到图数据的图哈希码,因为特征矩阵保留了图数据的结果信息,所以得到的图哈希码更加准确,在根据图哈希码进行图数据检索时,得到的检索结果也更加准确。
-
-
-
-
-
-
-
-
-