一种面向科学领域多模态语料数据的构建方法和装置

    公开(公告)号:CN118170933A

    公开(公告)日:2024-06-11

    申请号:CN202410585594.0

    申请日:2024-05-13

    Abstract: 本发明公开了一种面向科学领域多模态语料数据的构建方法和装置,方法包括以下步骤:按语料主题分类采集待处理的科学领域相关多模态原始语料数据;构建任务处理流管线对原始语料数据依次进行预处理、内容解析、数据清洗和结构化得到整体语料数据;对包括文本、图片、表格和公式的不同子类型语料数据进行语料评测,基于语料评测结果对整体语料数据进行质量评估;根据质量评估结果优化整体语料数据完成科学领域语料数据库构建。本发明通过自动化任务处理流管线高效处理并生成语料数据,同时提供统一存储与质量评测,通过不断优化处理流程得到高质量科学领域语料数据库,能够为大模型训练提供可靠的数据基础,推动科学研究和应用技术的不断发展。

    基于图数据库知识增强的可扩展大语言模型调用装置

    公开(公告)号:CN117235220B

    公开(公告)日:2024-03-15

    申请号:CN202311193554.3

    申请日:2023-09-15

    Abstract: 本发明公开了一种基于图数据库知识增强的可扩展大语言模型调用方法和装置,交互显示台接受用户问题输入并传递给协调控制器,在协调控制器中基于第一提示模板将用户问题输入翻译为图数据库的图查询语言,将图查询语言输入知识增强器获取背景知识返回协调控制器,在协调控制器中利用背景知识生成第二提示模板,将带有第二提示模板的调用请求输入至模型管理器,通过模型管理器加载相应的大语言模型并生成答案返回协调控制器,再经协调控制器将生成答案转化为自然语言并输出至交互显示台反馈给用户。本发明通过在线服务的方式为用户提供更高效准确的问答服务,具有安全、可靠和便捷的优势。

    一种基于分层池化图哈希的图数据检索模型训练方法

    公开(公告)号:CN117391150B

    公开(公告)日:2024-03-12

    申请号:CN202311673951.0

    申请日:2023-12-07

    Abstract: 本说明书公开了一种基于分层池化图哈希的图数据检索模型训练方法,待训练的检索模型包含编码子模型和预测子模型,所述编码子模型包含卷积层和编码层,所述卷积层包含嵌入子层、分配子层以及输出子层。在编码子模型的各层卷积过程中,实现了对上一层卷积层特征矩阵表示的节点特征的聚合,以及对上一层卷积层邻接矩阵表示的节点个数的聚合,使得每个卷积层得到的特征矩阵都保留了图数据的结构信息。根据特征矩阵得到图特征,再根据图特征得到图数据的图哈希码,因为特征矩阵保留了图数据的结果信息,所以得到的图哈希码更加准确,在根据图哈希码进行图数据检索时,得到的检索结果也更加准确。

    用于大语言模型的富文本数据处理方法、设备、存储介质

    公开(公告)号:CN117252153B

    公开(公告)日:2024-02-02

    申请号:CN202311532530.6

    申请日:2023-11-17

    Abstract: 本发明涉及一种用于大语言模型的富文本数据处理方法、设备、存储介质,方法包括如下步骤:获取富文本数据,通过解析和/或识别得到文本数据及其对应的坐标;基于字体大小对所述文本数据对应的坐标进行单位化处理;以空格为元素构建字符矩阵,基于单位化处理后的坐标,将所述文本数据填充至所述字符矩阵的对应位置;将所述字符矩阵转换为包含空间信息的最终文本,作为大语言模型的输入。与现有技术相比,本发明整个处理过程类似于将整个富文本进行栅格化处理,可以对多种文档类型进行处理的同时,保留了原始富文本中的空间信息。

    基于分层预计算的图数据中最短路径的查询方法和装置

    公开(公告)号:CN117171401B

    公开(公告)日:2024-01-26

    申请号:CN202311457494.1

    申请日:2023-11-03

    Abstract: 本说明书公开了一种基于分层预计算的图数据中最短路径的查询方法和装置,在接收到查询请求时,确定起始节点和目标节点,从预先构建得到的包含地标节点和普通节点的各层生成图中,根据各层生成图中普通节点与地标节点之间的最短路径、各地标节点之间的最短路径,确定该起始节点和目标节点各层生成图数据中的最短路径,作为各目标路径。即使在目标图数据中包含的节点数较多的情况下,也可通过使用较少的计算资源存储普通节点和地标节点之间的最短路径,快速查询到起始节点和目标节点之间的最短路径,保证了查询效率。

    一种基于分层池化图哈希的图数据检索模型训练方法

    公开(公告)号:CN117391150A

    公开(公告)日:2024-01-12

    申请号:CN202311673951.0

    申请日:2023-12-07

    Abstract: 本说明书公开了一种基于分层池化图哈希的图数据检索模型训练方法,待训练的检索模型包含编码子模型和预测子模型,所述编码子模型包含卷积层和编码层,所述卷积层包含嵌入子层、分配子层以及输出子层。在编码子模型的各层卷积过程中,实现了对上一层卷积层特征矩阵表示的节点特征的聚合,以及对上一层卷积层邻接矩阵表示的节点个数的聚合,使得每个卷积层得到的特征矩阵都保留了图数据的结构信息。根据特征矩阵得到图特征,再根据图特征得到图数据的图哈希码,因为特征矩阵保留了图数据的结果信息,所以得到的图哈希码更加准确,在根据图哈希码进行图数据检索时,得到的检索结果也更加准确。

    基于分层预计算的图数据中最短路径的查询方法和装置

    公开(公告)号:CN117171401A

    公开(公告)日:2023-12-05

    申请号:CN202311457494.1

    申请日:2023-11-03

    Abstract: 本说明书公开了一种基于分层预计算的图数据中最短路径的查询方法和装置,在接收到查询请求时,确定起始节点和目标节点,从预先构建得到的包含地标节点和普通节点的各层生成图中,根据各层生成图中普通节点与地标节点之间的最短路径、各地标节点之间的最短路径,确定该起始节点和目标节点各层生成图数据中的最短路径,作为各目标路径。即使在目标图数据中包含的节点数较多的情况下,也可通过使用较少的计算资源存储普通节点和地标节点之间的最短路径,快速查询到起始节点和目标节点之间的最短路径,保证了查询效率。

    一种基于预计算的数据挖掘方法、装置及存储介质

    公开(公告)号:CN117033467A

    公开(公告)日:2023-11-10

    申请号:CN202311057065.5

    申请日:2023-08-18

    Abstract: 本说明书公开了一种基于预计算的数据挖掘方法、装置及存储介质,获取待挖掘数据,响应于用户的业务请求,根据所述业务请求,对所述待挖掘数据进行预计算,获得中间结果,并存储;根据所述业务请求,在已存储的挖掘分析结果集中,判断是否存在所述业务请求对应的挖掘分析结果,若否,则当预计算完成时,根据所述中间结果,对所述待挖掘数据进行挖掘分析,获得所述业务请求对应的挖掘分析结果,并展示。本方法通过预计算的中间结果进行挖掘分析,减少了对待挖掘数据进行挖掘分析的时间,提高了数据挖掘分析的效率。

    一种任务治理方法、装置、存储介质及电子设备

    公开(公告)号:CN116302898A

    公开(公告)日:2023-06-23

    申请号:CN202310557260.8

    申请日:2023-05-17

    Abstract: 本说明书公开了一种任务治理方法、装置、存储介质及电子设备,本说明书实施例根据数据中台已执行的任务的执行信息所确定出的任务指标参数,对任务评估模型进行有监督训练,得到训练后模型。之后,将数据中台中当前执行的目标任务的任务指标参数输入到训练后模型中,以通过训练后模型输出目标任务是否健康的评估结果,基于评估结果,确定针对目标任务的治理策略,按照治理策略,对目标任务进行治理。在此方法中,根据执行任务时的运行时长和资源消耗相关的指标参数,通过模型对这个任务的健康状态进行量化。当这个任务的量化结果表示不健康时,可以采用一些治理策略,对这个任务进行治理,从而在一定程度上提高任务执行效率和减少资源浪费。

    一种基于增量式演化LSTM的流数据预测方法及装置

    公开(公告)号:CN114202065A

    公开(公告)日:2022-03-18

    申请号:CN202210145595.4

    申请日:2022-02-17

    Abstract: 本发明公开了一种基于增量式演化LSTM的流数据预测方法及装置,基于历史数据的初始LSTM预测模型构建;面向流式数据的增量式LSTM预测模型持续更新,进行增量式LSTM预测模型结构及参数演化;基于适应性粒子滤波的收敛加速;基于当前LSTM预测模型,进行流式数据的预测。本发明适应性好,基于新增数据持续对预测模型进行调整;调整速度快,基于适应性粒子滤波技术加速演化算法的收敛速度。基于上述优点更好地解决流数据预测中数据分布变化带来的预测准确度下降的问题。

Patent Agency Ranking