基于大语言模型的数据增强方法和装置

    公开(公告)号:CN118277645A

    公开(公告)日:2024-07-02

    申请号:CN202410710728.7

    申请日:2024-06-04

    Abstract: 本发明公开了一种基于大语言模型的数据增强方法和装置,方法包括以下步骤:获取领域种子实体,将种子实体在原始语料数据中进行实体筛查以得到对应种子实体的上下文片段数据;以种子实体和上下文片段数据为基础,通过大语言模型进行用于网页信息查询的检索增强生成,生成扩展后的检索语句;将检索语句输入搜索引擎进行网页信息查询,获得返回结果中的TopN网页,解析TopN网页得到检索数据集;将检索语句与检索数据集一并输入大语言模型进行摘要总结,输出得到总结后的增强语料数据。本发明能够高质量地对原始语料数据进行自动化补充和扩展,实现更加高效和准确的数据增强。

    一种低代码数据探索方法及装置

    公开(公告)号:CN118012963A

    公开(公告)日:2024-05-10

    申请号:CN202410163290.5

    申请日:2024-02-05

    Abstract: 本发明公开了一种低代码数据探索方法及装置,装置包括:数据源链接器、多维模型构建器、交互探索分析器和可视报表生成器;数据源链接器链接与管理各类数据源,接收交互探索分析器的命令并执行返回取数结果;多维模型构建器根据数据源链接器提供的目标数据源信息定义逻辑数据集并构建多维分析模型;交互探索分析器通过用户界面进行交互,根据多维分析模型映射结果自动生成命令发送至数据源链接器并根据返回的取数结果进行可视组件渲染;可视报表生成器通过数据看板进行可视组件集成与布局以及全局配置和组件联动的高级探索。本发明能够实现对多种数据源的轻量化快速自定义探索分析和高级探索,适用于精细化运营和商业报表等多种应用场景。

    一种基于公交车拥挤度检测的调度方法及装置

    公开(公告)号:CN117079447A

    公开(公告)日:2023-11-17

    申请号:CN202311328289.5

    申请日:2023-10-13

    Abstract: 本说明书公开了一种基于公交车拥挤度检测的调度方法及装置,可以获取公交车座椅数量以及获取公交车的前后监控视频,从前后监控视频中按照预设时间间隔抽取视频帧进行目标检测,以确定视频帧对应的站立乘客数量以及空闲座椅数量;确定上一站点与下一站点之间的平均通行时间,并确定当前时间与上一站点发车时间的时间间隔是否满足该平均通行时间的预设比例,若是,根据公交车到达上一站点后各视频帧对应的站立乘客数量和空闲座椅数量,确定平均站立乘客数量以及平均空闲座椅数量,而后,根据公交车座椅数量、平均站立乘客数量以及平均空闲座椅数量,确定公交车拥挤度,以根据该公交车拥挤度进行公交车调度,从而提高了公交车拥挤度确定的准确性。

    一种基于函数替换的故障注入测试方法及装置

    公开(公告)号:CN117009252A

    公开(公告)日:2023-11-07

    申请号:CN202311285981.4

    申请日:2023-10-07

    Abstract: 本说明书公开了一种基于函数替换的故障注入测试方法及装置,可以获取待测试代码,并基于所述待测试代码,确定函数调用链,根据该函数调用链,确定待替换函数,而后,对该待替换函数的函数代码进行修改,以将需要注入的故障代码添加到该待替换函数中,得到修改后函数,并生成修改后函数对应的动态链接库,进而,将动态链接库注入到待替换函数所在的进程,以将进程中的待替换函数替换为修改后函数,最后,响应于预设的触发规则,触发修改后函数以完成故障触发,根据故障触发后得到的系统相关信息,完成故障注入测试,从而达到了灵活、安全的进行故障注入。

    一种基于增量式演化LSTM的流数据预测方法及装置

    公开(公告)号:CN114202065B

    公开(公告)日:2022-06-24

    申请号:CN202210145595.4

    申请日:2022-02-17

    Abstract: 本发明公开了一种基于增量式演化LSTM的流数据预测方法及装置,基于历史数据的初始LSTM预测模型构建;面向流式数据的增量式LSTM预测模型持续更新,进行增量式LSTM预测模型结构及参数演化;基于适应性粒子滤波的收敛加速;基于当前LSTM预测模型,进行流式数据的预测。本发明适应性好,基于新增数据持续对预测模型进行调整;调整速度快,基于适应性粒子滤波技术加速演化算法的收敛速度。基于上述优点更好地解决流数据预测中数据分布变化带来的预测准确度下降的问题。

    一种面向模拟推演的主动式序列决策方法、装置和介质

    公开(公告)号:CN114254765A

    公开(公告)日:2022-03-29

    申请号:CN202210189063.0

    申请日:2022-03-01

    Abstract: 本发明涉及人工智能技术领域,具体涉及一种面向模拟推演的主动式序列决策方法、装置和介质,该方法包括如下步骤:步骤1,面向大规模强化学习的系统状态划分;步骤2,模拟推演环境的持续数据采集;步骤3,基于流数据的实时状态预测与判断;步骤4,启动基于多主体多目标强化学习的决策。本发明有以下优点:(1)为模拟推演系统提供主动式决策支持,可以避免或延缓未来某一异常状态的发生;(2)通过并行算法支持大规模多主体多目标强化学习。基于这些优点更好地解决了如何高效地在模拟推演环境中寻求可以避免损失的优化序列决策,从而指导现实环境中决策的问题。

    一种数据处理方法、装置及介质

    公开(公告)号:CN119621999B

    公开(公告)日:2025-05-02

    申请号:CN202510151574.7

    申请日:2025-02-11

    Abstract: 本申请公开了一种数据处理方法、装置及介质,该方法包括:获取指定领域的知识图谱;对知识图谱中的实体节点进行聚类,得到聚类结果;根据知识图谱和聚类结果,构建用于数据知识扩充的数据增强体;将数据增强体嵌入指定大语言模型的预设推理模板中,以通过指定大语言模型进行数据推理,得到目标合成数据;对目标合成数据进行可信度评估。由此,基于不同领域的知识图谱构建数据增强体,可以满足各个领域对数据知识准确性、可用性和多样性的要求。此外,通过该数据增强体对数据知识进行扩充,并利用大语言模型丰富的知识结构和强大的学习推理能力进行数据推理,得到目标合成数据,可以进一步提升合成数据的准确性。

    一种基于知识图谱的增强大模型推理的方法、装置及设备

    公开(公告)号:CN118982075B

    公开(公告)日:2025-03-21

    申请号:CN202411470800.X

    申请日:2024-10-21

    Abstract: 本说明书提供了一种基于知识图谱的增强大模型推理的方法、装置及设备,通过根据确定的输入大模型的输入文本中的输入实体,以及预测的该输入实体与问题答案之间的目标关系,从预设的知识图谱库中,确定匹配的匹配节点以及目标路径。然后,根据匹配节点以及目标路径确定提示路径,以根据提示路径构建子图,确定用于描述匹配节点的提示文本,并输入大模型。在为大模型补充了有效知识的同时,避免了由于输入的文本较多而超出大模型的窗口限制,也减少了输入大模型的噪声,提高了大模型推理答案的准确率,减小了“幻觉”的出现。

    一种面向大模型训练的地质图语料标注方法和装置

    公开(公告)号:CN118865393A

    公开(公告)日:2024-10-29

    申请号:CN202411343007.3

    申请日:2024-09-25

    Abstract: 本发明提出了一种面向大模型训练的地质图语料标注方法和装置,其方法在待标注地质图中定义了多层级标注要素,并提出了具体标注流程,包括1)对地质图的一级要素进行区域性标注,2)对空间标识包含的二级要素进行标注,3)对图例包含的二级要素进行标注,4)导出标准化标注结果。本发明构造了符合地质图图件要素表达逻辑的标注架构和方法,提高了标注效率,提升地质图的可用性,推动地学研究与人工智能技术的深度融合,为大模型支持地球科学研究提供基础语料的支持。

    一种面向科学领域多模态语料数据的构建方法和装置

    公开(公告)号:CN118170933B

    公开(公告)日:2024-08-13

    申请号:CN202410585594.0

    申请日:2024-05-13

    Abstract: 本发明公开了一种面向科学领域多模态语料数据的构建方法和装置,方法包括以下步骤:按语料主题分类采集待处理的科学领域相关多模态原始语料数据;构建任务处理流管线对原始语料数据依次进行预处理、内容解析、数据清洗和结构化得到整体语料数据;对包括文本、图片、表格和公式的不同子类型语料数据进行语料评测,基于语料评测结果对整体语料数据进行质量评估;根据质量评估结果优化整体语料数据完成科学领域语料数据库构建。本发明通过自动化任务处理流管线高效处理并生成语料数据,同时提供统一存储与质量评测,通过不断优化处理流程得到高质量科学领域语料数据库,能够为大模型训练提供可靠的数据基础,推动科学研究和应用技术的不断发展。

Patent Agency Ranking