基于大语言模型和强化学习的决策支持系统及方法

    公开(公告)号:CN119150913A

    公开(公告)日:2024-12-17

    申请号:CN202411639883.0

    申请日:2024-11-18

    Applicant: 浙江大学

    Abstract: 本申请涉及强化学习技术领域,提供了一种基于大语言模型和强化学习的决策支持系统及方法,其首先获取强化学习的源状态表征,并利用外部知识库对其进行数据增强,随后将增强后的状态表征转换为预设大语言模型的状态表征,接着将该状态表征输入预设大语言模型以生成强化学习智能体增强的状态表征函数和内在奖励函数,基于这两个函数更新维护利普西茨数组,以产生满足平滑条件的状态表征,最后,将满足条件的状态表征输入分类器决策模型,得出决策结果。这样,通过引入外部信息,有助于提升强化学习的源状态表征质量,从而提高智能体的决策能力和适应性。

    一种用于小样本类增量学习的多粒度快慢学习方法

    公开(公告)号:CN112633495B

    公开(公告)日:2023-07-18

    申请号:CN202011504238.X

    申请日:2020-12-18

    Applicant: 浙江大学

    Abstract: 本发明公开了一种用于小样本类增量学习的多粒度快慢学习方法,方法具体包括以下步骤:连续获取多个任务的数据流,在每个类增量学习会话只能获得一个任务的数据;在第一个增量学习会话中,获取第一个任务的数据,学习得到基任务网络模型,慢更新模型和快更新模型都以基任务模型作为初始化;在下一个增量学习会话中获取新任务数据,以慢的多粒度学习方法更新慢更新模型,以快的多粒度学习方法更新快更新模型;每次增量学习会话后,通过慢更新模型得到慢更新特征空间,通过快更新模型得到快更新特征空间,利用两个空间得到的组合空间进行分类。本发明构建的组合特征空间能有效地平衡旧知识保留和新知识适应,是一种简单有效的小样本增量学习方法。

    基于工具调用模型的工具自动调用方法、系统及设备

    公开(公告)号:CN119201297A

    公开(公告)日:2024-12-27

    申请号:CN202411297988.2

    申请日:2024-09-14

    Applicant: 浙江大学

    Abstract: 本申请涉及大模型技术领域,特别是涉及一种基于工具调用模型的工具自动调用方法、系统及设备,所述方法包括:获取训练数据样本集,所述训练数据样本集包括用户调用请求样本数据及其分别对应的标签;基于所述训练数据样本集,利用动态损失缩放函数对待训练模型进行训练;在训练过程中,利用输出评估模型对所述待训练模型输出的工具调用初始结果进行评估,并根据评估结果对所述动态损失缩放函数中的多个系数进行动态调整后,得到工具调用模型;将用户调用请求数据输入所述工具调用模型,输出工具调用结果。本申请显著提升模型的整体性能与稳定性。

    训练目标检测模型的方法及装置
    4.
    发明公开

    公开(公告)号:CN119445190A

    公开(公告)日:2025-02-14

    申请号:CN202411314309.8

    申请日:2024-09-19

    Abstract: 本说明书实施例涉及训练目标检测模型的方法及装置,方法包括:获取基于第一训练集训练得到的第一目标检测模型,第一训练集中的各个图像属于K个物体类别;获取第二训练集,其中任一图像具有不同于K个物体类别的标签类别;对于第二训练集中任意的第一图像,确定其标签类别所归属的超类类别,将超类类别中包含的其它物体类别确定为第一图像的混淆类别;混淆类别属于K个物体类别;针对第一图像,确定使得目标函数最小化的扰动值,从而得到施加该扰动值的第一扰动图像;基于第二训练集中各个图像及其对应的扰动图像,确定第二扩展训练集,利用第二扩展训练集训练第一目标检测模型,得到第二目标检测模型。

    蒙特卡洛树搜索方法、装置及计算机设备

    公开(公告)号:CN119227821A

    公开(公告)日:2024-12-31

    申请号:CN202411323359.2

    申请日:2024-09-20

    Applicant: 浙江大学

    Abstract: 本申请涉及一种蒙特卡洛树搜索方法、装置及计算机设备。方法包括:获取待搜索根节点的第一状态信息;控制第一线程池中的至少一个空闲线程,基于第一状态信息确定扩展子节点,并基于扩展子节点的第二状态信息,生成扩展子节点的模拟任务;控制第二线程池中的至少一个空闲线程,执行模拟任务并生成反向传播任务,反向传播任务包括模拟奖励值;控制第一线程池中的至少一个空闲线程,执行反向传播任务,并根据模拟奖励值更新第二状态信息,第一线程池中的至少一个空闲线程以及第二线程池中的至少一个空闲线程分别分配至处理器的相应核心且由处理器并行执行;重复执行上述步骤,直至满足预设搜索条件后,基于第二状态信息确定搜索结果。

    基于联盟链架构的动态分片处理方法、装置及存储介质

    公开(公告)号:CN117216325A

    公开(公告)日:2023-12-12

    申请号:CN202311136884.9

    申请日:2023-09-04

    Applicant: 浙江大学

    Abstract: 本申请涉及区块链领域,特别是涉及一种基于联盟链架构的动态分片处理方法、装置、联盟链架构、计算机设备及存储介质。所述方法包括:基于输入联盟链的历史交易数据,建模生成交易图;对所述交易图中的点进行聚类分析,得到初始分类结果;基于所述初始分类结果,对所述交易图中的点进行匹配,得到初始匹配结果;以目标分片的数量为约束,以所有目标分片的理论吞吐量最大化为目标,对所述初始分配结果进行优化,输出所述交易图的分片策略。本发明对各目标分片的维护范围进行动态调整,以降低联盟链架构的跨分片交易率。

    一种偏差上下文信息修正的增量语义分割方法

    公开(公告)号:CN114663657A

    公开(公告)日:2022-06-24

    申请号:CN202210249636.4

    申请日:2022-03-14

    Applicant: 浙江大学

    Abstract: 本发明公开了一种偏差上下文信息修正的增量语义分割方法。该方法首先获取多个类别的语义分割数据流,并划分为多个训练数据集;在第一个增量语义分割学习步骤中,以一个训练数据集学习得到初始语义分割网络模型;在下一个增量语义分割学习步骤中,以擦除新类像素点的方法对新获得的包含新类别的训练数据集,产生偏差上下文信息修正的图片对,构建偏差上下文信息修正的训练数据集,基于偏差上下文信息修正的训练数据集,以偏差上下文信息修正和自适应类平衡的学习方法更新最新的增量语义分割网络模型。本发明能有效地修正旧类像素点的偏向新类的上下文信息和缓解偏差的类分布问题,减少对旧类知识的遗忘和对背景类别的语义漂移。

    一种用于小样本类增量学习的多粒度快慢学习方法

    公开(公告)号:CN112633495A

    公开(公告)日:2021-04-09

    申请号:CN202011504238.X

    申请日:2020-12-18

    Applicant: 浙江大学

    Abstract: 本发明公开了一种用于小样本类增量学习的多粒度快慢学习方法,方法具体包括以下步骤:连续获取多个任务的数据流,在每个类增量学习会话只能获得一个任务的数据;在第一个增量学习会话中,获取第一个任务的数据,学习得到基任务网络模型,慢更新模型和快更新模型都以基任务模型作为初始化;在下一个增量学习会话中获取新任务数据,以慢的多粒度学习方法更新慢更新模型,以快的多粒度学习方法更新快更新模型;每次增量学习会话后,通过慢更新模型得到慢更新特征空间,通过快更新模型得到快更新特征空间,利用两个空间得到的组合空间进行分类。本发明构建的组合特征空间能有效地平衡旧知识保留和新知识适应,是一种简单有效的小样本增量学习方法。

    一种基于神经网络二阶辛克霍恩梯度流加速图像生成方法

    公开(公告)号:CN119416852A

    公开(公告)日:2025-02-11

    申请号:CN202411467590.9

    申请日:2024-10-21

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于神经网络二阶辛克霍恩梯度流加速图像生成方法。本发明利用神经二阶辛克霍恩梯度流2‑NSGF模型,参数化二阶沃森斯坦梯度流中与辛克霍恩散度相关的时间变化动量场,从而实现高效推断和仿真。通过对源和目标分布样本的利用,2‑NSGF模型可以实时生成和细化仿真数据,降低传统方法的计算复杂度。此外,通过引入两阶段2‑NSGF++模型,进一步优化了处理高维数据集的效率,提高了仿真精度和速度。本发明提供了一种高效的数据处理技术,适用于机器学习领域的多种应用,如图像生成、风格迁移和音频‑文本转换等。本发明显著提高了图像生成效率;无需依赖核函数,降低了复杂度;提升了样本质量和生成稳定性。

    一种基于类内结构紧致约束的无监督对抗域适应方法

    公开(公告)号:CN111931814A

    公开(公告)日:2020-11-13

    申请号:CN202010637233.8

    申请日:2020-07-03

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于类内结构紧致约束的无监督对抗域适应方法。具体包括如下步骤:获取用于训练的有标签的源域数据集以及无标签的目标域数据集;用神经网络模型提取数据集中每张图片的特征,并根据聚类算法构建提取到的特征的类内结构;利用对抗域适应算法训练神经网络,并在训练过程中以类内结构的紧致性作为条件约束神经网络;利用训练过的模型重新提取每张图片的特征以及特征的类内结构,并以此作为约束用对抗域适应算法进一步训练神经网络;不断迭代进行特征提取,特征类内结构构造以及用以类内结构紧致性为条件的对抗域适应算法训练神经网络。本发明适用于无监督域适应领域中的知识迁移,面对各类复杂的情况具有较佳的效果和鲁棒性。

Patent Agency Ranking