文本生成方法、装置、设备和存储介质

    公开(公告)号:CN117875367A

    公开(公告)日:2024-04-12

    申请号:CN202311755886.6

    申请日:2023-12-19

    Abstract: 本申请实施例提供文本生成方法、装置、设备和存储介质,涉及人工智能技术领域。该方法获取训练文本集以及模型参数,将文本样本输入初始大语言模型进行文本预测,利用模型参数进行前向传播,得到预测文本;基于预测文本得到损失函数,计算损失函数对于模型参数的梯度值,利用衰减参数和梯度值更新动量参数,以及利用学习率、权重衰减率和更新后的动量参数更新权重参数,多次迭代权重参数直至得到目标大语言模型;再见获取的待处理文本输入目标大语言模型得到目标生成文本。在训练过程中利用动量参数作为中间状态参数,减少中间状态参数,降低显存占用,提升处理器的资源利用率,降低大语言模型的训练成本,进而扩展大语言模型的适用范围。

    车辆驾驶控制方法、装置、电子设备及存储介质

    公开(公告)号:CN119659657B

    公开(公告)日:2025-04-29

    申请号:CN202510199602.2

    申请日:2025-02-24

    Abstract: 本申请实施例提出的车辆驾驶控制方法、装置、电子设备及存储介质,方法包括:首先,获取车辆在行驶过程中当前时刻的图像信息和导航信息;其次,基于图像信息进行轨迹预测处理得到预测轨迹,并基于预测轨迹得到第一控制决策;然后,基于导航信息和预测轨迹进行多步控制处理,得到第二控制决策,并基于第一控制决策和第二控制决策组合得到初步控制决策;接下来,将图像信息输入碰撞修正模型进行数据处理,得到安全控制决策,并基于安全控制决策和初步控制决策进行整合处理,得到目标控制决策;最后,基于目标控制决策对车辆进行驾驶控制,可以提高预定路线的控制可靠性以及运行控制安全性。

    博弈对抗竞赛平台控制方法、装置、设备和存储介质

    公开(公告)号:CN119312911A

    公开(公告)日:2025-01-14

    申请号:CN202411140750.9

    申请日:2024-08-19

    Abstract: 本申请实施例提供博弈对抗竞赛平台控制方法、装置、设备和存储介质,涉及人工智能技术领域。通过响应于接收到的竞赛配置参数,基于预设的参数配置模板生成博弈对抗竞赛执行单元,接收参赛用户上传的候选智能体,并对候选智能体进行校验,将校验通过的候选智能体作为竞赛智能体,根据竞赛配置参数中的赛制参数生成不同的竞赛智能体之间的对局信息,获取竞赛智能体根据对局信息进行博弈对抗得到的竞赛结果。对博弈对抗竞赛进行封装,通过交互得到不同的竞赛配置参数,实现通用的博弈对抗竞赛的创建过程,能够根据实际的对抗需求进行竞赛的实际调度,提升了博弈对抗竞赛的生成效率,并且适用于不同用户端的博弈对抗。

    智能体博弈方法、装置、计算机设备及可读存储介质

    公开(公告)号:CN119158248A

    公开(公告)日:2024-12-20

    申请号:CN202411237695.5

    申请日:2024-09-04

    Abstract: 本申请实施例提供了一种智能体博弈方法、装置、计算机设备及可读存储介质。包括:响应于针对目标博弈环境的博弈触发操作,确定当前目标博弈环境下博弈代理智能体的调用顺序;获取目标博弈环境当前的博弈状态,根据博弈状态生成对应博弈代理智能体的博弈动作调用信息;确定每个博弈代理智能体关联的资源代理端,通过资源代理端将博弈动作调用信息发送至对应的博弈代理智能体,并获取其返回的博弈动作信息;将资源代理端接收的博弈动作信息通过连接接口反馈至目标博弈环境中,并根据目标博弈环境下的多个博弈动作信息形成博弈对局信息;基于博弈对局信息在目标博弈环境中进行智能体博弈。以此,能够提高系统在智能体博弈时的稳定性和可靠性。

    博弈对局的仿真方法、装置、设备及介质

    公开(公告)号:CN119129699A

    公开(公告)日:2024-12-13

    申请号:CN202411196157.6

    申请日:2024-08-28

    Abstract: 本发明提供了一种博弈对局的仿真方法,该方法包括获取预置的通用交互范式数据,通用交互范式数据包含多种博弈类型的仿真环境下的交互控制逻辑;获取预置的统一接口集合,统一接口集合包含用于与多种博弈类型的仿真环境交互的接口函数;基于统一接口集合匹配生成目标博弈环境对应的仿真环境适配器;通过仿真环境适配器创建目标博弈环境对应的博弈环境实例,并创建至少一个智能体对象;按照通用交互范式数据控制至少一个智能体对象通过博弈环境实例进行博弈对局交互,以使得博弈仿真系统可以集成各种仿真环境,从而有效提高博弈仿真系统的泛化能力和灵活性。

    基于文本生成模型的优化器量化方法、装置以及控制器

    公开(公告)号:CN117973469A

    公开(公告)日:2024-05-03

    申请号:CN202410053158.9

    申请日:2024-01-12

    Abstract: 本申请涉及人工智能技术领域,特别涉及基于文本生成模型的优化器量化方法、装置以及控制器。优化器量化方法包括读取优化器的文本输入张量,文本输入张量为第一位宽的浮点数据;确定文本输入张量的梯度信息并对梯度信息分块处理,得到多个独立块,根据归一化常数对独立块进行量化处理,得到独立块的量化结果,量化结果为第二位宽的整数数据;将量化结果进行优化预处理,得到优化量化结果,将优化量化结果作为第一优化器状态;对第一优化器状态进行反量化处理,得到第二优化器状态,并更新优化器;对第二优化器状态进行量化处理以回到第一优化器状态,存储独立块的优化量化结果,有利于降低文本生成模型中优化器的显存占用,提高显卡的利用率。

    视觉决策模型训练方法及相关方法、装置、设备及介质

    公开(公告)号:CN119672499B

    公开(公告)日:2025-05-06

    申请号:CN202510180760.3

    申请日:2025-02-19

    Abstract: 本申请实施例公开了一种视觉决策模型训练方法及相关方法、装置、设备及介质。视觉决策模型包括编码子模型和决策子模型,通过获取图像数据和视觉事件数据,将图像数据和视觉事件数据输入到编码子模型中,输出融合特征;将融合特征输入到决策子模型中,输出目标动作和目标动作对应的评价值;根据图像数据、视觉事件数据和融合特征确定出编码子模型对应的第一损失;根据目标动作和评价值确定出决策子模型对应的第二损失;根据第一损失对编码子模型进行迭代训练,得到训练后的编码子模型;根据第二损失对决策子模型进行迭代训练,得到训练后的决策子模型;训练后的视觉决策模型包括训练后的编码子模型和训练后的决策子模型。

    视觉决策模型训练方法及相关方法、装置、设备及介质

    公开(公告)号:CN119672499A

    公开(公告)日:2025-03-21

    申请号:CN202510180760.3

    申请日:2025-02-19

    Abstract: 本申请实施例公开了一种视觉决策模型训练方法及相关方法、装置、设备及介质。视觉决策模型包括编码子模型和决策子模型,通过获取图像数据和视觉事件数据,将图像数据和视觉事件数据输入到编码子模型中,输出融合特征;将融合特征输入到决策子模型中,输出目标动作和目标动作对应的评价值;根据图像数据、视觉事件数据和融合特征确定出编码子模型对应的第一损失;根据目标动作和评价值确定出决策子模型对应的第二损失;根据第一损失对编码子模型进行迭代训练,得到训练后的编码子模型;根据第二损失对决策子模型进行迭代训练,得到训练后的决策子模型;训练后的视觉决策模型包括训练后的编码子模型和训练后的决策子模型。

    车辆驾驶控制方法、装置、电子设备及存储介质

    公开(公告)号:CN119659657A

    公开(公告)日:2025-03-21

    申请号:CN202510199602.2

    申请日:2025-02-24

    Abstract: 本申请实施例提出的车辆驾驶控制方法、装置、电子设备及存储介质,方法包括:首先,获取车辆在行驶过程中当前时刻的图像信息和导航信息;其次,基于图像信息进行轨迹预测处理得到预测轨迹,并基于预测轨迹得到第一控制决策;然后,基于导航信息和预测轨迹进行多步控制处理,得到第二控制决策,并基于第一控制决策和第二控制决策组合得到初步控制决策;接下来,将图像信息输入碰撞修正模型进行数据处理,得到安全控制决策,并基于安全控制决策和初步控制决策进行整合处理,得到目标控制决策;最后,基于目标控制决策对车辆进行驾驶控制,可以提高预定路线的控制可靠性以及运行控制安全性。

    策略探索模型训练方法、装置、计算机设备及存储介质

    公开(公告)号:CN119204152A

    公开(公告)日:2024-12-27

    申请号:CN202411147180.6

    申请日:2024-08-20

    Abstract: 本申请实施例公开一种策略探索模型训练方法、装置、计算机设备及存储介质。其中,根据标注数据集确定出人类偏好奖励和人类非偏好奖励,根据人类偏好奖励和人类非偏好奖励构建奖励模型;在非标注数据集中确定出目标非标注数据的预设状态及其对应的第一探索策略;获取智能体根据第一探索策略以及预设状态与环境交互输出动作状态数据集和执行结果,将执行结果输入到奖励模型中输出奖励值,将奖励值设置在动作状态数据集中;确定动作状态数据集中每个动作状态组对应的动作价值和标签值;根据动作价值和标签值确定出每个动作状态组对应的评价值,根据预设探索策略和评价值对第一探索策略更新,实现策略探索模型迭代训练,直至训练完成。

Patent Agency Ranking