一种强化学习方法及系统
    1.
    发明公开

    公开(公告)号:CN119250154A

    公开(公告)日:2025-01-03

    申请号:CN202411341357.6

    申请日:2024-09-25

    Abstract: 本申请公开了一种强化学习方法及系统,涉及强化学习领域,该方法包括:获取目标应用场景下的次优演示数据;通过智能体根据次优演示数据进行模仿学习,得到初始策略;基于初始策略,确定多个行为序列;根据多个行为序列,对奖励模型进行迭代训练,以得到训练后的奖励模型;基于训练后的奖励模型,在KL散度的对比强化学习算法中引入正则项,以得到带有正则项的对比强化学习损失函数;根据多个行为序列,基于训练后的奖励模型及带有正则项的对比强化学习损失函数,进行强化学习,以得到目标应用场景下最终的强化学习策略。本申请通过对奖励模型和对比强化学习的损失函数进行改进,智能体模仿学习次优演示数据后,能够快速学习到更优的策略。

    一种汽车及其域控系统
    2.
    发明公开

    公开(公告)号:CN118722453A

    公开(公告)日:2024-10-01

    申请号:CN202410795198.0

    申请日:2024-06-19

    Abstract: 一种汽车及其域控系统,涉及汽车动力域控领域。该系统包括低压层、高压层和散热层,低压层包括采集模块、计算模块和控制模块,采集模块用于获取车辆信息,计算模块利用预设的控制算法对车辆信息进行计算,并输出车辆信息对应的控制结果;控制模块包括一个域控制器,用于根据所述控制结果输出对应的控制信号,根据控制信号对车辆的执行部件进行控制。高压层至少包括高压控制模块、直流转换模块、交流转换模块、动力电池和电机;高压控制模块获取控制信号,控制动力电池与直流转换模块的连接,以进行低压供电;和/或,高压控制模块获取控制信号,控制动力电池与交流转换模块的连接,以对电机进行控制。散热层对所述高压层进行散热。

Patent Agency Ranking