基于双层强化学习的多能园区调度方法及系统

    公开(公告)号:CN111181201A

    公开(公告)日:2020-05-19

    申请号:CN202010108574.6

    申请日:2020-02-21

    IPC分类号: H02J3/46 H02J3/32 H02J3/38

    摘要: 本发明提供的基于双层强化学习的多能园区调度方法及系统,包括获取综合能源系统中的调度可控对象,即源侧单元、负荷侧单元、能量转化单元与存储单元;构建双层优化决策模型,包括上层强化学习子模型和下层混合整数线性规划子模型;上层强化学习子模型获取存储单元在当前时刻的状态变量信息下的动作变量信息,并传输至下层混合整数线性规划子模型;下层混合整数线性规划子模型获取对应的奖励变量和存储单元在下一时刻的状态变量信息,并反馈至上层强化学习子模型;迭代执行上述步骤直至调度结束。本发明实施例通过数据驱动的强化学习方法,仅需根据当前状态进行决策,而无需对未来信息的预测,决策时效性高、决策效果优,能实现实时趋优决策。

    基于双层强化学习的多能园区调度方法及系统

    公开(公告)号:CN111181201B

    公开(公告)日:2021-06-11

    申请号:CN202010108574.6

    申请日:2020-02-21

    IPC分类号: H02J3/46 H02J3/32 H02J3/38

    摘要: 本发明提供的基于双层强化学习的多能园区调度方法及系统,包括获取综合能源系统中的调度可控对象,即源侧单元、负荷侧单元、能量转化单元与存储单元;构建双层优化决策模型,包括上层强化学习子模型和下层混合整数线性规划子模型;上层强化学习子模型获取存储单元在当前时刻的状态变量信息下的动作变量信息,并传输至下层混合整数线性规划子模型;下层混合整数线性规划子模型获取对应的奖励变量和存储单元在下一时刻的状态变量信息,并反馈至上层强化学习子模型;迭代执行上述步骤直至调度结束。本发明实施例通过数据驱动的强化学习方法,仅需根据当前状态进行决策,而无需对未来信息的预测,决策时效性高、决策效果优,能实现实时趋优决策。