一种对抗式模仿学习中奖励函数的选择方法

    公开(公告)号:CN111401556B

    公开(公告)日:2023-06-30

    申请号:CN202010323155.4

    申请日:2020-04-22

    Inventor: 李秀 王亚伟 张明

    Abstract: 本发明提供一种对抗式模仿学习中奖励函数的选择方法,包括如下步骤:构建参数为θ的策略网络、参数为w的判别网络和至少两个奖励函数;获取专家策略下的示教数据并存入包含专家轨迹的专家数据缓存器中;控制策略网络的输入为仿真环境返回的状态,输出为决策动作;判别网络利用专家策略下的状态动作对和策略网络的状态动作对进行参数的更新;在计算奖励的阶段,判别网络的输入是策略网络的状态动作对,输出值是经过奖励函数计算得到的奖励值;根据不同奖励函数的性能指标的大小选择当前任务的奖励函数;保存与选择的奖励函数对应的策略网络的参数。智能体在不同奖励函数的指导下学习,进而在具体任务场景中依据性能评价指标挑选出最优奖励函数。

    基于状态轨迹的对抗式模仿学习方法及装置

    公开(公告)号:CN111856925B

    公开(公告)日:2021-12-03

    申请号:CN202010489159.X

    申请日:2020-06-02

    Applicant: 清华大学

    Abstract: 本发明公开了一种基于状态轨迹的对抗式模仿学习方法及装置,其中,该方法包括:获取专家决策下的状态轨迹,将状态轨迹存入专家数据缓存器;构建第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络;基于状态轨迹和离轨策略算法的对抗式模仿学习过程,对第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络进行更新;根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。该方法设计出一种利用专家操作连续控制量下的状态轨迹在仿真环境中学习离散动作的对抗模仿算法。

    基于广播星历的GNSS多系统实时精密时间传递方法及系统

    公开(公告)号:CN111045034B

    公开(公告)日:2020-09-29

    申请号:CN201911283969.3

    申请日:2019-12-13

    Abstract: 本发明实施例提供一种基于广播星历的GNSS多系统实时精密时间传递方法及系统,该方法包括:获取每两个GNSS接收机之间的GNSS共视卫星的观测数据;根据广播星历、GNSS接收机坐标和GNSS伪距观测值,获取GNSS共视卫星的信号发射时刻坐标;根据GNSS共视卫星的观测数据,获取GNSS共视卫星的单差无电离层组合伪距和单差无电离层组合相位观测值,再根据所述GNSS共视卫星的信号发射时刻坐标,构建站间单差观测方程;根据站间单差观测方程,构建误差方程,并得到对应的法方程;根据误差方程和法方程,获取每两个GNSS接收机之间的相对钟差,以用于进行实时精密时间传递。本发明实施例提高了GNSS实时精密时间传递的精度和便利性。

    一种有机电致发光器件
    27.
    发明公开

    公开(公告)号:CN101777627A

    公开(公告)日:2010-07-14

    申请号:CN200910264259.6

    申请日:2009-12-25

    Abstract: 本发明涉及一种有机电致发光器件,尤其涉及有机电致发光器件的引线设计。本发明所述有机电致发光器件,依次包括基板、发光区、引线区以及封装盖;引线区由使发光区与驱动芯片连接的引线构成,引线区包括邦定区和延伸区,邦定区为引线与驱动芯片连接的区域,延伸区位于邦定区外侧,延伸区引线由主电极引线和辅助电极引线构成,辅助电极引线的双侧边缘具有凸部。本发明所述技术方案能够有效防止有机电致发光器件在测试时延伸区引线由于脱边引起的行列连缺陷,避免短路对屏体造成损害。

    一种能实现高渗压模型试验内部位移传递和密封的装置

    公开(公告)号:CN101504271A

    公开(公告)日:2009-08-12

    申请号:CN200910079783.6

    申请日:2009-03-11

    Applicant: 清华大学

    Abstract: 一种能实现高渗压模型试验内部位移传递和密封的装置,属于地质力学模型试验技术领域。其特征在于,含有:内部位移的曲线传递部分和滑动密封部分;把不锈钢杆的刚性位移传递改变为钢丝索柔性位移传递,把直线形状的不锈钢护管改变为曲线型弯曲护管,从原有的开放性传递改变为密封滑动传递;使柔性钢丝索穿过灌注了高粘度锂基脂的护管,并在试验台侧壁用止水垫片压紧,实现密封滑动位移传递。本发明省却了防水传感器,实现了测点的绝对位移传递,并解决了试验台侧壁渗流问题。

    基于击实功复合作用函数逆向控制原理的地质力学模型制作方法

    公开(公告)号:CN101221709A

    公开(公告)日:2008-07-16

    申请号:CN200810056625.4

    申请日:2008-01-23

    Applicant: 清华大学

    Abstract: 一种基于击实功复合作用函数逆向控制原理的地质力学模型制作方法,属于地质力学模型技术领域。制作步骤为:确定特定模型的击实功复合作用函数及其参数,采用模型填筑逆向控制方法制作模型。根据击实功复合作用函数,计算模型各个分层的虚拟控制干容重和填筑方量,加以逆向控制,采用试验确定的压实方案进行压实,最终制作成各层的实际容重均满足设计需要的、性质均一的模型。优点在于,通过提出“击实功复合作用函数”和“虚拟容重”控制概念,提供了一种基于逆向控制原理的地质力学模型制作方法,克服了现有的地质力学模型压实制作方法由于超压而影响模型材料力学参数失真的不足,提高了模型制作质量。

Patent Agency Ranking