基于策略重要性识别和值函数矫正的机器人奔跑控制方法

    公开(公告)号:CN118818976A

    公开(公告)日:2024-10-22

    申请号:CN202410800970.3

    申请日:2024-06-20

    Applicant: 东北大学

    Abstract: 本发明提供一种基于策略重要性识别和值函数矫正的机器人奔跑控制方法,涉及机器人控制技术领域。本发明使用当前策略的值函数与行为策略的值函数的差代替选择策略的标准;采用策略重要性对策略进行加权评估,即面对不同的策略时,对每种策略进行动态评估,选取一个对长期回报最优的动作;采用Q函数协同矫正的方式来计算目标Q值,进而对当前策略进行多方面的评估。本发明的方法能有效缓解由OOD引起的高估问题,提高智能体在真实环境下的表现性能以及在新环境下的稳定性和鲁棒性,使智能体能够处理更复杂的机器人奔跑任务,如快速变速、急转弯和跳跃等,提高了机器人的整体任务执行能力。

    一种基于知识蒸馏的自适应双塔多模态推荐方法

    公开(公告)号:CN118714193A

    公开(公告)日:2024-09-27

    申请号:CN202410792926.2

    申请日:2024-06-19

    Applicant: 东北大学

    Abstract: 本发明提供一种基于知识蒸馏的自适应双塔多模态推荐方法,涉及多模态推荐技术领域,本发明通过收集获取用户‑项目交互信息以及项目多模态信息,进行数据清洗和格式转换;使用教师‑学生模型进行多模态信息的知识蒸馏;基于GNN和专家网络构建双塔模型;分别计算双塔模型下交互塔和内容塔的偏好得分;基于场景特征进行双塔偏好得分混合;计算偏好得分之后进行项目推荐。本发明显著优于传统的单模态推荐算法。这一进步不仅体现在推荐系统的性能提升上,也在空间和计算资源的节约上有着明显的优势。因此,本发明在多模态推荐系统领域具有重要的应用价值和广阔的市场前景。

    融合图卷积与大语言模型的状态动作关系强化学习方法

    公开(公告)号:CN118674001A

    公开(公告)日:2024-09-20

    申请号:CN202410797522.2

    申请日:2024-06-20

    Applicant: 东北大学

    Abstract: 本发明提供一种融合图卷积与大语言模型的状态动作关系强化学习方法,涉及强化学习技术领域,通过结合GCN和LLM的强力特性——对空间信息处理和自然语言理解的双重优势,深入学习和内化环境中的复杂空间关系以及状态转移中的时间序列动态,利用GCN捕捉状态间的复杂空间结构,以及利用LLM处理和生成基于历史行为的时间序列数据,为RL智能体提供更准确的环境预测和策略规划工具,提升在复杂交互环境中的表现。GCN负责揭示状态之间的空间相互作用,而LLM则解析长期依赖和模式,提供连贯的决策支持,为RL智能体提供更准确的环境预测和策略规划工具,提升在复杂交互环境中的表现。

Patent Agency Ranking