大模型和价值驱动的三维场景拟人智能体行为规划方法

    公开(公告)号:CN119991951A

    公开(公告)日:2025-05-13

    申请号:CN202510073086.9

    申请日:2025-01-17

    Applicant: 浙江大学

    Inventor: 王文冠 杨易 梁琛

    Abstract: 本发明公开了一种大模型和价值驱动的三维场景拟人智能体行为规划方法,该方法首先获取原始目标‑行为规划文本并对原始目标‑行为规划文本进行处理,获取三维动作片段以及三维场景并对二者进行对齐,由处理后的目标‑行为规划文本、对齐后的三维动作片段与三维场景构成行为规划数据,在行为规划数据上训练执行模块,由感知模块、规划模块与训练好的执行模块共同构成三维场景拟人智能体系统,当三维场景拟人智能体系统完成行为规划中的执行目标时,将最终输出的三维人体状态作为人体状态预测结果,完成三维场景拟人智能体行为规划。

    一种文本生成的方法、装置、存储介质及电子设备

    公开(公告)号:CN117078995A

    公开(公告)日:2023-11-17

    申请号:CN202310723079.X

    申请日:2023-06-16

    Abstract: 本说明书公开了一种文本生成的方法、装置、存储介质及电子设备,获取待识别图像,从待识别图像中确定出各对象所在的图像区域,作为从待识别图像中提取出的各目标图像。将各目标图像以及预设的用于描述所有类别对象的第一文本输入到预设的识别模型中,以使识别模型从各目标图像提取出图像特征,以及从第一文本中提取出文本特征,并根据各目标图像的图像特征和第一文本的文本特征之间的相似度,确定每个目标图像中包含的对象所属的类别。将各目标图像的图像特征以及类别输入到预设的文本生成模型中,以使文本生成模型根据各目标图像的图像特征和类别输出用于描述待识别图像的内容的描述文本。

    基于反事实多智能体学习的图像场景图的生成方法和系统

    公开(公告)号:CN112329879A

    公开(公告)日:2021-02-05

    申请号:CN202011280061.X

    申请日:2020-11-16

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于反事实多智能体学习的图像场景图的生成方法和系统。该方法把图像场景图生成任务转换成为一种多智能体协同决策任务。其中将每个物体看成是一个智能体,每个智能体的动作空间是所有可选择的物体类别。每个智能体之间可以进行通信,来编码周围的视觉元素,提升智能体内部的特征表达。经过多轮智能体通信之后,再利用一个视觉关系预测模型来预测智能体之间的视觉关系,得到最终的场景图预测结果。本发明提出全新的反事实多智能体学习模型,使用场景图生成的评价指标作为模型的优化目标,反事实多智能体学习模型包含一个反事实基准模型,本发明可以通过提升物体类别的准确率,显著提升场景图生成质量。

    基于个性化联邦学习的扩散模型训练与采样方法及系统

    公开(公告)号:CN120046048A

    公开(公告)日:2025-05-27

    申请号:CN202510536167.8

    申请日:2025-04-27

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于个性化联邦学习的扩散模型训练与采样方法及系统。本发明在每个客户端上利用本地数据和个性化嵌入层进行扩散模型的训练,但仅训练扩散模型去噪过程的后半部分时间步骤,以限制模型的全局去噪能力,同时由个性化嵌入层作为隐私保护机制,确保模型仅生成符合本地数据分布的图像,同时防止其他客户端获得本地数据的数据分布;模型在本地训练若干轮后,保留个性化嵌入层在客户端本地,其余参数上传至服务器;服务器对接收到的模型参数进行加权聚合,并将更新后的全局模型参数发送回各客户端,客户端接收全局模型并于本地个性化嵌入层相结合进一步优化本地模型。本发明可以显著提升图像生成质量,同时有效降低了隐私泄露风险。

    基于文本驱动的零样本6自由度视频编辑方法及系统

    公开(公告)号:CN119316668B

    公开(公告)日:2025-03-21

    申请号:CN202411854450.7

    申请日:2024-12-17

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于文本驱动的零样本6自由度视频编辑方法及系统,属于计算机视觉处理领域。本发明的方法包括:基于扩散模型逐帧处理多视角源视频,由编码器编码各帧原始图像;在UNet网络的反演过程中注入文本表征,存储每个加噪时间步的交叉注意力图和自注意力图;更新无文本控制向量,由设计好的UNet编辑器输出编辑图像隐编码并由解码器对其进行解码,输出目标图像;将像素级别掩码作为权重,对目标图像和原始图像进行加权,以构成编辑后的视频;再次训练四维表征网络,将渲染视角和时间戳序列作为输入,最终输出重建好的6自由度视频。通过本发明的方法,用户可以通过与文本交互,实现对6自由度动态场景的灵活操作。

    基于人机混合智能的视频像素级标注方法、装置

    公开(公告)号:CN118521930A

    公开(公告)日:2024-08-20

    申请号:CN202310184577.1

    申请日:2023-02-20

    Abstract: 本发明公开了一种基于人机混合智能的视频像素级标注方法、装置。其步骤如下:1)使用交互式像素标注工具对视频帧进行稀疏的人工标注;2)使用基于像素匹配的卷积神经网络对稀疏标注的实例物体进行自动追踪匹配;3)利用时序变换神经网络自动将稀疏的视频帧像素标注扩展为密集标注;4)进行半自动低质量标注帧检测;人工修复该帧后作为时序变换神经网络的输入,进一步提升密集标注质量,多轮次迭代后达到用户满意的标注精度。本发明适用于大规模视频的像素级语义与实例标注,大幅度提升视频数据标注效率,且准确性好、标注质量高。本发明对于大规模视频数据标注和分析具有十分重要的实际应用价值。

    基于物理场残差学习的流场仿真方法、系统、介质及设备

    公开(公告)号:CN118296974B

    公开(公告)日:2024-08-02

    申请号:CN202410726178.8

    申请日:2024-06-06

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于物理场残差学习的流场仿真方法、系统、介质及设备,属于深度学习和物理方程求解交叉领域。该方法包括:首先利用训练数据或其他数据构建物理流场轨迹检索数据库;然后基于物理流场轨迹检索数据库为训练数据中的每条数据对分配一条相似的辅助流场轨迹,基于辅助流场轨迹和原始的训练数据集生成残差训练数据集;接着,基于现有的算子神经网络,在残差训练数据集上训练残差算子神经网络;最后,由训练好的残差算子神经网络预测物理流场轨迹残差,以得到待求解输入函数的数值解。本发明通过物理场残差学习,一方面缓解了原训练数据中的数据偏差,另一方面避免了神经网络的过拟合现象,显著提升了算子神经网络的物理仿真性能。

    基于联邦学习的多方隐私数据联合像素级标注方法及系统

    公开(公告)号:CN117409270A

    公开(公告)日:2024-01-16

    申请号:CN202311346073.1

    申请日:2023-10-17

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于联邦学习的多方隐私数据联合像素级标注方法及系统。各用户首先使用交互式语义分割大模型,在本地私有的图像数据中进行像素级标注;然后每个客户端使用本地标注数据训练本地模型,通过修正的交叉熵损失函数,纠正本地模型更新过程中的本地类别漂移问题;当本地模型训练若干轮后,每个客户端将其本地模型发送到中心服务器进行聚合,使全局模型拥有预测全部类别能力;聚合完成后,中心服务器将全局模型的更新发送回每个客户端来改进本地模型,并进一步通过像素级对比学习损失函数,将各个语义类别在编码空间中区分,扩大本地模型的标注类别。本发明的方法能够显著降低数据标注成本,并利用联邦学习范式确保了数据隐私的安全。

    基于强化学习的持续在线群体激励方法、装置及存储介质

    公开(公告)号:CN114943278B

    公开(公告)日:2023-09-12

    申请号:CN202210467453.X

    申请日:2022-04-27

    Applicant: 浙江大学

    Inventor: 罗亚威 梁琛 杨易

    Abstract: 本发明公开了一种基于强化学习的持续在线群体激励方法、装置及存储介质。其步骤如下:1);提取大规模在线学习系统中用户的基本特征;2)使用图卷积神经网络对原始特征进行特征提取及聚合,得到群体特征;3)利用聚类算法对群体特征进行聚类,形成用户群体的典型特征;4)针对典型用户组分配初始激励模式;并利用持续在线的用户反馈数据训练基于策略的强化学习模型以达到总体活跃度最大化。本发明适用于大规模在线学习中,研讨、实践、合作场景的学生用户激励,其效率高,准确性好、解释性强。本发明对于大规模在线学习平台中的用户激励教学实践具有十分重要的实际应用价值。

Patent Agency Ranking