-
公开(公告)号:CN114327916B
公开(公告)日:2022-06-17
申请号:CN202210232543.0
申请日:2022-03-10
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种资源分配系统的训练方法、装置及设备,其中,所述方法包括:封装第一算法和第一仿真引擎,得到初始模型的第一执行程序;基于所述初始模型运行所述第一执行程序,生成至少一组态势数据;针对所述至少一组态势数据中的每一组态势数据执行训练操作,直到所述至少一组态势数据对应的执行结果均满足相应条件,得到所述资源分配系统。通过上述方式,本发明建立了一个可扩展可复用的资源分配系统,该资源分配系统能够实现多目标多资源动态分配的智能决策。
-
公开(公告)号:CN114064864A
公开(公告)日:2022-02-18
申请号:CN202110854064.8
申请日:2021-07-27
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06F16/33 , G06F16/36 , G06F40/126 , G06F40/30
Abstract: 本发明实施例涉及一种智能问答方法、装置、设备及存储介质,利用两种上下文感知变换为对话情景中的单词表示融入上下文信息;将对话情景与知识库语义信息分开存储;通过记忆网络对用户当前语句进行理解,并激活了当前的对话生成任务;工作记忆动态的控制长时记忆的“激活”,从长时记忆中读取当前任务相关的内容到短时存储中,然后基于启发式策略逐个词地生成当前回复。本发明能够将对话情景与知识库语义信息分开存储,并通过记忆推理的方式利用这两种存储的信息,可以高效地利用外部知识库信息,极大地提升了任务型对话生成的性能。
-
公开(公告)号:CN113561187A
公开(公告)日:2021-10-29
申请号:CN202111122532.9
申请日:2021-09-24
Applicant: 中国科学院自动化研究所
IPC: B25J9/16
Abstract: 本公开涉及一种机器人控制方法、装置、电子设备及存储介质,上述方法包括:获取机器人的运动轨迹集;确定所述机器人对应的机器人动力学模型,并确定所述机器人动力学模型对应的误差函数;根据所述运动轨迹集和所述误差函数对所述机器人动力学模型进行自监督训练;根据经过所述自监督训练之后的机器人动力学模型,对所述机器人进行控制。采用上述技术手段,解决现有技术中,现有的机器人动力学学习方法仅可以用于控制特定的机器人,无法广泛适用于不同结构的机器人的控制的问题。
-
公开(公告)号:CN108109619B
公开(公告)日:2021-07-06
申请号:CN201711127669.7
申请日:2017-11-15
Applicant: 中国科学院自动化研究所
IPC: G10L15/22 , G10L19/00 , G10L21/0208 , G10L21/0272 , G10L25/30
Abstract: 本发明属于语音分离技术领域,具体涉及基于记忆和注意力模型的听觉选择方法和装置。旨在解决现有技术中监督标签的排列、说话人混叠数目不确定以及记忆单元维度固定的问题。本发明提供一种基于记忆和注意力模型的听觉选择方法,包括将原始语音信号编码为时频矩阵,对时频矩阵进行编码和变换,将其转化为语音向量,利用长时记忆单元存储说话人以及其对应的语音向量,获取目标说话人的语音向量,通过注意力选择模型从原始语音信号中分离出目标语音。本发明提供的方法能够不需要固定或者指定说话人的数目,从原始语音信号中分离出目标语音。
-
公开(公告)号:CN113035225A
公开(公告)日:2021-06-25
申请号:CN201911252373.7
申请日:2019-12-09
Applicant: 中国科学院自动化研究所
IPC: G10L21/0272 , G10L25/30 , G10L17/18 , H04N21/44
Abstract: 本发明实施例涉及一种视觉声纹辅助的语音分离方法和装置,所述方法包括:对采集到的混合语音数据进行音频处理,得到该混合语音数据的隐层表示;对采集到的目标对象的视频数据进行视频处理,得到该视频数据的隐层表示;所述视频数据与所述混合语音数据在时间维度上对齐;基于所述视频数据的隐层表示,确定目标对象的身份信息;基于所述混合语音数据的隐层表示、视频数据的隐层表示和身份信息,从所述混合语音数据中分离出所述目标对象的语音数据。由此,可以实现混合语音数据中分离出目标对象的语音数据。
-
公开(公告)号:CN112966690A
公开(公告)日:2021-06-15
申请号:CN202110237052.0
申请日:2021-03-03
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于多媒体图像视频场景文字识别领域,具体涉及了一种基于无锚框和提议框的场景文字检测方法,旨在解决现有技术难以覆盖变换多样的文字且参数复杂,从而检测效率低和泛化能力差的问题。本发明包括:构建模型并提取场景文字待检测区域的高层卷积特征和低层卷积特征;通过升采样和串联进行高层卷积特征和低层卷积特征的融合,获得卷积融合特征;使用无损失文字注意力机制将高层卷积特征携带的高层语义信息嵌入,获得LTAM卷积融合特征;通过三个分支进行检测输出,并去除冗余矩形框,获得最终的检测结果。本发明无需预设锚框和提议框,简单灵活、检测性能优,检测速度显著超过多数方法。
-
公开(公告)号:CN107563295B
公开(公告)日:2020-07-28
申请号:CN201710656830.3
申请日:2017-08-03
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及计算机图形处理领域,提出了一种基于多Kinect的全方位人体追踪方法和设备,旨在解决人体在受到遮挡的环境中,或部分相机角度不佳等原因造成的信息缺失而无法获取完整运动信息的问题。该方法的具体实施方式包括:接收终端设备所发送的人体骨架的骨架数据;匹配该骨架数据,根据匹配结果将属于同一人的骨架数据分为一组;根据该骨架数据和该骨架数据所对应人体骨架的历史数据确定出各人体骨架的骨架图像为正面或为反面,并对所确定的骨架图像进行翻转处理;对所确定的骨架图像进行惯性处理,确定该人体骨架的位置和运动姿势。该实施方式实现了对人体骨架稳定连续的追踪。
-
公开(公告)号:CN108304911B
公开(公告)日:2020-03-13
申请号:CN201810018789.1
申请日:2018-01-09
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及知识抽取领域,具体涉及一种基于记忆神经网络的知识抽取方法以及系统和设备,目的在于解决现有技术中存在的信息冗余问题。本发明在给定预定义关系类型的前提下,首先利用卷积神经网络获取输入文本中可能具有的关系类型,及其语义编码向量;再利用双向长短时记忆神经网络进行语义编码,得到语义向量;将关系类型作为双向长短时记忆网络的初始值以及解码模块中的第一个标签,进而将关系类型信息融入到编码信息以及解码模块的标签信息中;最后采用单向长短时记忆网络结构的解码模块得到标签序列,然后通过解析标签序列得到结构化信息。本发明不但极大地提高了结构化信息抽取的效率,而且克服了现有技术中存在的信息冗余问题。
-
公开(公告)号:CN108564643A
公开(公告)日:2018-09-21
申请号:CN201810217937.2
申请日:2018-03-16
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及计算机图形处理领域,提出了一种基于UE引擎的表演捕捉系统,旨在解决在同时捕捉动作与表情数据,生成角色动作与表情动画中,表情表演与动作表演的干扰问题,该系统包括:面部表演捕捉单元,配置为获取目标对象的面部图像数据,并根据该面部图像数据,确定目标对象的眼球旋转参数,并利用预设的基础表情库确定该目标对象的基础表情权重;动作表演捕捉单元,配置为利用绑缚于目标对象肢体的传感设备获取该目标对象的动作参数;动画生成单元,配置为根据上述基础表情权重、上述眼球旋转参数和上述动作参数确定虚拟角色的表情动画。本发明实现了表演者动作和表情的捕捉,并根据动作和表情数据赋予虚拟角色真实合理的动作与生动的表情。
-
公开(公告)号:CN108109619A
公开(公告)日:2018-06-01
申请号:CN201711127669.7
申请日:2017-11-15
Applicant: 中国科学院自动化研究所
IPC: G10L15/22 , G10L19/00 , G10L21/0208 , G10L21/0272 , G10L25/30
Abstract: 本发明属于语音分离技术领域,具体涉及基于记忆和注意力模型的听觉选择方法和装置。旨在解决现有技术中监督标签的排列、说话人混叠数目不确定以及记忆单元维度固定的问题。本发明提供一种基于记忆和注意力模型的听觉选择方法,包括将原始语音信号编码为时频矩阵,对时频矩阵进行编码和变换,将其转化为语音向量,利用长时记忆单元存储说话人以及其对应的语音向量,获取目标说话人的语音向量,通过注意力选择模型从原始语音信号中分离出目标语音。本发明提供的方法能够不需要固定或者指定说话人的数目,从原始语音信号中分离出目标语音。
-
-
-
-
-
-
-
-
-