虚拟对象口型驱动方法、相关装置和介质

    公开(公告)号:CN116665695B

    公开(公告)日:2023-10-20

    申请号:CN202310936907.8

    申请日:2023-07-28

    Abstract: 本公开提供了一种虚拟对象口型驱动方法、相关装置和介质。该虚拟对象口型驱动方法包括:获取虚拟对象的面部标识;获取用于驱动虚拟对象的目标语音,目标语音中每个时区对应于虚拟对象的口型驱动视频中的一帧;从目标语音中提取语音特征,并将每个时区的语音特征与时区的位置信息进行编码得到第一编码串;对第一编码串与面部标识进行变换层处理,得到与时区对应的、虚拟对象的表情系数;基于时区对应的表情系数,在位置信息对应的帧中,对虚拟对象进行口型驱动。本公开实施例提高了口型驱动的准确性和时序稳定性。本公开实施例可应用于机器人与数字人等场景。

    图像处理方法、装置、计算机设备、存储介质及程序产品

    公开(公告)号:CN115311374A

    公开(公告)日:2022-11-08

    申请号:CN202211015651.9

    申请日:2022-08-24

    Abstract: 本发明实施例公开了一种图像处理方法、装置、计算机设备、存储介质及程序产品,可以中获取待处理灰度图像,并对待处理灰度图像进行层级下采样特征提取,得到多个层级的图像特征;对图像特征进行区域特征计算,得到图像特征的局部参数;对图像特征进行全局特征计算,得到图像特征的全局参数;根据局部参数与全局参数,计算图像特征中每个区域的自注意力衡量参数;将每个区域的自注意力衡量参数与图像特征进行融合处理,得到图像特征对应的候选图像特征;对候选图像特征进行层级上采样处理,得到目标图像特征;对目标图像特征进行色彩映射处理,得到待处理灰度图像对应的彩色图像。解决了图像处理效果不合理的问题,提高了对图像处理的全局合理性。

    一种图像目标检测方法、装置及存储介质

    公开(公告)号:CN109815868B

    公开(公告)日:2022-02-01

    申请号:CN201910034102.8

    申请日:2019-01-15

    Abstract: 本发明实施例公开了一种图像目标检测方法、装置及存储介质,本发明实施例可以获取待检测图像,并对所述待检测图像按照不同分辨率分别进行缩放处理,得到多张缩放后图像;分别从每张缩放后图像中筛选符合目标区域类型的区域,得到多个初始图像块;将每个初始图像块分别划分为多个区域,并获取每个区域属于目标区域的概率;从每个初始图像块中提取出所述概率大于预设阈值的区域,得到多个候选图像块;将所述多个候选图像块映射至所述待检测图像上,并根据所述多个候选图像块之间的重合度筛选出符合预设条件的候选图像块所在的区域,得到目标区域。该方案对计算资源的需求较低,且检测速度较快,提高了对图像目标检测的效率及目标检测的准确性。

    一种图像目标检测方法、装置及存储介质

    公开(公告)号:CN109815868A

    公开(公告)日:2019-05-28

    申请号:CN201910034102.8

    申请日:2019-01-15

    Abstract: 本发明实施例公开了一种图像目标检测方法、装置及存储介质,本发明实施例可以获取待检测图像,并对所述待检测图像按照不同分辨率分别进行缩放处理,得到多张缩放后图像;分别从每张缩放后图像中筛选符合目标区域类型的区域,得到多个初始图像块;将每个初始图像块分别划分为多个区域,并获取每个区域属于目标区域的概率;从每个初始图像块中提取出所述概率大于预设阈值的区域,得到多个候选图像块;将所述多个候选图像块映射至所述待检测图像上,并根据所述多个候选图像块之间的重合度筛选出符合预设条件的候选图像块所在的区域,得到目标区域。该方案对计算资源的需求较低,且检测速度较快,提高了对图像目标检测的效率及目标检测的准确性。

    将文本数据转换为图像数据的方法和装置

    公开(公告)号:CN118071867B

    公开(公告)日:2024-07-30

    申请号:CN202410471563.2

    申请日:2024-04-19

    Abstract: 本公开涉及一种将文本数据转换为图像数据的方法、训练神经网络模型的方法、将文本数据转换为图像数据的装置、电子设备及计算机可读存储介质。所述方法包括:基于所述文本数据,确定所述文本数据在潜在空间中的表示;基于所述文本数据在潜在空间中的表示,确定所述文本数据对应的第一图像数据在潜在空间中的表示;以及基于所述文本数据对应的第一图像数据在潜在空间中的表示,确定所述第一图像数据以及第二图像数据,所述第二图像数据指示所述第一图像数据的背景区域。本公开实施例大幅降低了获取抠图数据的成本,能快速生成目标对象对应的图像数据,且该图像数据具有纯色背景或被快速转换成无背景的图像数据。

    视觉文本生成方法、装置、设备和存储介质

    公开(公告)号:CN118212326A

    公开(公告)日:2024-06-18

    申请号:CN202410627358.0

    申请日:2024-05-21

    Abstract: 本公开的实施例提供了一种视觉文本生成方法、装置、设备和计算机可读存储介质。本公开的实施例所提供的方法通过将视觉文本生成任务重构为图像合成问题,提出了一种包括背景生成和视觉文本渲染的两步视觉文本生成管线,其中,基于所获取的提示文本生成用于图像合成的多个元素,包括渲染文本字符的前景图像、渲染文本字符的背景的背景图像、以及指示文本字符在背景图像中的位置的位置掩模,并基于这些元素进行视觉文本渲染,从而将视觉文本平滑地渲染到特定背景中,同时保持视觉文本既可识别又与背景的风格统一。

    动作识别方法、装置、设备以及存储介质

    公开(公告)号:CN113569607A

    公开(公告)日:2021-10-29

    申请号:CN202110134629.5

    申请日:2021-01-29

    Abstract: 本申请公开了一种动作识别方法、装置、设备以及存储介质,属于图像识别领域。方法包括:按照多个维度对目标视频中的多个视频帧进行特征提取,得到多个多通道特征图。基于多个多通道特征图中每两个多通道特征图之间的相似度,确定每个多通道特征图的第一注意力权重,并基于多个多通道特征图和多个第一注意力权重,确定目标对象在目标视频中执行的动作的类型。通过上述步骤,在对目标视频进行动作识别的过程中,结合了目标视频中多个视频帧之间的相似度来得到第一注意力权重,而第一注意力权重能够表示多通道特征图与动作的相关程度,基于注意力权重和视频帧的多通道特征图进行动作识别,能够提高动作识别的准确性。

Patent Agency Ranking