一种数据处理方法、装置和电子设备

    公开(公告)号:CN115617162A

    公开(公告)日:2023-01-17

    申请号:CN202211119932.9

    申请日:2022-09-14

    Abstract: 本公开涉及一种数据处理方法、装置和电子设备,涉及人机交互技术领域,语音解决如何通过数据虚拟人来播报答复信息的问题。该方法包括:接收电子设备发送的用于触发人机交互的语音信息;对语音信息进行识别,确定语音信息的回复信息;将回复信息输入至文本驱动模型,确定目标关键点集合;向电子设备发送携带回复信息和目标关键点集合的目标信息,以便电子设备根据预先配置的虚拟数字人的脸部对应的预设关键点集合、回复信息和目标关键点集合生成虚拟数字人的渲染图像。

    一种唇语识别方法及显示设备
    12.
    发明公开

    公开(公告)号:CN113762142A

    公开(公告)日:2021-12-07

    申请号:CN202111033048.9

    申请日:2021-09-03

    Abstract: 本申请实施例公开了一种唇语识别方法及显示设备,其方法包括:对视频帧图像进行人脸关键点检测;提取所述视频帧图像的VVAD特征向量,并将所述VVAD特征向量保存至双向链表中对当前视频帧图像进行VVAD分类,输出所述当前视频帧图像是否为发音帧;如果所述当前视频帧图像为发音帧,提取所述当前视频帧图像的唇语特征向量;对所述唇语特征向量进行唇语特征分类,输出唇语识别结果。本申请通过把耗时较多的提取时序信息的模型拆解成了特征提取器+分类器方式,分散了这部分模型运行时的耗时,避免在某一时刻集中计算时摄像头展示画面延时现像,提高运算效率,减少对端部算力的要求,达到唇语识别模型在端侧的部署。

    一种显示设备、服务器以及故事绘本生成方法

    公开(公告)号:CN119991874A

    公开(公告)日:2025-05-13

    申请号:CN202411982826.2

    申请日:2024-12-31

    Abstract: 本申请涉及一种显示设备、服务器以及故事绘本生成方法。所述方法包括:接收显示设备发送的用户输入的交互内容,基于交互内容调用大语言模型,生成故事文本,故事文本包括多个分镜的分镜文本,触发应用于大语言模型的分镜提示词提取模型,从每一分镜文本中提取出分镜提示词,分镜提示词提取模型基于包含与角色相匹配的分镜提示词标注的分镜文本样本,对低秩适应模型训练得到,针对每一分镜,基于分镜的分镜提示词,生成分镜的分镜图,将多个分镜的分镜文本和分镜图作为故事绘本数据,反馈至显示设备,以使显示设备显示故事绘本数据。采用本方法能够生成高质量的故事绘本,有效提升用户的交互体验。

    一种故事绘本编辑方法、显示设备以及服务器

    公开(公告)号:CN119991869A

    公开(公告)日:2025-05-13

    申请号:CN202411980710.5

    申请日:2024-12-31

    Abstract: 本申请涉及一种故事绘本编辑方法、显示设备以及服务器。所述故事绘本编辑方法包括:接收绘本创作服务调用请求,绘本创作服务调用请求携带故事绘本的标识数据和绘本编辑内容,根据标识数据和绘本编辑内容,调整故事绘本中的文本数据,基于调整后的文本数据确定提示词,提示词用于指导视觉生成大模型生成图像,根据标识数据查询故事绘本的视觉特征数据,以视觉特征数据和提示词为输入,调用视觉生成大模型,生成调整后的绘本图像,整合调整后的文本数据和调整后的绘本图像,得到编辑后的故事绘本。通过本方法能够提高编辑后的故事绘本与原故事绘本的一致性。

    虚拟人交互方法、装置、电子设备和介质

    公开(公告)号:CN117648027A

    公开(公告)日:2024-03-05

    申请号:CN202211695705.0

    申请日:2022-12-28

    Abstract: 本发明涉及一种虚拟人交互方法、装置、电子设备和介质,包括:通过获取目标用户相对于智能设备的空间位置参数;根据空间位置参数,在多个预设范围内确定目标预设范围;确定目标预设范围对应的虚拟人图像为目标用户对应的目标虚拟人图像,其中,目标虚拟人图像中包含的目标虚拟人对应一个预设角度;针对目标虚拟人,根据空间位置参数和预设角度,获取目标虚拟人在目标坐标系中的视线参数,其中,目标坐标系是根据智能设备的显示界面进行构建的;根据视线参数、以及目标虚拟人眼球在目标坐标系中的至少一个初始关键点坐标,确定目标虚拟人的视线方向。采用该方法能够使得目标用户与虚拟人进行交流互动时自动面向用户,实现与用户的眼神交流互动。

    一种服务器、显示设备和虚拟数字人交互方法

    公开(公告)号:CN116185191A

    公开(公告)日:2023-05-30

    申请号:CN202310106714.X

    申请日:2023-02-08

    Abstract: 本公开涉及一种服务器、显示设备和虚拟数字人交互方法,涉及虚拟数字人技术领域。其中,服务器包括:控制器,被配置为:接收显示设备发送的问询语音和用户图像;确定问询语音对应的交互语音,并根据交互语音和用户图像生成第一动态视频,第一动态视频中包括交互语音和基于用户图像生成的虚拟数字人,虚拟数字人的面部表情状态与交互语音匹配;将第一动态视频发送至显示设备。本公开实施例降低了虚拟数字人的制作成本和制作难度。

    一种中间帧生成方法、装置、设备及介质

    公开(公告)号:CN115761065A

    公开(公告)日:2023-03-07

    申请号:CN202211430663.8

    申请日:2022-11-15

    Abstract: 本公开涉及一种中间帧生成方法、装置、设备及介质,尤其涉及计算机视觉与图像处理技术领域;其中,该方法包括:基于输入的语音信息,确定待生成中间帧的时间信息,并根据时间信息获取与待生成中间帧关联的待处理视频帧,其中,输入的语音信息用于驱动虚拟数字人进行动作;将待处理视频帧输入至光流估计网络模型中,得到对应的光流估计结果和融合图;基于光流估计结果和融合图,生成对应的中间帧。本公开实施例通过上述过程能够生成中间帧,通过中间帧有利于确保虚拟数字人在状态转换过程中自然过渡,使得虚拟数字人能在语音驱动下连贯地完成相应动作。

    绘本生成方法及显示设备
    18.
    发明公开

    公开(公告)号:CN119991870A

    公开(公告)日:2025-05-13

    申请号:CN202411982385.6

    申请日:2024-12-31

    Abstract: 本申请涉及一种绘本生成方法及显示设备,涉及显示设备技术领域。该方法包括:接收到绘本生成需求信息,识别出绘本生成需求信息对应的文本信息;将文本信息输入文本处理模型,得到绘本角色信息和绘本主题信息;利用绘本角色信息和绘本主题信息,从预设的绘本风格信息中筛选出相匹配的目标绘本风格信息,以及从预设的播报音色信息中筛选出相匹配的目标播报音色信息;从预设的背景音频信息中,筛选出与绘本主题信息和目标绘本风格信息相匹配的目标背景音频信息;基于绘本角色信息、绘本主题信息、目标绘本风格信息、目标播报音色信息和目标背景音频信息,进行绘本生成处理,得到与绘本生成需求信息对应的绘本。本申请能够提升绘本生成处理的效率。

    一种虚拟数字人的生成方法、装置和电子设备

    公开(公告)号:CN119968653A

    公开(公告)日:2025-05-09

    申请号:CN202380070288.7

    申请日:2023-08-14

    Abstract: 本申请提供一种虚拟数字人的生成方法、装置和电子设备,涉及人机交互技术领域,用于解决如何保证用户执行电子设备播放的健身视频对应的健身动作的一致性的问题。该方法包括:获取播放目标视频时图像采集装置采集的第一帧图像;对第一帧图像进行人体关键识别,确定人体关键点之间的位置信息、目标身体部位的第一实际长度以及除目标身体部位以外的其它身体部位的第二实际长度;根据目标比例关系和第一实际长度,确定除目标身体部位以外的其它身体部位的第预测长度;基于第二实际长度和所述预测长度,确定其它身体部位的绘制高度;基于第一实际长度、绘制高度以及位置关系进行绘制,生成虚拟数字人。

    一种服务器、显示设备及数字人交互方法

    公开(公告)号:CN117809681A

    公开(公告)日:2024-04-02

    申请号:CN202311267849.0

    申请日:2023-09-27

    Abstract: 本申请一些实施例示出一种服务器、显示设备及数字人交互方法,所述方法包括:在接收到显示设备发送用户输入的语音数据后,获取用户图像数据,以及根据语音数据确定播报文本;将用户图像数据映射到三维空间,得到形象系数;确定情感系数序列;基于播报文本、形象系数和情感系数序列生成数字人图像数据;基于播报文本生成播报语音;将播报语音和数字人图像数据发送至显示设备,以使显示设备基于数字人图像数据显示数字人图像并播放播报语音。本申请实施例通过将获取到的用户图像数据映射到三维空间,在三维空间可根据高拟人化的情感编辑实现对表情的可控调节,使数字人表情更加拟真人化。

Patent Agency Ranking