-
公开(公告)号:CN117809632A
公开(公告)日:2024-04-02
申请号:CN202310877116.2
申请日:2023-07-17
Applicant: 海信视像科技股份有限公司
IPC: G10L15/16 , G06T19/00 , G06N3/0464 , G06N3/0455 , G06V10/764 , G06N3/08 , G10L15/22 , G10L17/02 , G10L17/18 , G10L17/22 , G10L25/18 , G10L25/30
Abstract: 本申请一些实施例示出一种显示设备及虚拟数字人生成方法,所述方法包括:接收用户输入的第一语音数据;获取第二语音数据;将第二语音数据切分为多个音频数据;将音频数据输入第一矢量化自动编码器,获取语音特征;将语音特征投影到文本动作字典,获取第一嵌入字典表征;将第一嵌入字典表征输入解码器中,获取预测关节点序列;基于预测关节点序列绘制虚拟数字人;在播放音频数据时控制显示器显示音频数据对应的虚拟数字人。本申请实施例结合文本数据与矢量化自动编码器方法学习得到文本动作字典,将经编码后语音特征数据投影到文本动作字典,使得编码后的语音特征具有更加准确的高层动作语义特征,从而提高解码后动作姿态序列的准确性。
-
公开(公告)号:CN116185191A
公开(公告)日:2023-05-30
申请号:CN202310106714.X
申请日:2023-02-08
Applicant: 海信视像科技股份有限公司
Abstract: 本公开涉及一种服务器、显示设备和虚拟数字人交互方法,涉及虚拟数字人技术领域。其中,服务器包括:控制器,被配置为:接收显示设备发送的问询语音和用户图像;确定问询语音对应的交互语音,并根据交互语音和用户图像生成第一动态视频,第一动态视频中包括交互语音和基于用户图像生成的虚拟数字人,虚拟数字人的面部表情状态与交互语音匹配;将第一动态视频发送至显示设备。本公开实施例降低了虚拟数字人的制作成本和制作难度。
-
公开(公告)号:CN115775405A
公开(公告)日:2023-03-10
申请号:CN202211469134.9
申请日:2022-11-22
Applicant: 海信视像科技股份有限公司
IPC: G06V40/16 , G06V10/82 , G06T13/40 , G06N3/0455 , G06N3/0475 , G06N3/08
Abstract: 本发明涉及一种图像生成方法、装置、电子设备和介质,包括:基于目标人脸图像的至少两个关键点以及至少一个预设关键特征,生成目标人脸图像对应的目标人脸拓扑图像;其中,每个预设关键特征对应至少两个关键点;将待预测人脸图像以及目标人脸图像对应的目标人脸拓扑图像输入至训练好的目标图像生成模型中,获取目标图像生成模型输出的目标人脸图像对应的目标预测人脸图像。采用该方式利用目标人脸拓扑图像约束目标人脸图像包含的多个关键点间的拓扑性结构,且突出目标人脸图像的预设关键特征,从而在将待预测人脸图像和目标人脸拓扑图像输入目标图像生成模型时,获得具有较高精细度的数字人图像的细节信息,提高虚拟数字人图像的生成效果。
-
公开(公告)号:CN115761065A
公开(公告)日:2023-03-07
申请号:CN202211430663.8
申请日:2022-11-15
Applicant: 海信视像科技股份有限公司
Abstract: 本公开涉及一种中间帧生成方法、装置、设备及介质,尤其涉及计算机视觉与图像处理技术领域;其中,该方法包括:基于输入的语音信息,确定待生成中间帧的时间信息,并根据时间信息获取与待生成中间帧关联的待处理视频帧,其中,输入的语音信息用于驱动虚拟数字人进行动作;将待处理视频帧输入至光流估计网络模型中,得到对应的光流估计结果和融合图;基于光流估计结果和融合图,生成对应的中间帧。本公开实施例通过上述过程能够生成中间帧,通过中间帧有利于确保虚拟数字人在状态转换过程中自然过渡,使得虚拟数字人能在语音驱动下连贯地完成相应动作。
-
公开(公告)号:CN119991873A
公开(公告)日:2025-05-13
申请号:CN202411982780.4
申请日:2024-12-31
Applicant: 海信视像科技股份有限公司
IPC: G06T11/60 , G06F40/109 , G06N3/0455 , G06N5/04
Abstract: 本申请涉及一种绘本改写方法、绘本续写方法及显示设备,涉及显示设备技术领域。该方法包括:接收改写需求信息,将当前所述绘本的标识作为绘本标识;识别出文本信息,并根据绘本标识从数据库中获取绘本信息;将表征角色的信息输入文本处理模型,得到改写文本内容;将所述改写文本内容、表征风格的信息和表征角色特征的信息输入图像处理模型,得到改写图像数据;进行播放音频数据合成处理,得到播报音频数据,进行背景音频数据生成处理,得到背景音频数据;将绘本图像数据替换为所述改写图像数据,以及将播报音频数据和背景音频数据替换为所述改写图像数据对应的播报音频数据和背景音频数据,得到改写后绘本。采用本方法能够提高绘本的改写效率。
-
公开(公告)号:CN119356569A
公开(公告)日:2025-01-24
申请号:CN202411321804.1
申请日:2024-09-20
Applicant: 海信视像科技股份有限公司
IPC: G06F3/0482 , G06F3/04845 , G06F3/04883 , G06F18/24
Abstract: 本申请涉及一种显示设备以及内容展示方法,涉及显示设备技术领域。显示设备包括:显示器、音频输出装置,以及控制器。控制器被配置为在显示器显示第一内容页的过程中,控制音频输出装置播放第一内容页包含的内容文本的播报音频,第一内容页的竖中线处显示有目标图形元素,目标图形元素用于模拟内容采用跨页排版的排版方式;响应于触发第一内容页翻页的条件,控制显示器显示由第一内容页切换至第二内容页的翻页媒体内容;在翻页媒体内容结束之后,通过显示器完整显示第二内容页,并控制音频输出装置播放第二内容页包含的内容文本的播报音频,第二内容页的竖中线处显示有目标图形元素。本申请能够提高显示设备对内容的展示效果。
-
公开(公告)号:CN119166866A
公开(公告)日:2024-12-20
申请号:CN202411117080.9
申请日:2024-08-14
Applicant: 海信视像科技股份有限公司
IPC: G06F16/9032 , G06F16/903 , G06F16/9035 , G06F16/9038 , G06F16/906 , G06V10/764
Abstract: 本申请一些实施例提供一种显示设备及界面内容标注方法,所述方法通过响应于第一请求标注指令,获取当前显示的界面图像以及用户界面的元信息,再将第一请求标注指令、界面图像以及元信息输入至多模态检索系统检索关联信息,再将关联信息、第一请求标注指令以及界面图像输入至多模态理解模型生成标注反馈信息,控制显示器在用户界面上显示标注反馈信息。所述方法通过多模态检索系统对多模态信息执行信息检索,其中,通过使用第一请求标注指令、界面图像以及元信息等作为多模态信息,可提升信息检索和理解的准确性,进而提高标注内容的准确率。
-
公开(公告)号:CN118891616A
公开(公告)日:2024-11-01
申请号:CN202380027498.8
申请日:2023-03-01
Applicant: 海信视像科技股份有限公司
IPC: G06F16/783
Abstract: 涉及一种虚拟数字人驱动方法、装置、设备和介质,包括:获取用户信息,用户信息包括语音信息和图像信息;根据用户信息,确定用户意图和用户情感;根据用户意图确定虚拟数字人的回复文本,以及根据用户意图和用户情感确定虚拟数字人的回复情感;根据回复文本确定虚拟数字人肢体动作,以及根据回复情感确定虚拟数字人情感表达方式,实现自然拟人化的虚拟人交互状态,提高虚拟数字人的拟真性和表达自然度。
-
公开(公告)号:CN115617162A
公开(公告)日:2023-01-17
申请号:CN202211119932.9
申请日:2022-09-14
Applicant: 海信视像科技股份有限公司
Abstract: 本公开涉及一种数据处理方法、装置和电子设备,涉及人机交互技术领域,语音解决如何通过数据虚拟人来播报答复信息的问题。该方法包括:接收电子设备发送的用于触发人机交互的语音信息;对语音信息进行识别,确定语音信息的回复信息;将回复信息输入至文本驱动模型,确定目标关键点集合;向电子设备发送携带回复信息和目标关键点集合的目标信息,以便电子设备根据预先配置的虚拟数字人的脸部对应的预设关键点集合、回复信息和目标关键点集合生成虚拟数字人的渲染图像。
-
-
-
-
-
-
-
-