-
公开(公告)号:CN119991868A
公开(公告)日:2025-05-13
申请号:CN202411980675.7
申请日:2024-12-31
Applicant: 海信视像科技股份有限公司
IPC: G06T11/60 , G06F40/109 , G06N3/0455 , G06N5/04
Abstract: 本申请公开了一种显示设备、服务器及绘本生成方法,该方法显示设备响应于打开绘本应用的指令,在显示器上显示绘本应用的功能页面;响应于在功能页面触发的绘本生成指令,生成目标绘本,目标绘本包含具有页序的至少一页绘本页;在显示器上显示绘本播放页面,绘本播放页面的绘本展示区用于按照页序展示至少一页绘本页;响应于对绘本播放页面中绘本编辑控件的触发操作,获取用户输入的新增文本内容,基于新增文本内容和目标绘本对应的绘本风格,生成新增文本内容对应的目标图像;将新增文本内容和目标图像组成新增绘本页;将新增绘本页插入目标绘本中,得到更新后的绘本,在绘本展示区展示更新后的绘本。本方法能够生成符合用户个性化需求的绘本。
-
公开(公告)号:CN119815090A
公开(公告)日:2025-04-11
申请号:CN202411608557.3
申请日:2024-11-11
Applicant: 海信视像科技股份有限公司
IPC: H04N21/422 , G10L15/26 , G06F3/04817 , G06F3/04842 , G06F3/04847 , G06F3/04886
Abstract: 本申请公开了一种显示设备及显示设备控制方法,该方法接收用户输入的交互指令,获取交互指令相应的交互文本;针对首次输出交互文本相应的操作指令的过程,至少将交互文本和用于指导大模型输出操作指令的操作规范提示作为大模型的输入,至少输出对演示功能进行操作的首个操作指令;针对非首次输出交互文本相应的操作指令的过程,至少将交互文本、大模型上一次输出的内容,及操作规范提示输入至大模型,至少输出当前的操作指令;在每次输出操作指令的情况下,执行输出的操作指令以完成对演示功能进行操作的执行动作序列,以实现相应的操作功能,直至最后一次输出的操作指令执行完成。采用本方法能够提升显示设备的智能操控性。
-
公开(公告)号:CN112633208A
公开(公告)日:2021-04-09
申请号:CN202011599830.2
申请日:2020-12-30
Applicant: 海信视像科技股份有限公司
IPC: G06K9/00
Abstract: 本申请公开了一种唇语识别方法、服务设备及存储介质,服务设备首先对目标对象进行视频采集,然后对需要提取唇部信息的每帧目标图像分别执行:从目标图像中提取出目标对象的唇部图像,对唇部图像进行分类识别,将唇部图像划分为发音帧或静默帧,若连续多帧唇部图像的分类识别结果满足从静默帧到发音帧再到静默帧的变化规律,则基于该变化规律从连续多帧唇部图像中定位唇语的起止位置,在获取起始位置之间的唇部图像序列之后,对唇部图像序列进行初步粗分类,筛选掉虽有耦合性但不支持的唇语,对筛选后的唇部图像序列进行唇语识别,得到唇语识别结果。从而可以在除语音交互外,增加基于唇语识别结果的多模态的信号提高人机交互的适用性和稳定性。
-
公开(公告)号:CN119991873A
公开(公告)日:2025-05-13
申请号:CN202411982780.4
申请日:2024-12-31
Applicant: 海信视像科技股份有限公司
IPC: G06T11/60 , G06F40/109 , G06N3/0455 , G06N5/04
Abstract: 本申请涉及一种绘本改写方法、绘本续写方法及显示设备,涉及显示设备技术领域。该方法包括:接收改写需求信息,将当前所述绘本的标识作为绘本标识;识别出文本信息,并根据绘本标识从数据库中获取绘本信息;将表征角色的信息输入文本处理模型,得到改写文本内容;将所述改写文本内容、表征风格的信息和表征角色特征的信息输入图像处理模型,得到改写图像数据;进行播放音频数据合成处理,得到播报音频数据,进行背景音频数据生成处理,得到背景音频数据;将绘本图像数据替换为所述改写图像数据,以及将播报音频数据和背景音频数据替换为所述改写图像数据对应的播报音频数据和背景音频数据,得到改写后绘本。采用本方法能够提高绘本的改写效率。
-
公开(公告)号:CN118891616A
公开(公告)日:2024-11-01
申请号:CN202380027498.8
申请日:2023-03-01
Applicant: 海信视像科技股份有限公司
IPC: G06F16/783
Abstract: 涉及一种虚拟数字人驱动方法、装置、设备和介质,包括:获取用户信息,用户信息包括语音信息和图像信息;根据用户信息,确定用户意图和用户情感;根据用户意图确定虚拟数字人的回复文本,以及根据用户意图和用户情感确定虚拟数字人的回复情感;根据回复文本确定虚拟数字人肢体动作,以及根据回复情感确定虚拟数字人情感表达方式,实现自然拟人化的虚拟人交互状态,提高虚拟数字人的拟真性和表达自然度。
-
公开(公告)号:CN115617162A
公开(公告)日:2023-01-17
申请号:CN202211119932.9
申请日:2022-09-14
Applicant: 海信视像科技股份有限公司
Abstract: 本公开涉及一种数据处理方法、装置和电子设备,涉及人机交互技术领域,语音解决如何通过数据虚拟人来播报答复信息的问题。该方法包括:接收电子设备发送的用于触发人机交互的语音信息;对语音信息进行识别,确定语音信息的回复信息;将回复信息输入至文本驱动模型,确定目标关键点集合;向电子设备发送携带回复信息和目标关键点集合的目标信息,以便电子设备根据预先配置的虚拟数字人的脸部对应的预设关键点集合、回复信息和目标关键点集合生成虚拟数字人的渲染图像。
-
公开(公告)号:CN113762142A
公开(公告)日:2021-12-07
申请号:CN202111033048.9
申请日:2021-09-03
Applicant: 海信视像科技股份有限公司
IPC: G06K9/00 , G06F40/30 , G06F40/205 , G06F16/22 , G06N3/04 , G06N3/08 , G10L15/08 , G10L15/25 , G10L25/03 , G10L25/57
Abstract: 本申请实施例公开了一种唇语识别方法及显示设备,其方法包括:对视频帧图像进行人脸关键点检测;提取所述视频帧图像的VVAD特征向量,并将所述VVAD特征向量保存至双向链表中对当前视频帧图像进行VVAD分类,输出所述当前视频帧图像是否为发音帧;如果所述当前视频帧图像为发音帧,提取所述当前视频帧图像的唇语特征向量;对所述唇语特征向量进行唇语特征分类,输出唇语识别结果。本申请通过把耗时较多的提取时序信息的模型拆解成了特征提取器+分类器方式,分散了这部分模型运行时的耗时,避免在某一时刻集中计算时摄像头展示画面延时现像,提高运算效率,减少对端部算力的要求,达到唇语识别模型在端侧的部署。
-
公开(公告)号:CN119922359A
公开(公告)日:2025-05-02
申请号:CN202411982475.5
申请日:2024-12-31
Applicant: 海信视像科技股份有限公司
IPC: H04N21/422 , H04N21/431 , H04N21/4788 , H04N21/8545
Abstract: 本申请公开了一种显示设备及显示方法,该方法响应于打开绘本应用的指令,在显示器上显示绘本应用的功能页面,功能页面显示有通过语音交互生成绘本的提示;响应于语音交互指令,在显示器上显示绘本生成等待页面,绘本生成等待页面显示有绘本生成的进度;在生成绘本后,在显示器上显示绘本播放页面,绘本播放页面包含图像展示区和文本展示区,生成的绘本包含具有顺序的至少一段故事内容以及每段故事内容对应的图像;按照顺序在文本展示区依次展示至少一段故事内容,对文本展示区正在展示的目标故事内容进行语音播报,并在图像展示区展示目标故事内容对应的图像。采用本方法能够根据语音交互指令自动生成符合用户需求的绘本,并进行展示和播放。
-
公开(公告)号:CN119440449A
公开(公告)日:2025-02-14
申请号:CN202411570616.2
申请日:2024-11-05
Applicant: 海信视像科技股份有限公司
Abstract: 本申请提供一种显示设备和图像显示方法,该显示设备包括显示器和控制器。显示器显示应用界面,应用界面包括第一输入区、第二输入区以及图像展示区。控制器被配置为响应于接收到用户在第一输入区输入的触控指令,控制显示器在第一输入区显示用户绘制的第一图像;基于图像生成模型对第一图像进行处理得到第二图像,并控制显示器在图像展示区显示第二图像;响应于接收到用户输入的第一描述文本,控制显示器在第二输入区显示第一描述文本;基于图像生成模型对第一描述文本和第一图像进行处理,得到符合第一描述文本的第三图像,并控制显示器在图像展示区显示第三图像。本申请能够解决显示设备生成的图像与用户真实期望偏差过大的问题。
-
公开(公告)号:CN117370605A
公开(公告)日:2024-01-09
申请号:CN202210751784.6
申请日:2022-06-28
Applicant: 海信视像科技股份有限公司
IPC: G06F16/783 , G06N3/0464 , G06N3/045 , G06N3/08 , G10L15/16 , G10L15/22 , G10L17/02 , G10L17/18 , G10L17/22 , G10L25/18 , G10L25/30 , G10L25/63 , G10L25/90
Abstract: 本公开涉及一种虚拟数字人驱动方法、装置、设备和介质,包括:获取用户信息,用户信息包括语音信息和图像信息;根据用户信息,确定用户意图和用户情感;根据用户意图确定虚拟数字人的回复文本,以及根据用户意图和用户情感确定虚拟数字人的回复情感;根据回复文本确定虚拟数字人肢体动作,以及根据回复情感确定虚拟数字人情感表达方式,实现自然拟人化的虚拟人交互状态,提高虚拟数字人的拟真性和表达自然度。
-
-
-
-
-
-
-
-
-