一种虚拟数字人驱动方法、装置、设备和介质

    公开(公告)号:CN118891616A

    公开(公告)日:2024-11-01

    申请号:CN202380027498.8

    申请日:2023-03-01

    Abstract: 涉及一种虚拟数字人驱动方法、装置、设备和介质,包括:获取用户信息,用户信息包括语音信息和图像信息;根据用户信息,确定用户意图和用户情感;根据用户意图确定虚拟数字人的回复文本,以及根据用户意图和用户情感确定虚拟数字人的回复情感;根据回复文本确定虚拟数字人肢体动作,以及根据回复情感确定虚拟数字人情感表达方式,实现自然拟人化的虚拟人交互状态,提高虚拟数字人的拟真性和表达自然度。

    一种语音交互方法及显示设备

    公开(公告)号:CN112073777B

    公开(公告)日:2022-06-28

    申请号:CN202010084439.2

    申请日:2020-02-10

    Abstract: 本申请提供的语音交互方法及显示设备,应用于显示设备的第二芯片,显示设备包括显示器、与显示器通信连接的第二芯片、与第二芯片通信连接的第一芯片;包括:接收用户输入的语音信息,解析语音信息获取其中包含的语音指令,根据语音指令确定执行语音指令对应的应用;确定执行语音指令对应的应用所属操作系统;若语音指令对应的应用属于第二操作系统,第二操作系统控制语音指令对应的应用执行语音指令;若语音指令对应的应用属于第一操作系统,第二芯片将语音指令发送至第一芯片,以使第一操作系统控制语音指令对应的应用执行语音指令。本申请提供的语音交互方法及显示设备,实现双系统中语音交互的切换,促进语音控制与场景的融合,提高用户体验。

    一种唇语识别方法及显示设备
    3.
    发明公开

    公开(公告)号:CN113762142A

    公开(公告)日:2021-12-07

    申请号:CN202111033048.9

    申请日:2021-09-03

    Abstract: 本申请实施例公开了一种唇语识别方法及显示设备,其方法包括:对视频帧图像进行人脸关键点检测;提取所述视频帧图像的VVAD特征向量,并将所述VVAD特征向量保存至双向链表中对当前视频帧图像进行VVAD分类,输出所述当前视频帧图像是否为发音帧;如果所述当前视频帧图像为发音帧,提取所述当前视频帧图像的唇语特征向量;对所述唇语特征向量进行唇语特征分类,输出唇语识别结果。本申请通过把耗时较多的提取时序信息的模型拆解成了特征提取器+分类器方式,分散了这部分模型运行时的耗时,避免在某一时刻集中计算时摄像头展示画面延时现像,提高运算效率,减少对端部算力的要求,达到唇语识别模型在端侧的部署。

    语义识别方法、装置、电子设备及可读存储介质

    公开(公告)号:CN111814484A

    公开(公告)日:2020-10-23

    申请号:CN202010630029.3

    申请日:2020-07-03

    Inventor: 李金凯 成刚 孙锐

    Abstract: 本申请实施例提供一种语义识别方法、装置、电子设备及可读存储介质,先确定待识别信息对应的决策树,然后将待识别信息输入该决策树的非叶子节点,基于该非叶子节点执行语义识别操作,包括将待识别信息分发至该非叶子节点对应的语义识别系统,基于该非叶子节点对应的语义识别系统反馈的识别结果,确定待识别信息的语义识别结果,以及基于该语义识别结果的可信度将该语义识别结果输入至上述非叶子节点的子节点,当该子节点为叶子节点时,将上述语义识别结果确定为待识别信息的目标语义识别结果,当为非叶子节点时,基于该子节点继续执行上述语义识别操作。本申请可以有效降低对第三方语义识别系统的访问量,节省成本与语义识别过程的时间。

    显示设备和动作驱动模型的训练方法

    公开(公告)号:CN119417957A

    公开(公告)日:2025-02-11

    申请号:CN202411549373.4

    申请日:2024-10-31

    Inventor: 刘韶 成刚 于子亿

    Abstract: 本申请涉及一种显示设备,包括:显示器,被配置为显示来自广播系统或网络和/或用户接口的内容;以及至少一个处理器,其与所述显示器连接,并且被配置为执行指令以使所述显示设备:响应于语音查询指令,获取对应的回复文本,基于所述回复文本,生成音频数据、文本数据以及动作控制数据;通过动作驱动模型对所述音频数据、所述文本数据以及所述动作控制数据进行处理,得到动作驱动数据;播放所述音频数据和目标视频,并控制所述显示器显示所述回复文本,所述目标视频为基于所述动作驱动数据对虚拟对象进行控制生成的视频。肢体动作更加灵动。

    语音控制方法及显示设备

    公开(公告)号:CN112073776B

    公开(公告)日:2022-06-24

    申请号:CN202010039043.6

    申请日:2020-01-14

    Abstract: 本申请提供了一种语音控制方法及显示设备,通过设置显示设备中的第一芯片和第二芯片,当两个芯片中的应用同时进行并且共用一个麦克风,当其中的一个应用、如第一芯片中的第一应用,需要用到语音交互功能时,则第一芯片向第二芯片发送麦克风数据请求,第二芯片根据该麦克风数据请求,将接收的语音数据发送给第一芯片中的第一应用,来实现第一应用的语音交互功能;否则,则将语音数据发送给第二芯片中的第二应用。通过上述对两个应用的分时处理,使语音控制在两个芯片之间的切换,进而可以保证两个芯片上的应用的语音交互有效性。

    一种服务设备及人机交互方法

    公开(公告)号:CN112633211A

    公开(公告)日:2021-04-09

    申请号:CN202011603169.8

    申请日:2020-12-30

    Abstract: 本申请公开了一种服务设备及人机交互方法。用于解决采用多模态的信号来提高人机交互的适用性和稳定性的问题。本申请实施例中,采用人脸检测的方法从视频数据中提取多帧图像中的目标对象;并采用人脸特征点检测算法获取该目标对象的唇部图像;采用滑动窗口以及对齐处理等操作对唇部图像进行处理,得到待处理唇部图像序列;对待处理唇部图像序列进行初步粗分类,筛选掉虽有耦合性但不支持的唇语;对筛选过后唇部图像序列进行唇语识别,得到唇语识别结果;根据唇语识别的结果,执行相应的操作。

    一种显示设备及语音唤醒方法
    9.
    发明公开

    公开(公告)号:CN118366444A

    公开(公告)日:2024-07-19

    申请号:CN202410384920.1

    申请日:2024-03-29

    Inventor: 杨香斌 成刚

    Abstract: 本申请提供一种显示设备及语音唤醒方法,所述方法在显示器显示待机界面时,响应语音唤醒指令,获取用户输入的唤醒音频,并根据分词节点分割唤醒音频。基于第一唤醒文本,通过第一唤醒模型对第一唤醒音频执行语音识别,以及,基于第二唤醒文本对第二唤醒音频执行语音识别,当第一识别概率和第二视频概率均大于判定阈值时,唤醒显示设备,以切换待机界面为用户界面。所述方法通过将较长的唤醒音频分割为至少两个音频片段,并分别识别对应音频片段内的唤醒词内容,在音频片段的唤醒词内容与对应的唤醒文本相符时,唤醒显示设备,以节省唤醒时长,提高唤醒效率。

    语音信号的处理设备及方法
    10.
    发明公开

    公开(公告)号:CN117649848A

    公开(公告)日:2024-03-05

    申请号:CN202211632447.1

    申请日:2022-12-19

    Abstract: 本申请实施例提供了一种语音信号的处理设备及方法,涉及语音处理技术领域。该语音信号的处理方法包括:检测器,被配置为获取语音信号;控制器,被配置为:提取所述语音信号的各个音频帧的语义特征和情绪特征,然后对所述语音信号的各个语音帧的语义特征和情绪特征进行多模态双线性池化,再获取所述语音信号的各个语音帧的融合特征,最终对所述语音信号的各个语音帧的融合特征进行合并,得到所述语音信号的声学特征,本申请实施例用于解决在提取语音特征时,语音特征的表达能力不强的问题。

Patent Agency Ranking