电子设备、语音处理方法、装置及存储介质

    公开(公告)号:CN119007716A

    公开(公告)日:2024-11-22

    申请号:CN202310569294.9

    申请日:2023-05-19

    Abstract: 本发明实施例涉及语音技术领域,公开了一种电子设备、语音处理方法、装置及存储介质,该电子设备包括:接收器,被配置为接收语音指令;与所述接收器耦接的控制器,所述控制器被配置为:在接收到所述语音指令时,将所述语音指令转换为语音文本;将所述语音文本与语义检测数据库中的语音特征进行匹配,确定第一检测结果;基于所述第一检测结果,采用预先训练的语义完整性检测模型对所述语音文本进行语义完整性检测,确定所述语音指令的第二检测结果;根据所述第一检测结果或所述第二检测结果,确定所述语音指令对应的语义信息,并基于所述语义信息执行所述语音指令。应用本发明的技术方案,能够提高检测语音指令的语义完整性的准确率。

    一种显示设备及基于唤醒词声纹的指令识别方法

    公开(公告)号:CN118609575A

    公开(公告)日:2024-09-06

    申请号:CN202410772645.0

    申请日:2024-06-14

    Abstract: 本申请提供一种显示设备及基于唤醒词声纹的指令识别方法,所述方法通过声音采集器获取待提取音频后,通过语音提取模型在待提取音频中识别唤醒词音频,并通过语音提取模型提取唤醒词音频的目标声纹向量,根据目标声纹向量在待提取音频中提取目标指令词音频,根据目标指令词音频生成控制指令,以及,响应于控制指令,控制显示器显示执行控制指令后的目标用户界面。本申请通过对唤醒词音频对应的声纹向量进行识别,并基于声纹向量获取有效的指令词音频以生成对应的控制指令,减少待提取音频中的其他指令词音频对有效指令词音频的干扰,提高显示设备识别指令的准确性。

    虚拟人交互方法、装置、电子设备和介质

    公开(公告)号:CN117648027A

    公开(公告)日:2024-03-05

    申请号:CN202211695705.0

    申请日:2022-12-28

    Abstract: 本发明涉及一种虚拟人交互方法、装置、电子设备和介质,包括:通过获取目标用户相对于智能设备的空间位置参数;根据空间位置参数,在多个预设范围内确定目标预设范围;确定目标预设范围对应的虚拟人图像为目标用户对应的目标虚拟人图像,其中,目标虚拟人图像中包含的目标虚拟人对应一个预设角度;针对目标虚拟人,根据空间位置参数和预设角度,获取目标虚拟人在目标坐标系中的视线参数,其中,目标坐标系是根据智能设备的显示界面进行构建的;根据视线参数、以及目标虚拟人眼球在目标坐标系中的至少一个初始关键点坐标,确定目标虚拟人的视线方向。采用该方法能够使得目标用户与虚拟人进行交流互动时自动面向用户,实现与用户的眼神交流互动。

    一种用户画像方法、装置和电子设备

    公开(公告)号:CN115376523A

    公开(公告)日:2022-11-22

    申请号:CN202210532578.6

    申请日:2022-05-10

    Abstract: 本公开提供了一种用户画像方法、装置和电子设备,涉及智能交互技术领域,以至少解决相关技术中同一个用户在通过不同的交互方式唤醒语音助手时,会出现创建多个声纹标识码的现象,导致无法准确地为用户画像的问题。该方法包括获取目标账户的至少一条历史语音信息;采用目标聚类算法对历史语音信息进行聚类,确定每个历史语音信息对应的交互类别,以及每个交互类别对应的至少一个聚类中心;根据聚类中心,确定目标类别的每个聚类中心,与预设类别的每个聚类中心之间的第一距离;根据第一距离,确定目标账号中每个用户的用户画像。

    显示设备、服务器及语音合成方法

    公开(公告)号:CN119107933A

    公开(公告)日:2024-12-10

    申请号:CN202411045678.1

    申请日:2024-07-31

    Inventor: 刘宇 马明

    Abstract: 本申请提供一种显示设备、服务器及语音合成方法。所述显示设备在接收到用户输入的语音交互指令时,调用语言提取模型提取样本文本中的逐字向量和整句向量。语言提取模型为根据样本文本训练得到的模型,且样本文本中设置有特征标签。通过特征标签可以在训练模型的过程中使模型具有识别口语化特征的能力,进而在合成语音中增加口语化特征,提高合成语音的拟人度。根据样本文本和样本文本的音频还可以提取语速标签向量和音素向量。将逐字向量、整句向量、语速标签向量和音素向量共同输入至解码器可以得到目标合成语音,并由音频输出装置播放目标合成语音。

    声学模型训练方法、语音合成方法、装置及计算机设备

    公开(公告)号:CN116312458A

    公开(公告)日:2023-06-23

    申请号:CN202310133141.X

    申请日:2023-02-17

    Inventor: 殷腾龙 马明

    Abstract: 本申请涉及一种声学模型训练方法、语音合成方法、装置及计算机设备,应用于语音合成领域,可以提高文本合成语音的准确性。该方法包括:获取样本音素序列、样本音素序列对应的标准梅尔频谱和标准梅尔频谱的长度;将样本音素序列和标准梅尔频谱的长度输入声学模型,得到样本音素序列对应的梅尔频谱,声学模型包括音素嵌入层、编码器、长度预测器、长度调节器和解码器;长度预测器用于基于中间向量获得各个音素对应的长度占比,并基于标准梅尔频谱的长度和各个音素的长度占比确定各个音素对应的梅尔频谱的长度;基于样本音素序列对应的梅尔频谱和标准梅尔频谱,训练声学模型,得到训练好的目标声学模型。

    一种数据处理方法、装置和电子设备

    公开(公告)号:CN115617162A

    公开(公告)日:2023-01-17

    申请号:CN202211119932.9

    申请日:2022-09-14

    Abstract: 本公开涉及一种数据处理方法、装置和电子设备,涉及人机交互技术领域,语音解决如何通过数据虚拟人来播报答复信息的问题。该方法包括:接收电子设备发送的用于触发人机交互的语音信息;对语音信息进行识别,确定语音信息的回复信息;将回复信息输入至文本驱动模型,确定目标关键点集合;向电子设备发送携带回复信息和目标关键点集合的目标信息,以便电子设备根据预先配置的虚拟数字人的脸部对应的预设关键点集合、回复信息和目标关键点集合生成虚拟数字人的渲染图像。

    多音字消歧和韵律控制联合方法、系统以及电子设备

    公开(公告)号:CN113191143B

    公开(公告)日:2022-09-16

    申请号:CN202110568660.X

    申请日:2021-05-25

    Inventor: 马明 刘宇

    Abstract: 本申请提供多音字消歧和韵律控制联合方法、系统以及电子设备;获取待处理文本和其词性,转换为字符向量和词性向量并拼接得到成拼接向量;通过交替训练策略训练获取联合模型、第一组权重和第二组权重;联合模型包括第一神经网络和第二神经网络,通过联合模型对拼接向量进行编码,得到字符的第一句中编码和第二句中编码;按照第一组权重得到多音加权和,通过第一全连接层,得到多音字的读音概率分布;通过掩码去除多音字的读音概率分布中不正确的读音,得到最终读音预测;按照第二组权重得到韵律加权和,通过第二全连接层和条件随机场,得到韵律停顿等级。消除流式结构处理导致误差累积,提高文本转语音的计算速度。

    语音模型训练数据集构建方法及装置

    公开(公告)号:CN113450779A

    公开(公告)日:2021-09-28

    申请号:CN202110697465.7

    申请日:2021-06-23

    Inventor: 马明 刘宇

    Abstract: 本申请实施例提供一种语音模型训练数据集构建方法及装置,方法包括:获取多音字样本和非多音字样本后,对多音字样本和非多音字样本分别向量表征。进一步对多音字样本向量表征进行重复采样处理,根据重复采样的多音字样本向量表征构建新的多音字样本向量表征。最后合并多音字样本向量表征,新的多音字样本向量表征以及非多音字样本向量表征,得到构建的语音模型训练数据集。本申请提供的语音模型训练数据集构建方法及提取装置,能够增加语音模型训练数据集中多音字样本向量表征,避免多音字训练样本和非多音字训练样本分布不平衡的情况,进而提升被训练语音模型的转化准确率,提升用户使用体验。

    一种显示设备和音色模板生成方法

    公开(公告)号:CN119473081A

    公开(公告)日:2025-02-18

    申请号:CN202411321149.X

    申请日:2024-09-20

    Inventor: 马明

    Abstract: 本申请涉及一种显示设备和音色模板生成方法。该方法包括:响应于针对显示设备在内容生成平台中显示的音色创建入口的触发操作,确定语音录入提示信息;接收终端对用户的语音进行采集得到的用户语音片段;根据用户语音片段,生成用户对应的用户音色模板;其中,用户音色模板用于生成内容生成平台中的多媒体内容,且多媒体内容中音频数据的音色与用户的音色匹配。能够使得多媒体内容的音色与该用户的音色匹配即尽可能接近,从而可以快速生成满足用户需求的多媒体内容,提高了多媒体内容的生成效率。

Patent Agency Ranking