一种语音处理方法及电子设备
    11.
    发明公开

    公开(公告)号:CN118737140A

    公开(公告)日:2024-10-01

    申请号:CN202410734441.8

    申请日:2024-06-06

    Inventor: 马明

    Abstract: 本申请实施例公开一种语音处理方法及电子设备,该方法包括:对声音采集器采集的语音信号进行唤醒词识别;在从所述语音信号中识别到唤醒词时,对发出所述唤醒词的目标人声进行增强;对增强后的所述目标人声进行声纹识别,确定目标发声对象;从所述语音信号中提取目标发声对象的语音指令,响应所述语音指令。这样,电子设备通过对唤醒词进行识别和增强,锁定目标发声对象,建立唤醒词和语音指令的发声对象的强关联性,从而精准识别和响应语音指令,提升人机交互系统的性能。

    一种显示设备及语音识别方法
    12.
    发明公开

    公开(公告)号:CN118675521A

    公开(公告)日:2024-09-20

    申请号:CN202410733807.X

    申请日:2024-06-06

    Inventor: 肖炳环 马明

    Abstract: 本申请一些实施例提供一种显示设备及语音识别方法,所述方法可以响应于语音交互指令,对交互语音数据中的语音信号执行小波包分解,以获得不同频带的子信号。再从子信号中提取目标特征,以生成特征向量,其中,目标特征包括频带能量、移动有效值、频谱平坦度以及基音周期中的一项或多项的组合。通过将特征向量输入预训练的语音活动检测模型,以获得语音活动检测模型输出的语音识别结果,以根据语音端点在交互语音数据截取有效语音数据段,以及根据有效语音数据段执行语音交互。所述方法可以在时域或频域信号中分别进行特征提取,可节省计算时间,降低语音活动检测模型的网络结构层数,在满足实时响应性的同时降低能耗。

    一种语音去噪方法、装置和电子设备

    公开(公告)号:CN117809669A

    公开(公告)日:2024-04-02

    申请号:CN202311354637.6

    申请日:2023-10-18

    Abstract: 本公开涉及语音处理技术领域,尤其涉及一种语音去噪方法、装置和电子设备,用于解决如何提升电子设备的语音识别的识别准确率的问题。该方法包括:获取待识别语音数据;对待识别语音数据进行小波包分解,得到至少一个实际子信号;基于实际子信号,确定每个实际子信号对应的第一参数信息;其中,第一参数信息包括实际子信号对应的实际频带的频带能量和实际子信号中共振峰的频带能量占比;基于第一参数信息和待识别语音数据的第二参数信息,确定每个实际子信号的增益值;其中,第二参数信息包括频谱平坦度和基因周期;基于每个实际子信号的增益值,以及每个实际子信号对应的实际频带的乘积,得到每个实际子信号对应的噪声抑制后的抑制频带;对抑制频带进行重构,得到去噪后的待识别语音数据。

    语音模型训练数据集构建方法及装置

    公开(公告)号:CN113450779B

    公开(公告)日:2022-11-11

    申请号:CN202110697465.7

    申请日:2021-06-23

    Inventor: 马明 刘宇

    Abstract: 本申请实施例提供一种语音模型训练数据集构建方法及装置,方法包括:获取多音字样本和非多音字样本后,对多音字样本和非多音字样本分别向量表征。进一步对多音字样本向量表征进行重复采样处理,根据重复采样的多音字样本向量表征构建新的多音字样本向量表征。最后合并多音字样本向量表征,新的多音字样本向量表征以及非多音字样本向量表征,得到构建的语音模型训练数据集。本申请提供的语音模型训练数据集构建方法及提取装置,能够增加语音模型训练数据集中多音字样本向量表征,避免多音字训练样本和非多音字训练样本分布不平衡的情况,进而提升被训练语音模型的转化准确率,提升用户使用体验。

    一种语音合成方法及系统
    15.
    发明公开

    公开(公告)号:CN114627851A

    公开(公告)日:2022-06-14

    申请号:CN202210238371.8

    申请日:2022-03-11

    Inventor: 马明

    Abstract: 本申请提供一种语音合成方法及系统,可以根据目标文本的情感类别,获取目标情感类别集,其中,目标情感类别集包括若干目标语音样本,目标语音样本的情感类别与目标文本的情感类别相同;并根据各目标语音样本的情感编码向量,获取平均情感编码向量,其中,目标语音样本的情感编码向量是目标语音样本的情感强度对应的向量表征,平均情感编码向量是对所有情感编码向量进行加和求平均值得到的;根据目标文本的文本序列编码和所述平均情感编码向量,以合成精确、稳定的情感强度对应的音频,有利于用户体验。

    一种电子设备、基于音频指令的搜索方法以及存储介质

    公开(公告)号:CN114547367A

    公开(公告)日:2022-05-27

    申请号:CN202210061388.0

    申请日:2022-01-19

    Inventor: 刘宇 马明

    Abstract: 本公开涉及一种电子设备、基于音频指令的搜索方法以及存储介质,尤其涉及信息交互技术领域。该电子设备,包括:控制器,被配置为:响应于用户输入的搜索音频指令,从搜索音频指令中提取第一声纹向量;在第一声纹向量与预先存储的至少一个第二声纹向量匹配的情况下,确定至少一个第二声纹向量所属的第一聚类簇,第一聚类簇中包括多个第二声纹向量;获取第一聚类簇对应的用户偏好信息;根据用户偏好信息响应搜索音频指令。本公开实施例用于解决现有声纹识别注册阶段操作繁琐的问题。

    音频数据处理方法、装置及电子设备

    公开(公告)号:CN114067807B

    公开(公告)日:2025-02-28

    申请号:CN202111345604.6

    申请日:2021-11-15

    Inventor: 刘宇 马明

    Abstract: 本申请实施例提供一种音频数据处理方法、装置及电子设备,可以实现:将各条待处理音频数据转录为文本数据,并对该文本数据进行分组;对每一组文本数据进行去重处理,并在去重处理后的每一组文本数据对应的各条音频数据中选取一条满足预设饱和度需求的目标音频数据添加至训练数据集;当该训练数据集中的音频数据的条数大于或等于预设阈值时,输出该训练数据集;否则,根据训练数据集中的音频数据训练声纹模型,利用训练后的声纹模型提取声纹向量,并根据该声纹向量从备选音频数据集中选择可用音频数据添加到训练数据集。本申请实施例可以从海量的音频数据中筛选出饱和度高、文本多样化的音频数据,提升声纹识别模型的模型性能。

    一种服务器、显示设备及语音交互方法

    公开(公告)号:CN117809617A

    公开(公告)日:2024-04-02

    申请号:CN202311267720.X

    申请日:2023-09-27

    Inventor: 马宏 杨善松 马明

    Abstract: 本申请一些实施例示出一种服务器、显示设备及语音交互方法,所述方法包括:接收显示设备发送用户输入的语音数据;将所述语音数据输入至情感语音模型,以获取情感类型和情感强度,所述语音情感模型是基于不同人群针对多个语义场景的样本语音数据训练得到的;获取所述语音数据对应的播报文本;基于所述播报文本、所述情感类型及所述情感强度合成播报语音;将所述播报语音发送至所述显示设备,以使所述显示设备播放所述播报语音。本申请实施例结合交互场景及用户语音特征综合输出对语音合成文本的情感干预,从而使语音交互过程更加自然,提升语音交互的个性化特征,丰富语音交互播报的情感音色。

    模型训练方法、韵律边界预测方法、装置及电子设备

    公开(公告)号:CN115662390A

    公开(公告)日:2023-01-31

    申请号:CN202211189061.8

    申请日:2022-09-28

    Inventor: 杨善松 马明

    Abstract: 本公开涉及一种模型训练方法、韵律边界预测方法、装置及电子设备,尤其涉及语音合成技术领域;其中,该方法包括:获取训练样本,训练样本包括语音数据对应的音素序列、音素时长序列以及预先标注的韵律边界;将音素序列和音素时长序列输入至初始韵律边界预测模型,得到对应的韵律边界预测结果;基于预设损失函数,根据韵律边界预测结果和预先标注的韵律边界,对初始韵律边界预测模型进行训练,得到目标韵律边界预测模型。本公开实施例通过训练样本对初始韵律边界预测模型进行训练,得到目标韵律边界预测模型,能够实现韵律边界的自动预测,避免人工标注带来的高成本和误差,使得韵律边界预测结果更准确,且有利于提高合成的语音的准确性。

    音频数据处理方法、装置及电子设备

    公开(公告)号:CN114067807A

    公开(公告)日:2022-02-18

    申请号:CN202111345604.6

    申请日:2021-11-15

    Inventor: 刘宇 马明

    Abstract: 本申请实施例提供一种音频数据处理方法、装置及电子设备,可以实现:将各条待处理音频数据转录为文本数据,并对该文本数据进行分组;对每一组文本数据进行去重处理,并在去重处理后的每一组文本数据对应的各条音频数据中选取一条满足预设饱和度需求的目标音频数据添加至训练数据集;当该训练数据集中的音频数据的条数大于或等于预设阈值时,输出该训练数据集;否则,根据训练数据集中的音频数据训练声纹模型,利用训练后的声纹模型提取声纹向量,并根据该声纹向量从备选音频数据集中选择可用音频数据添加到训练数据集。本申请实施例可以从海量的音频数据中筛选出饱和度高、文本多样化的音频数据,提升声纹识别模型的模型性能。

Patent Agency Ranking